精华区文章阅读

发信人: dormouse (出征 V 号带飘扬), 信区: Communication
标  题: 消费产品的语音识别设计策略
发信站: 哈工大紫丁香 (2001年06月20日21:28:19 星期三), 站内信件

消费产品的语音识别设计策略
上网时间：2000年05月

采用当今SR技术，任何用按钮作为用户接口的消费电子产品可以用SR芯片作为接口
。用SR作为接口将提高产品价值，使之从其他产品中脱颖而出，对用户而言显得更
友好,因此对任何消费电子OEM而言认真考虑在他们的产品中加入SR技术是势在必行
的。
Bruce L. Roseman
Marcom Manager
Sensory, Inc.

优化语音识别算法和语音识别处理器的选择

影响语音识别精度的因素

词汇选择和工作流程

增加提示以减少识别错误

识别错误

语音识别特性选择

嵌入式语音产品接口

易受成本影响的设计策略

最佳方案概述及例证

本文将深入探讨在消费电子产品实现SR所涉及到的技术和环境因素。也将分析有关
技术、特性和在任意给定的消费电子产品中设置SR的成本等开发者所面临的选择。
在选择SR技术时需要考虑如下事项：产品功能、大小、功率、设计成本、投放市场
时间以及产品开发成本。所有这些因素将最终影响产品最佳语音识别方案的选择。

优化语音识别算法和语音识别处理器的选择

一种流行的低成本单芯片方案包括在一个IC上集成常规模拟和硬件加速器模块以及
语音识别软件引擎。加速器模块包括常规数字滤波器、硬件乘法器和其他专业片上
硬件模块。这种工艺的最好例证是当语音识别作为系统方案来临时，可具有在小尺
寸硅片上获得高分辨精度和低功耗的优势。这种方案能实现非常有效的小外形设计
，这样也容易在现有产品中研制样机。如图1 RSC-364电路。

如果不用考虑成本，那么现有的DSP、编解码器、模拟元件和内存器件等可能会成
为理想的选择。这种方法需要从OEM得到更多的系统设计，包括在现有硬件中加入
语音识别算法。而这些可行的方案很难在成本上与上文提到的完全集成方法相抗衡
。它还需要更长的交付周期用于OEM开发。如果产品中已经有了嵌入式DSP和CODEC
软件方法则是最佳方案。在这些独特情形下软件方案可以从根本上节省系统成本。

影响语音识别精度的因素

尽管每个人都声称有高精度，语音识别精度本身却很难衡量。这主要因为没有标准
的基准。很多因素影响SR精度，包括：环境噪声、使用者的语音(受年龄、性别、
口音、重音程度、健康、语音强度甚至一天中说话的时间)、使用产品的用户的水
平和垂直位置、声学环境、麦克风类型、麦克风安装以及所使用的提示类型，所有
这些都能影响识别性能。当在用户产品中设计语音识别时必须考虑这些因素。然而
即使正确组合麦克风、麦克风的位置、用户提示和命令对话等因素，在使用成功产
品和用过一次便束之高阁的产品时也能产生差别。

词汇选择和工作流程

为用户接口设计选择正确词汇是所有语音识别产品的关键所在。当设计一个语音激
励系统时，必须考虑该产品所有可能的指令场景，并选择在大部分工作环境下（比
如汽车、家庭、办公室、街道、机场、购物广场、卧室、医院等等）产品能运行良
好的方案。除此以外对嵌入式系统还有一些独特的标准。例如嵌入式系统识别器大
部分不包括语义识别；通常只识别单词本身的词义或不连续识别，而且不考虑上下
文。

因此尽可能保持词汇指令结构的简单和精确时很重要的。要记住，这一点可为普通
用户提高使用的简易性。然而还要记住的是一些太简单或为单音节的词象“Stop”
、“on”、或“call”等很容易与其他声音以及单音节词或是噪声相混淆，从而容
易错误触发器件的音节。(例如开关灯的声音，即使你不想这样)。这是由于在这样
的词中缺少语音信息。因此短语可为错误触发提供更高的回复力。(例如“灯开了
”)。

增加提示以减少识别错误

在SR产品中适当使用合成语音提示能大大提高用户操作产品的能力，而不用使用复
杂的指南或指令。好的指令可通过产品功能指导用户，而不会在用户完全掌握后仍
制造过多开销和烦扰。当识别器没有听到或理解指令时，电话中将提示象“你想打
电话给谁？”或是“请大声点”，这样的产品就显得更自然、更亲和。这样当没有
达到期望的SR精度时产品必须设计提示信息。例如，如果语音拨号电话被告知“开
始打电话”并且识别器的识别精度大于95%则可以接收这个命令。如果精度在80%到
94%之间则提示“您是否要打电话？”。如果精度低于80%则提示“您说的什么？”
。当然设计的产品如果出现过多的识别错误结果则不会畅销。

识别错误

语音识别系统中有两种普通类型错误。它们是：

替换错误，即将一个单词与另一个相近发音的单词混淆；

当单词没有识别出来时出现拒绝错误。
替换错误常出现在需要识别象“three”、“free”以及“tree”等单词的产品中
。这些发音相近的单词不是很容易区分。区分“cat”和“rat”与此类似，如果要
区别“cat”和“mouse”则产品就需改进。所有这些问题将降低任何器件的精度和
可靠性，这样就很难在市场竞争中成功。在替换和拒绝中一直需要折衷，为满足产
品要求而设置参数也是十分重要的。
通常产品中需要识别的词汇必须包括可能的最小数量的单词和短语，而且每个单词
或短语的持续时间和语音要不同。因此开发具有合适多音节命令集和信息提示的树
型命令结构势在必行，这样可使电子器件容易使用，不易错误激励。如图2所示典
型蜂窝电话结构图指令词汇表。

如何避免错误激励的实例可参考开关电灯的设计。电灯简单的开与关的命令只需要
小型树形结构中的一些单词就可以操作。灯的开和关可设置为在进行任一操作前连
续听到一个关键单词。这种情况下单词“灯”可以是关键词。一旦说出这个单词，
识别器切换到树中命令词的下一级菜单并在做任何实际动作之前等待另一个预设置
的单词或短语的出现。此时“开”或“关”都会触发开关的动作。这种两个或多个
单词的组合大大提高了错误激励的反弹(resilience)能力。

语音识别特性选择

要考虑的另一重要因素是接口中SR技术的选择。在嵌入式SR中有多种技术可供选择
，从无需训练即可允许任何人命令器件(与说话者无关)，到需要你训练各自的命令
或个人信息(与说话者相关)。

大多数器件使用多种SR技术的组合，即使用象“yes”或“no”这样单词作为命令
、控制和确认词的与说话者无关(SI)的技术和个性化命令，比如要打电话给你的朋
友Jefferey Huang就需要说话者训练姓名“Jefferey Huang”。

另一个更新的SR技术叫做说话者自适应(SA)，它融合了SI和SD单词集。SA从使用象
“开”或“关”这样单词的SI集开始，记录每次使用者发出命令时的说话方式并将
记录加到IC使用的模板集中。这样在使用这个器件后由于它能学到单词/命令发声
的更多变化因此能长期提高SR精度。最后，产品需要最终给出所用SR类型，SR单词
存储方式和对最终用户的要求。

嵌入式语音产品接口

现在我们已经谈论了很多SR特性和技术的类型，我们需要考虑一个OEM如何在产品
中与这些系统接口。要考虑的第一件事是简单、速度和灵活性。这些是在创造允许
任何OEM在产品中成功加入SR所使用的世界级开发工具中的关键因素。这些系统的
最佳之处是低成本的原型模块，它能容易地与基于Win 95/98的软件程序通讯，允
许开发者对他们的产品定义、试验并提炼成功的对话。

然而在选择开发工具时还有很多需要考虑，如信号大小、噪声环境和麦克风的放置
及选择。忽略其中的任何一点虽然在设计开始时其方案显得很出色，但最终会因为
缺少适合的SR实现方法而在市场竞争中失败。

信号音量
对很多消费产品来说如果麦克风从距离说话者嘴边六英寸移至12英寸，那么信号能
量将减弱四分之一。高声和轻柔话音之间的差异也能超过四分之一。这样识别器必
须在输入信号能量的较宽范围内工作，如果输入信号饱和或太小识别精度将减小。
要解决这一问题必须在产品设计中留意。好的解决方法是购买内置自动增益的芯片
。这种自动增益控制(AGC)电路可改变系统增益以补偿太小或太大的信号。第二种
方法是用提示以其话音音量将信息回馈给使用者 (如上文提到的) 。这样产品也许
会发出“请大声点”或“请轻柔些”的提示。

噪音环境
正如人们很难在嘈杂环境中识别单词一样，电子语音识别器亦是如此。因此在安静
环境中当说话者靠近麦克风使用时语音识别产品必然要有更高的精度。如果产品要
在嘈杂环境中使用时，必须在设计时留意噪音的影响。例如如果在充斥枪战声噪音
和音乐的游戏中使用语音识别，就要向用户提供耳机听声响，并用所附的麦克风说
话。或是使用指向使用者的定向麦克风。最佳SR方案提供噪音补偿算法，它可根据
环境噪音进行调整，甚至在非常嘈杂的环境中都能充分改善信噪比。

选择麦克风
对大多数产品而言使用廉价的全向驻极体电容器麦克风就足够了。然而在某些产品
中最好使用定向麦克风，因为信号和噪声来自不同的方向。由于定向麦克风的频响
取决于与音源之间的距离，必须小心使用这种麦克风，在处理与说话者无关(SI)词
汇时要记住这种麦克风的特性。

易受成本影响的设计策略

在如今的消费市场中成本就是上帝。因此如果索价过高你的新型语音激励产品将会
被束之高阁而无人问津。记住这一点，然后主要考虑在产品中加入SR功能所设计的
所有因素。这些因素包括所用SR技术的类型、这些技术的开发时间以及所使用芯片
或软件的类型。

对芯片而言重要的是考虑最低的系统成本而不是最低的芯片成本。例如，一个综合
了很多SR功能的芯片，如麦克风前置放大器、ADC、DAC、ROM、RAM和扬声器驱动器
，它开始看起来比一些低价的芯片要贵的多，但最终使用它还是比较便宜。

此外实现语音技术算法以及用于通用设置功能的主要系统微控制器的SR方案也会大
大减少产品成本。在目前市场中已有的SR产品中，SR芯片是产品中唯一的IC，可极
大减少材料成本、安装成本和测试成本。在权衡可选方案时也要考虑是否需要使用
外部内存及增加特殊外部电路。

对于你的产品中使用的SR技术的类型，你必须考虑实现这些技术的成本。与说话者
无关的模板、语音合成、音乐和产品代码都可以存储到片上ROM以充分节省系统成
本。与说话者相关的模板以及记录的话音将需要RAM或Flash用于外部存储。如
Sensory的芯片中使用的与说话者相关的模板每个词仅需要100字节，但是使用其他
技术则需要二到十倍的容量。其他因素还包括提示所需的合成数量，以及片上内存
容量对你的产品是否足够。

最佳方案概述及例证

就语音识别的观点而言，最佳的产品应是以下几种之一：

需要考虑影响SR精度的所有因素，包括：周围环境的噪音、使用者的语音、使用者
的位置、声学环境、麦克风的类型及放置情况。

该产品对其环境中的信噪比进行过优化。例如：使用贴近面部的手持话机的产品。

识别器对其后要说出进行识别的若干时间内的单词(或短语)处于待命状态。例如，
使用者将说话及识别器将做出响应的问题结束的信号。问题的提示，如话机中的“
你将给谁打电话？”就是这种情况很好的范例。

命令的结构尽可能的简单、精确。

要识别的单词(短语)是一套已知的树状结构中的少量的单词(短语)。在游戏产品的
不同位置会使用几种不同的固定单词(短语)。例如，使用者被告知要挑选一个1到
10之间的数字(或说出一种颜色、形状等)。对与说话者无关的情形而言，良好的目
标最多只能有14个单词。对与说话者相关的情形，该最大值可增加到60个词。

根据音节和语音，语系中的每个单词(短语)都与个不相同。例如，"Operator"、
"Directory Assistance"、"Call Home"和"Mom"是一组良好的拨号语音，这是因为
上述语音具有各自不同的音节，并且语音也各不相同。

语言的相互作用(即，提示)可用来澄清模糊不清的识别词。例如，如果识别器不能
确认(即：识别器估计其所找到的答案与正确答案相似性较低)时，它即可使用提示
要求使用者重复该单词。或者，它可问“你刚才是说——”，从而让使用者答复“
是”或“否”。

最终使用的SR特性极大地取决于产品及其使用场合。
欲了解更多信息，请联系作者Bruce Roseman。
Tel:1-408-744-9000×328
E-mail:broseman@sensoryinc.com

--


    I am dormouse.    我是睡鼠
    too lazy.

※ 来源:·哈工大紫丁香 bbs.hit.edu.cn·[FROM: dormouse.hit.edu.cn]

Communication 版 (精华区)