第一章第十四节语音识别技术
20世纪70年代和80年代,科幻小说的作者认为,会说话的计算机是未来的技术梦想。光速宇
宙飞船也许在将来仍是科幻小说作者的美好幻想,但语音识别技术在最近几年则取得了突飞
猛进的发展:今后将通过语音命令替代无聊的键盘敲击,计算机和电子设备的操作也将大大
简化。当前在市场上已经有许多能够听懂人类语言的系统出售,如配备语音识别软件的PC机
,用在医学领域的特殊应用装置,以及像手机和汽车之类的日常用品。
用于个人计算机的现代化语音识别程序能够识别自然说话方式的口述。那种在每个单词之
间必须强制中断和暂停的,所谓不连续语音识别已经成为过去。在最佳情况下,连续语音识
别的正确率高达95%,即在一百个单词中仍有五个错误的字符,真正用于实际工作中错误还
会更多。
微软的语音识别技术
自从IBM的子公司Lotus将语音识别程序IBM Via Voice V90集成在其办公软件包Smart Sui
te中以后,微软公司也将语音识别软件的开发作为重中之重。在宣布将在以后的Office软件
包中配置语音识别软件之后,微软首次将语音系统SAPI 50放在它的网站上供人免费下载
使用。在这个125MB的软件包中除了语音识别程序以外,还包含有能够朗读文本的软件。
到目前为止,微软的语音识别软件只有英语、汉语和日语版本。该系统要占据450MB的硬盘
空间,并且对硬件的要求也非常高——仅仅用于语音识别就需要128MB的内存,64MB用于语
音输出。
将语音识别软件集成在操作系统中,不仅可以在任何应用程序下进行语音识别,还可以通过
语音命令操作整个系统。据称,微软将在其下一代操作系统Windows XP中加入这项功能。不
过,微软公司将这种功能的简化版本在移动版本的Windows CE中的集成程度如何,当前还没
有人知晓。
很久以来微软公司就一直致力通过语音识别和合成提升Windows操作系统的价值。为此微
软公司花费了大约4 500万美元购买了语音识别专业公司Lernout & Hauspie,而这家公司刚
刚收购了另一家语音识别软件的开发商Dragon System公司。
IBM语音识别技术
1996年IBM公司发布 Voice Type 中文语音识别软件,首次将语音识别产品介绍给中国用户
,通过相继推出的Via Voice系列产品和语音软件开发工具,推动语音 领域的软件应用。IB
M公司经过将近三十年对语音识别技术的研究,在这一领域获 得了近百项专利,并且在全球
建立了一支完整的专家队伍,支持多语种语音识别产品的开发和市场营销。
语音识别软件的应用
语音识别技术不仅可用于PC机,而且已经深入到了其他的日常应用当中。例如欧美一些货运
站、信息热线或电话银行热线,已经大量运用语音控制的电话计算机。在对话时系统完全自
动询问,并识别名字和到达日期之类的信息,而不用依靠呼叫中心话务员的帮助。
与真正动态语音识别的不同之处在于,系统根据预先输入的程序严格按照预先定义的过程进
行工作,原则上不支持自然形式的谈话。
近期以来,欧美市场上开始有带语音拨号的移动电话出售。这种手机通过语音识别,拨打存
储在手机中的电话号码。但这并不意味着电话能够真正听懂用户所说的话。更确切地说,是
用户把期望的名字连同电话号码作为音频文件存储在设备之中。在拨号时再次说这个名字,
电话将两种音频模板进行比较,如果彼此精确相符,手机将自动拨相应的电话号码。
制造商Xybernaut(www.xybernaut.com)推出了一种完全崭新的语音控制系统应用装置。这
种可带在头上、带有单眼微型荧光屏的语音控制计算机系统可以挎在腰带上,紧凑式键盘绑
在前臂上。这种头戴式系统可帮助用户检查和维护复杂的工业设备和制造设备。出现问题时
技术人员可以在显示屏上观看结构图和相应的文件。