更改Office语音识别工作的语音识别引擎(共7篇)
1、在 Microsoft Windows XP控制面板中,单击声音、语音和音频设备,再单击语音,
在 Windows 控制面板中,双击语音图标。
2、单击语音识别选项卡。
3、在语言下,选择语音识别引擎。
注释
如果您要切换语音识别引擎:
若要使用听写,您必须切换键盘布局以便与语音引擎的语言相匹配。
语音识别技术主要就是指机器对语音的相关信号进行识别, 并且把识别出的语音信号转变成类似命令的技术, 这也是现阶段信息技术领域中一个非常重要的发展方向。而在期刊编辑和出版工作中使用语音识别技术, 主要就是通过这一技术的运用, 使编辑和出版等工作更为高效, 这样也能够使相关工作人员从事务性的工作中走出来, 投入更多的时间进行创新, 促进编辑工作的发展和进步。
二、语音识别技术在编辑检索中的使用情况
现阶段, 随着我国社会科学技术的进步, 网络逐渐充斥在人们的生活中, 人们的日常生活离不开网络和新技术。而期刊编辑人员更需要在这种复杂的环境下, 能够不断地了解这一行业发展的动态, 并且把相关的内容按照期刊的标准进行审核, 同时还需要按照编辑工作中的相关规范, 对已经编辑完成的文章进行再一次的加工和制作, 而这一系列的工作都离不开信息资料以及文章内容的查询和检索。在现今, 互联网搜索引擎已经成为期刊编辑在工作和校对过程中使用得比较频繁的工具, 同时记者也每时每刻都在使用这一工具。
一般情况下, 相关工作人员都是通过键盘, 把关键字输入搜索引擎中, 通过这种文字检索的方式, 对文章内容进行检查。和传统的检查方式比较, 这种文字检索的方式发展迅速, 但是其中依然存在着一些漏洞。首先, 难以满足普遍服务的要求。例如, 残障人士和年龄较大的人在检索的使用方面, 利用率就比较低。其次, 检索的精准度还有待商榷。能够实现检索的引擎非常多, 检索出来的内容还包含着大量的广告和其他信息。因此, 如果使用语音识别技术, 在这一阶段就能够有效地将这些问题全部解决。例如, 现阶段i Phone4S手机中就已经开始拥有siri这一软件, 人们可以和siri对话, 以此保证检索内容的准确性。[1]
三、语音识别技术在采访中的使用情况
在期刊编辑过程中, 采访是记者进行语言交流的主要手段。现阶段很多媒体工作者的采访工作都会受到两个问题困扰:其中一个问题就是在采访过程中, 使用录音笔、摄像工具对采访过程进行录制, 在这一过程结束之后, 如果想要把这些内容整合成文字资料, 是非常费力和费时的一件事。另一个问题就是很多采访内容都会涉及国外的语言, 记者在采访中容易出现语言不通, 或者是不利于交流的现象, 语音识别技术在解决这些问题上就能够发挥出较大的作用。例如, 语言不通的情况下, 记者在采访过程中可以使用谷歌的在线文本翻译功能, 记者可以使用母语对设备讲话, 随后设备进行翻译, 转化成记者需要的语言, 同时进行人声合成, 最后输出语音。[2]
四、语音识别技术在输入文件中的使用情况
电脑的出现, 为人们传统的书写方式带来了新的变革。与传统的手写方式相比, 电脑的输入有着不可超越的优势。但是使用电脑输入也需要熟练地掌握其输入方式和技能, 因此电脑打字也不是所有人都适合使用。同时长时间对着电脑操作, 很容易使眼睛受到伤害, 电脑所发出的辐射也会对人体健康造成比较大的威胁, 在这种情况下语音识别技术是最为简单也是最便捷的文件输入方式。同时, 语言也是非常实用的表达方式, 如果人们在编辑工作中使用语音识别技术, 就解决了电脑打字这种问题。在原本的打字工作上使用语言, 还能帮助人们快速地完成工作, 保证工作的时效性。
五、语音识别技术在文字校对中的使用情况
随着我国社会的发展, 信息技术也得到了长足的发展。在这种社会环境下, 出版行业使用先进的技术和手段进行信息采集以及信息处理和传播工作是一种必然的发展趋势。[3]这也是现阶段的社会环境对期刊和相关出版社提出的新要求。在科学技术飞速发展的年代, 编辑和出版的工作方式也发生了巨大的改变, 其主要的改变方向就是现代化手段的使用。[4]同样期刊的编辑也需要在复杂的环境中, 逐渐适应这一变化, 并且把工作和先进的技术相结合, 这样才能够在当前的社会环境下, 不断适应和赶上时代进步的潮流, 并且保证其工作跟上现代化发展的趋势。[5]
在期刊出版的过程中, 文字校对是非常重要的一个环节。文字校对主要就是在原稿的基础上, 对文章的错误进行修正, 同时也需要对原有的文章进行深化。校对工作人员的工作相对比较枯燥, 一旦不注意就很容易出现失误。在这一过程中使用语音识别技术, 就能够在根本上提高校对工作的效率, 减少错误出现的几率。例如, 在校对的过程中可以使用语音校对软件Ins Tak开展这一工作, 打开Word软件, 语音识别技术就能够对文字进行阅读, 这时候校对人员仅仅需要听就能够准确地进行判断和修改, 这样就能在根本上节省校对人员的时间, 同时也能保证校对工作快速准确的进行。[6]
六、语音识别技术在刊社管理中的使用情况
随着我国社会的发展和进步, 越来越多的新技术出现在人们的生活中, 这些新技术的出现提高了人们的生活水平, 同时也能够在根本上促进人们生活质量的提高。在科学技术快速发展的今天, 人们在物质生活得到满足之后, 逐渐开始重视精神生活, 语音识别技术就是新出现的能够提升精神生活质量的技术之一。这一技术在现阶段的信息技术中占有非常重要的地位。因为语音识别技术有方便、快捷和高效率的特点, 所以它被应用在各个领域之中。
很多期刊在发表之后, 相关的内容资源也经常需要进行阅读, 但是如果收藏的文章较多, 时间发表较久的文章就难以管理。还有对编辑工作进行语音培训以及办公室的管理, 这些都可以使用语音识别技术。并且这一技术的使用也能够使工作快速地进行, 在保证效率的同时也能够保证其工作的准确性。现阶段语音识别技术已经完全能够保证期刊编辑工作的顺利进行。[7]
七、结语
根据以上探讨和分析, 我们能够得出结论, 社会还在不断地发展和进步, 科学技术也呈现出新的发展趋势。因此语音识别等相关的技术也必然会应用得越来越广泛, 甚至会涉及除了期刊和报社的其他相关媒体的工作, 这也是我国社会中各个行业实现人机结合的完美展现。同时语音识别技术也能够在根本上改变传统的工作方式, 帮助编辑人员改变传统的打字、编辑的工作, 用先进的手段和方式, 提高编辑工作质量。同时为了能够适应新环境, 现阶段对于编辑工作的要求也逐渐提高, 即在使用语音识别等技术的基础上, 期刊编辑人员依然需要不断地对自己掌握的知识和专业技能进行扩充和提升, 并且从根本上拓展自己所掌握的知识领域。在了解现代技术使用方式和手段的基础上, 实现我国编辑技术的发展和进步, 这也是我国期刊编辑工作未来发展的主要方向, 也是其转变传统工作的重要途径度的重要支撑点。
摘要:语音识别技术的使用推动了我国社会工作的进步, 同时也在根本上促进了我国现代化生产。本文从信息的检索工作、编辑和记者的采访过程、文字的录入和校对以及刊社的管理等几个方面, 重点分析了现代化进程中语音识别的相关技术在期刊编辑以及出版中的使用情况。在分析语音识别技术的基础上探讨期刊编辑出版工作未来的发展, 以期能够在促进我国期刊编辑出版工作发展的同时, 带动现代化语音识别相关技术的发展。
关键词:期刊编辑,出版工作,现代化进程,语音识别技术,作用
参考文献
[1]朴明珠.网络环境下期刊编辑流程新特点及应对策略研究[J].新闻界, 2010 (03) :54-55+58.
[2]钱俊龙, 丁玉薇.网络 (科技) 期刊编辑学学科建设探讨——从纯网络期刊的构建模式研究引出的思考[J].中国科技期刊研究, 2012 (04) :556-560.
[3]李宁.高校艺术类学术期刊的信息化建设与实践——以《浙江艺术职业学院学报》为例[J].浙江艺术职业学院学报, 2014 (04) :125-130.
[4]本刊编辑部.远程教育:学术期刊的学术担当——第13次“中国远程教育学术论坛”综述[J].中国远程教育, 2015 (03) :5-20.
[5]潘明志.新时期复合型医学科技期刊编辑应具备的素质和能力[J].中国科技期刊研究, 2011 (02) :287-290.
[6]宋刚, 王续琨.科学技术期刊编辑学在中国:演进概况和发展策略[J].中国科技期刊研究, 2014 (04) :462-467.
Word中添加语音识别和手写识别
,
关键词:语音识别,语音数据库,实验平台,主程序界面
一、语音识别技术概述
语音交流是人们彼此沟通和获取信息最为便捷和有效的途径, 在特殊的环境下, 与键盘人机互动, 手写人机互动等方式相比有着十分独特的优势。因此实现用人类自然语音代替键盘和计算机进行自由的交互, 将是信息技术的一大飞跃。因此, 实现智能人机语音交互一直是几十年来的研究热点, 它主要依赖于自动语音识别 (Automatic Speech Recognition) , 语音理解 (Speech Understanding) , 语音合成 (Speech Synthesis) 等诸多关键技术。
自动语音识别技术是实现人机交互中最关键最具挑战性的技术之一, 它的功能就是让计算机完成将信息从“声音”到“文字”的转换, 通过将人的语音直接转换为相应的文本或命令, 便于被计算机理解并产生相应的操作, 并最终实现人与机器之间的自然交互。语音识别是语音信号处理的重要研究方向, 属于模式识别的一个分支, 同时也涉及到声学、生理学、信号处理、语言学、心理学等多学科知识的交叉融合。
21世纪是人机交互的时代, 在民品领域, 人性化的交互界面成为各种电子产品、软件的关键性能之一, 而比尔盖茨更是大胆的预测, 未来的计算机将不再有键盘和鼠标等传统的输入设备, 取而代之的是语音交互和触摸。让设备和机器变得更加的智能化和人性化也已经在军事领域被日益重视, 特别是随着以F-35战机等一批新型军事设备中大量的采用语音识别等人机交互技术, 语音交互在减轻作战人员工作压力, 提高作战效率方面的作用已经被广泛认可。具体来说, 语音识别在军事领域主要有以下应用:
1. 设备操作的语音控制
对于不涉及设备安全性和攻击性的操作进行语音控制, 用以作为作战人员手动操作的快捷操作。对于需要经过多次菜单调用的操作, 可以用语音进行控制, 更加迅速。
2. 参数和设备状态的查询
对于设备一些重要参数的查询通过按键或者触摸方式往往需要通过多级的菜单操作, 才能得到正确的数据。利用语音识别技术可以更为快捷的实现查询, 作战人员直接说出查询命令, 语音识别系统即可完成相应的参数查询, 完成人机的快速交互。
飞行员可以使用语音识别通过说一个命令来简单地执行功能。它允许飞行员保持在HOTAS位置, 而不必频繁地移动手去输入数据、选择或控制设备、或同时低头看座舱。因此, 飞行员可以长时间保持抬头和使用HOTAS, 以及在诸如起飞、进场和着陆、编队飞行、空中加油、对地攻击、目视识别和空战格斗等关键任务期间保持抬头和使用HOTAS。语音识别允许飞行员交替执行分离的任务, 也可并行地执行任务。另外, 它提供对那些需要通过显示格式和页面的多层次耗时访问的许多功能的捷径访问。
可以看出, 语音识别技术能有效的减轻飞行员的工作压力, 提高作战效率。但是语音识别技术目前还未在国内现有型号军机上得到具体应用, 但通过语音识别技术在国外军机上的成功使用, 能看出该技术在军机上应用的可行性与其带来的好处。因此, 在国内新型军机的研制方案中, 已经确定要把语音识别技术应用于新型军机上, 用以提高新型军机的作战性能。
虽然语音识别技术在国内许多民用领域已经得到大量的应用, 但在国内军机领域的应用目前还是一个空白。因此, 要将语音识别技术应用于新型军机上, 不但需要以现有民用语音识别技术作为技术基础, 还需要解决将该技术应用于新型军机上所面临的许多工程性问题, 例如:需要解决飞机座舱内的噪声对语音识别的影响, 需要解决军机系统对语音识别出现错误的容忍能力, 需要解决语音识别软件在机载计算机环境下的运行及其实时性等问题。
因此, 为实现语音识别技术在国内军机上的应用, 需要事先开在一系列的应用研究, 解决将语音识别技术应用于国内军机上所面临的技术问题与工程问题。这对提高我国军机的作战性能有着重要的影响意义。
二、机载环境下语音识别系统设计
1. 系统总体设计方案
本设计是实现以PC环境为基础的模拟机载语音识别系统。该系统主要应用于机载环境中识别飞行员的操控指令, 并将识别结果反馈于系统, 以实现对包括通讯、导航、飞控等其他机载系统的控制, 从而实现语音识别与控制。
本语音识别系统是机载环境下, 非特定人命令词的小词汇量识别系统, 基本结构如下图所示:
系统的功能:操作者使用麦克风 (有源话筒) , 通过麦克风输入模拟音频信号, 输入的信号经过预处理模块后形成语音特征, 语音特征传入识别引擎, 引擎加载相对应的语法, 根据语法网络进行匹配, 最后将得出的识别结果输出。
系统的输入:操作者在机载环境下的自然语言。
系统的输出:识别后的文本内容, 可作为通讯、导航、动力等系统的输入。
实施的过程:主要包括“模型训练”和“数据识别”两个阶段。模型训练阶段中, 通过Cool edit音频处理软件收集用于声学模型训练的音频流, 并按照句子进行切割处理, 通过得到训练的样本提取语音特征并形成训练模型参数。数据识别阶段中, 按照已训练好的模型为基础对被测试语音进行模型匹配, 最后, 将似然度最高的词序列作为识别结果输出。
2. 系统实验平台
软件平台:Microsoft Multimedia API;Hidden Markov Model Tookit;Visual Studio2012;Cool Edit 2.1。
硬件平台:麦克风:麦克风采用飞利浦SHM1000/97有源话筒;PC机:通用型计算机, 配备Realtek High Definition Audio集成声卡。
3. 语音数据库设计
对于特定环境下的语音识别系统, 为其设计对应的语料并建立简单高效的语法网络是系统设计过程中十分重要的步骤。机载语音识别系统中以飞控指令为例, 我们收集海量的飞行员控制指令并建立语法网络。飞控指令主要是命令词形式, 语料数量比较有限, 适合使用小词汇量命令词语音识别系统。分析命令词语音规则, 指令大概可分为五种类别, 为孤立词、一槽命令词、二槽命令词、三槽命令词、四槽命令词。命令词示例分别如下:
在命令词汇中引入“洞”、“幺”、“两”、“三”、“四”、“五”、“六”、“拐”、“八”、“钩”与数字混合使用, 很大程度上提高了数字之间的区分性, 大幅度提高识别准确性。按照建立的语料库, 共召集数十人录制语音, 录制总量达到数万条。我们将基于这批语音数据进行模型的训练, 以及系统识别性能的测试。
4. 语音识别主程序界面展示
本语音识别系统的主程序界面如下图所示, 包括音频源、参数、语法、结果和消息总共五个部分。
音频源:系统的语音输入方式通过音频源确定, 本识别系统支持两种输入方式:通过麦克风输入和通过加载本地音频文件输入。中部的框图中显示出加载的音频数据波形。在波形图下方显示的是音频格式、长度和文件路径。音频源最下方的操作按钮包括“开始识别”、停止识别”和“回放”。
参数:可以设置当前引擎的识别参数。“用户语音超时”设置范围为1000-20000ms, 默认为4000ms;“用户反应超时”设置范围为1000-5000ms, 默认为3000ms;“灵敏度”设置范围为0-100, 默认为35;“忽略语音长度”默认为0毫秒。
语法:通过菜单栏中的“语法”按钮实现语法加载, 当加载完成后在语法列表框中会显示语法列表。
结果:当识别完成后, 在结果中显示出本次识别的结果。
消息:显示用户的部分操作和内核识别时的调用情况, 或者当内核调用出现问题的情况下, 也可以通过消息显示出内核的返回值。
三、机载噪声环境的鲁棒性语音识别技术研究
1. 优化调型特征及双流建模技术
汉语是一种有声调语言, 汉语中的每一个字都是以一个音节作为基本的发音单位, 音节和声调决定了这个字的发音。正确的调型对区别不同字或词起到了很关键的作用。因此, 加入声调的特征信息会对中文语音识别起到较大的促进作用。
为使声调特征信息与现有的隐马尔可夫模型体系相结合, 采用双流建模技术, 在双流声学模型中, 每一个HMM的状态单元包含两个分布, 一个用以描述频谱参数, 另一个用于描述调型参数。在训练过程中, 输入特征向量tO (包含频谱特征和调型特征) 被当作两个独立的流, 独立估计每个流的混合高斯参数, 对于每一个状态, 频谱分布和调型特征分布是用不同的高斯数来描述的, 这样就可以通过不同的复杂度的模型的不同特征参数的分布实现最优建模。
采用优化的基频提取算法和双流建模方式, 已经在多个研究任务上进行了论证, 是一种提升识别准确性的切实有效的方式。
2. 基于差分双麦克的语音降噪方法
在分析模拟机载环境数据时, 发现由于面罩空间有限, 造成较严重的喷麦现象, 对语音识别带来了不利干扰。而喷麦的产生主要是由于麦克位于口唇正前方, 且距离过紧造成。为了尽量滤除强噪声干扰, 消除喷麦现象, 提高呼吸面罩中麦克风的语音接收质量, 采用差分双麦克降噪方法改进音频接收的硬件设备。具体实现方法为:以呼吸面罩腔内点声源作为参考中心, 将两个相同单麦克左右对称分布, 并使音频信号输出同相端首尾直接串联差分输出。差分双麦克降噪方法的理论基础为:两个左右对称分布相距L的麦克风对同一轴线上的信号源的信号拾取存在相位角差φ, 其关系式为以内信号叠加会衰减的原理。
3. 差分双麦克降噪效果验证
综合考虑氧气面罩空间和重量的限制条件, 我们采用双麦克串联的方案改造面罩。且双麦克风位置位于两端, 也避免了飞行员说话时气流喷麦克风引起内部磁片摩擦而产生的喷麦噪音。
为考察差分双麦克在氧气面罩中的语音降噪和增强效果, 我们采集了两批数据, 第一批数据采用传统形式的面罩, 其中无双麦克降噪装置, 采音设备为单麦克风, 第二批数据则采用加装差分双麦克的面罩。两批数据语音内容相同, 分别包含10名录音人 (8男2女) 。语音文件采用16000Hz采样率, 16Bits量化精度, 单PCI声-9846道, pcm编码格式存储。
两批数据总量15000句, 每个人750句数据。录音语料由飞行员执行日常任务常用的命令词构成。按照命令词的复杂度可分为孤立词、一槽、二槽、三槽、四槽五类。我们希望通过一系列测试, 评估两批数据的识别效果, 并根据识别结果对比差分双麦克的降噪效果。我们使用Aitalk4.0原始模型分别测试两批数据的识别性能。
从结果可以看出, 对第一批和第二批数据有一致的特性, 虽然从三槽到四槽识别率有小幅度提升, 但是总体来看, 随着槽数量的增加识别率急剧下降, 这与槽数量越多, 语法复杂度越高, 识别难度越大有关。
另外, 第二批数据的识别率比第一批数据有了较大的提高, 尤其是对二槽、三槽、四槽语料的提升效果较明显, 同时平均识别率提升了20个百分点。因此, 采用差分双麦克风能够起到较好的语音消噪和增强的作用, 后续的实验也是在差分双麦克设备收集的数据基础上进行。
四、小结
在孤立词语音识别中, 最为简单有效的方法是采用动态时间规整 (Dynamic Time Warping, DTW) 算法, 该算法解决了发音长短不一的模板匹配问题, 是语音识别中出现最早、较为经典的一种算法。用于孤立词识别, 该算法较现在比较流行的HMM算法在相同的环境条件下, 识别效果相差不大, 但HMM算法要复杂的多, 这主要体现在HMM算法在训练阶段需要提供大量的语音数据, 通过反复计算才能得到模型参数, 而DTW算法的训练中几乎不需要额外的计算[1]。所以在孤立词语音识别中, DTW算法仍得到广泛的应用。本系统就采用了该算法。
1系统概述
语音识别系统的典型实现方案如图1所示。输入的模拟语音信号首先要进行预处理, 包括预滤波、采样和量化、加窗、断点检测、预加重等[2,3,4,5,6]。语音信号经过预处理后, 接下来重要的一环就是特征参数提取, 其目的是从语音波形中提取出随时间变化的语音特征序列。然后建立声学模型, 在识别的时候将输入的语音特征同声学模型进行比较, 得到最佳的识别结果。
2硬件构成
2.1 系统构成
这里采用DSP芯片为核心 (图2) , 系统包括直接双访问快速SRAM、一路ADC/一路DAC及相应的模拟信号放大器和抗混叠滤波器。外部只需扩展FLASH存储器、电源模块等少量电路即可构成完整系统应用。
2.2 系统主要功能模块构成
语音处理模块采用TI TMS320VC5402[7,8], 其主要特点包括:采用改进的哈佛结构, 一条程序总线 (PB) , 三条数据总线 (CB, DB, EB) 和四条地址总线 (PAB, CAB, DAB, EAB) , 带有专用硬件逻辑CPU (40位算术逻辑单元 (ALU) , 包括1个40位桶形移位器和二个40位累加器;一个17×17乘法器和一个40位专用加法器, 允许16位带或不带符号的乘法) , 片内存储器 (八个辅助寄存器及一个软件栈) , 片内外专用的指令集, 允许使用业界最先进的定点DSP C语言编译器。TMS320VC5402含4 KB的片内ROM和16 KB的双存取 RAM, 一个HPI (HostPortInterface) 接口, 二个多通道缓冲单口MCBSP (Multi-Channel Buffered Serial Port) , 单周期指令执行时间10 ns, 带有符合IEEE 1149.1标准的JTAG边界扫描仿真逻辑。
语音输入、输出的模拟前端采用TI公司的TLC320AD50C, 它是一款集成ADC和DAC于一体的模拟接口电路, 并且与DSP接口简单, 性能高、功耗低, 已成为当前语音处理的主流产品。16位数据结构, 音频采样频率为2~22.05 kHz, 内含抗混叠滤波器和重构滤波器的模拟接口芯片, 还有一个能与许多DSP芯片相连的同步串行通信接口。
TLC320AD50C片内还包括一个定时器 (调整采样率和帧同步延时) 和控制器 (调整编程放大增益、锁相环PLL、主从模式) 。TLC320AD50C与TMS320VC5402的硬件连接, 如图3所示。
3语音识别算法实现
3.1 语音信号的端点检测
语音的端点检测是语音识别中最基本的模块, 在嵌入式语音识别系统中更是占有非常重要的地位:一方面端点检测的结果不准确, 系统的识别性能就得不到保证;另一方面如果端点检测的结果过于放松, 虽然语音部分被很好地包含在处理的信号中, 但是增加过多的静音则会增加系统的运算量, 同时对识别性能也有负面影响。因此为能量和过零率两个参数分别设定两个门限, 一个是比较低的门限, 数值比较小, 对信号的变化比较敏感, 很容易就被超过。另一个是比较高的门限, 数值比较大, 信号必须达到一定的强度, 该门限才可能被超过。低门限被超过未必就是语音的开始, 有可能是时间很短的噪声引起的。高门限被超过, 则基本确信是由于语音信号引起的[1]。
整个语音信号的端点检测可以分为四段:静音、过渡段、语音段、结束[2,3,4,5]。程序中使用一个变量status来表示当前所处的状态。在静音段, 如果能量或过零率超越了低门限, 就应该开始标记起始点, 进入过渡段。在过渡段中, 由于参数的数值比较小, 不能确信是否处于真正的语音段, 因此只要两个参数的数值都回落到低门限以下, 就将当前状态恢复到静音状态。而如果在过渡段中两个参数中任意一个超过了高门限, 就可以确信进入语音段了。一些突发性的噪声可以引发短时能量或过零率的数值很高, 但是往往不能维持足够长的时间, 这些可以通过设定最短时间门限来判别。当前状态处于语音段时, 如果两个参数的数值降低到低门限以下, 而且总的计时长度小于最短时间门限, 则认为这是一段噪音, 继续扫描以后的语音数据。否则就标记好结束端点, 并返回。
3.2 语音特征参数的提取
近年来, 一种能够比较充分利用人耳这种特殊的感知特新的参数得到了广泛的应用, 这就是Mel尺度倒谱参数 (Mel-scaled Cepstrum Coefficients, MFCC) 。它和线性频率的转换关系是:
undefined
MFCC参数是按帧计算的。首先要通过FFT得到该帧信号的功率谱, 转换为Mel频率下的功率谱。这需要在计算之前先在语音的频谱范围内设置若干个带通滤波器Hm (n) 。MFCC参数的计算流程为:
(1) 确定每一帧语音采样序列的点数, 本系统采取N=256点。对每帧序列s (n) 进行预加重处理后再经过离散FFT变换, 取模的平方得到离散功率谱s (n) 。
(2) 计算s (n) 通过M个Hm (n) 后所得的功率值, 即计算s (n) 和Hm (n) 在各个离散频率点上乘积之和, 得到M个参数Pm, m=0, 1, …, M-1。
(3) 计算Pm的自然对数, 得到Lm, m=0, 1, …, M-1。
(4) 对L0, L1, …, LM-1计算其离散余弦变换, 得到Dm, m=0, 1, …, M-1。
(5) 舍去代表直流成分的D0, 取D1, D2, …, DK作为MFCC参数。此处K=12。
3.3 特定人语音识别算法
在孤立词语音识别中, 最为简单有效的方法是采用DTW动态时间规整算法, 设参考模板特征矢量序列为A={a1, a2, …, aj}, 输入语音特征矢量序列为B={b1, b2, …, bk}, j≠k。DTW算法就是要寻找一个最佳的时间规整函数, 使得语音输入B的时间轴k映射到参考模板A的时间轴j上总的累计失真最小[9,10,11]。
将己经存入模板库的各个词条称为参考模板, 一个参考模板可以表示为{R (1) , R (2) , …, R (M) }, m为训练语音帧的时序标号, m=1为起点语音帧, m=M为终点语音帧, 因此M为该模式包含的语音帧总数, R (m) 为第m帧语音的特征矢量。所要识别的一个输入词条语音称为参考模板, 可表示为{T (1) , T (2) , …, T (N) }, n为测试语音帧标号, 模板中共包含N帧音, T (n) 为第n帧音的特征矢量。
为了比较它们的相似度, 可以计算, 它们之间的失真D[T, R], 失真越小相似度越高。为了计算这一失真, 应从T和R中各个对应帧之间的失真算起。将各个对应帧之间的失真累计起来就可以得到两模式间的总失真。很容易想到的办法是当两模式长度相等时, 直接以相等的帧号相匹配后累加计算总失真, 而当两个模式长度不等时则利用线性扩张或线性压缩的方法使两模式具有相等长度, 随后进行匹配计算失真度。但由于人类发音具有随机的非线性变化, 这种方法效果不可能是最佳的。为了达到最佳效果, 可以采用动态时间规整的方法。如图4所示, 横坐标对应“1”这个字音的一次较短的发音, 经过分帧和特征矢量计算后共得到一个长度为43帧的语音序列, 而纵坐标对应“1”这个字音的一次较长的发音, 该语音特征序列共有56帧。为了找到两个序列的最佳匹配路径, 现把测试模式的各个帧号n=1~N (图4中N=43) 在一个二维直角坐标系中的横轴上标出, 把参考模式的各帧号m=1~M (图4中M=56) 在纵轴上标出。
通过这些表示帧号的整数坐标画一些纵横线即可形成一个网格, 网格中何一个节点 (n, m) 表示测试模式中的某一帧和参考模式中的某一帧的交汇点。动态时间规整算法可以归结为寻找一条通过此网格中若干交叉点的路径, 路径通过的交叉点即为参考模式和测试模式中进行失真计算的帧号。路径不是随意选择的, 首先任何一种语音的发音快慢可能有变化, 但是各部分的先后顺序不可能改变, 因此所选的路径必定从左下角出发, 在右上角结束。其次为了防止漫无目的的搜索, 可以删去那些向n轴方向或者m轴方向过分倾斜的路径 (例如, 过分向n轴倾斜意味着R (m) 压缩很大而T (n) 扩张很大, 而实际语音中这种压、扩总是有限的) 。为了引入这个限制, 可以对路径中各通过点的路径平均斜率的最大值和最小值予以限制。通常最大斜率定为2, 最小平均斜率定为1/2。路径的出发点可以选择 (n, m) = (1, 1) 点, 也可以选择 (n, m) = (1, 2) 或 (1, 3) 或 (2, 1) 或 (3, 1) …点出发。前者称为固定起点, 后者称为松弛起点。同样, 路径可在 (n, m) = (N, M) 点结束, 也可以在 (n, m) = (N, M-1) 或 (N, M-2) 或 (N-1, M) 或 (N-2, M) …点结束。前者称为固定终点, 后者称为松弛终点。
使用DTW算法为核心直接构造识别系统十分简单, 首先通过训练得到词汇表中各参考语音的特征序列, 直接将这些序列存储为模板。在进行识别时, 将待识语音的特征序列依次与各参考语音特征序列进行DTW匹配, 最后得到的总失真度最小且小于识别阈值的就认为是识别结果。该方法最显著的优点是识别率极高, 大大超过目前多数的HMM语音识别系统和VQ语音识别系统。但其最明显的缺点是由于需要对大量路径及这些路径中的所有节点进行匹配计算, 导致计算量极大, 随着词汇量的增大其识别过程甚至将达到难以接受的程度, 因此无法直接应用于大、中词汇量识别系统。
4结语
以本系统为基础开发了一种语音拨号系统, 经过大量实验表明, 该系统电路运行稳定, 且识别率可以达到90%。系统成本低, 稍加改进就可把该语音识别模块移植应用到各种系统设备中。
参考文献
[1]何强, 何英.Matlab扩展编程[M].北京:清华大学出版社, 2002.
[2]姚天任.数字语音处理[M].武汉:华中科技大学出版社, 1992.
[3]刘加.汉语大词汇量连续语音识别系统研究进展[J].电子学报, 2000, 28 (1) :85-91.
[4]杨行峻, 迟惠生.语音信号数字处理[M].北京:电子工业出版社, 1995.
[5]赵胜辉, 刘家康, 谢湘, 等.离散时间语音信号处理原理与应用[M].北京:电子工业出版社, 2004.
[6]陈永彬, 王仁华.语言信号处理[M].合肥:中国科学技术大学出版社, 1990.
[7]张雄伟, 曹铁勇.DSP芯片的原理与开发应用[M].北京:电子工业出版社, 2000.
[8]张勇.C/C++语言硬件程序设计[M].西安:西安电子科技大学出版社, 2003.
[9]张贤达.现代信号处理[M].北京:清华大学出版社, 2002.
[10]吴晓平, 崔光照, 路康.基于改进的DTW算法的仿真与分析[J].福建工程学院学报, 2004 (6) :149-151, 175.
1 连续语音中的几种关键技术
1.1 连续语音中的连接词技术
在连续语音识别中,连接词也起一定的作用。人在听别人说话时,往往也会注意关联词的含义,由此来判断对方讲话的意思。同样计算机识别人的讲话时,也必须有关联词技术。
所谓连接词识别,就是指系统存储的HMM是针对孤立词的,但是识别的语音却是由这些词构成的词串。它是根据给定的发音序列,找到与其最优匹配的参考模板词的一个连接序列,为此必须解决如下问题:首先,尽管有些时侯知道序列中词长度的大致范围,但序列中词的具体数量L未知;其次,除了整个序列首末端点外,并不知道序列中每个词的边界位置。由于连音的影响,很难指定具体的词边界,因此,词的边界常常是模糊的或不是惟一的;V个词在词串长度为L的情况下,将有VL种可能的匹配串组合,除非在V和L均很小的情况下,否则对这种指数量级的匹配用穷举的方法很难进行。
连接词问题的一般描述:设给定测试发音的特征矢量序列为O={O(1),O(2),…,O(M)},词表中V个词的模板分别为R1,R2,…,Rv。某一参考模板Ri具有如下的形式
式中,Ni是第i个词的参考模板的帧数。
连接词识别的问题变为,寻找与O序列最优匹配的参考模板序列R*。
下面探讨连接词技术的若干算法:
二阶动态规划算法:它的基本思想是将上列中O序列与最优参考模板序列R*之间的最小距离的计算分为两个阶段完成,也称为两个层来完成。第一层进行词内匹配,利用DTW算法,找出测试发音中可能构成词的一段,并与词表中的所有词具有最佳匹配的一个发音,将其距离值作为最好打分,并记住对应的词标号。第二层用动态规划算法进行词间的匹配,找出前一个词结束点时的总体累计距离与从这一结束点开始到下一个词的结束位置的累计距离和,求出累计距离最小的一个作为新的结束点的累计距离,逐层计算,最后从测试发音的结束位置进行回溯。
分层构筑(level—building,LB)方法:此算法实际上是Viterbi算法的二次递归应用,它将待识语音序列按模板可能的时长范围划分为若干段,每段称为一层,可能对应一个词。算法首先在各个层内用待识语音片断与各个模板逐点进行匹配,争取在当前层中找到最佳匹配路径;接着进行逐层匹配求出整个过程中的最优路径。这种算法在进行匹配时,不用考察每个模板是否是新模板的开始,仅考察各层边界附近的点即可。
1.2 连续语音中的关键词技术
在连续语音识别中,关键词技术很重要。在与人的对话中,有时知道了关键词,大概意思也就差不多弄明白了。关键词检出技术或词检出技术就是采用语音识别技术把需要的词从包含它的连续语句中提取出来,而包含的话语中还包括词语的一些其它成份,以及各种非话语的咳嗽声、呼吸声、关门声、音乐声、多人共语声等。关键词检出问题就是要在非受限语音信号中,检索和识别出词表中包含的“关键词”,拒绝词表外的“非关键词”,对语音内容加以理解。
从整个词表的角度而言,关键词检出系统必须有一种能处理词表外词的机制。即不仅要为词表内词建立对应的声学模型,对词表外的词也需要建立处理它们的声学模型。目前,用HMM对无限制语音进行关键词检出的研究已经获得了很大的进步,在词表外词的处理上,大部分研究者采用的是垃圾模型方法。垃圾模型可以使用大量的词表外词和背景语音,基于最大似然方法训练得到,也可以由关键词的一部分或关键词状态的加权分布来构建。在识别时,L个关键词模型和V个垃圾模型就组成L+V个词汇的语音识别系统,并采用一般的语音识别技术进行关键词识别。垃圾模型基本上可以分为两类:离线式和在线式垃圾模型。
关键词检出要经过识别和确认两个阶段。
语音识别器识别器中的语音识别模块的作用是根据关键词模型和非关键词模型,采用一定的连续语音识别策略,对输入的语音流进行解码。它的输出由关键词和非关键词组成。在关键词检出中,语音解码过程一般采用连续语音识别算法。其任务是在语法网络结构的状态搜索空间中,找出一条从起点开始到最后整个发音结束时,最佳的状态序列路经上所经过的关键词与非关键词。
关键词确认输入语音经过第一级的语音解码器后,产生的是关键词和垃圾模型组成的词网络,最简单的情况是一个词串。在这个输出中,每个关键词都包括最基本的信息,如起始位置、终止位置及似然评分。系统在识别阶段为了保证最终结果有比较高的识别率,常常给出尽可能多的侯选,以便把正确的侯选包含进来,所以在确认阶段必须使用有效的方法,去掉(拒识)那些错误的侯选,以降低系统的误警率。传统的拒识方法一般是基于统计假设检验的。统计假设检验的基本原理就是比较零假设H0和备择假设H1所得值的大小差异。一种比较简单的方法就是采用似然比检验,用关键词模型的似然评分和垃圾模型或反关键词模型上评分之间的差异,来作为是否接受关键词假设的依据,如果这个差异大于某一个阈值,则接受关键词的假设,否则拒绝关键词假设。
1.3 连续语音中的自适应性技术
自适应的目的,是根据不同的影响来源,自动地、有针对性地对系统进行调整,在使用中逐步提高性能。
目前大多数实用语音识别系统中都包含了一个非常重要的模块:自适应模块。它的作用主要是用各种自适应技术来调整声学模型和语言模型,使系统适应新的应用状况。自适应技术就是对系统参数进行调整,从而使系统更好地匹配由于话筒、传输通道、环境噪声、说话人、文体和应用的上下文等引起的差异。
一个语音识别系统的最终目的是具有很好的系统识别性能,而能否具有这样性能的一个关键问题就是识别模型是否能很好地刻画语音特征。由于训练好的HMM参数可以在一定程度上表示训练环境的情况,而实际使用时的测试数据可以反映测试环境的某些特征。因此,要使训练环境和测试环境达到匹配,可以有两种方法:一种是通过修改当前测试环境下的特征序列,使其与已经训练好的HMM模型参数匹配,即基于特征的自适应方法;另一种是通过少量测试环境的自适应数据修改HMM模型的参数,即基于模型的自适应方法。前者需要寻找更好的、高抗噪音的特征参数,或是在现有的特征参数基础上,加入一些特定的处理方法。后者是利用少量的自适应语料来修正或变换原有的说话人无关(SI)模型,从而使其成为说话人自适应(SA)模型。
说话人自适应的特征方法有说话人规一化和说话人子空间法,模型方法有贝叶斯方法、变换法和模型合并法。
目前语音识别界使用的自适应算法主要分为两大类:基于最大后验概率(Maximum a Posteriori,MAP)的算法和基于变换的方法。前者的基本准则是后验概率最大化,利用贝叶斯学习理论,将SI(非特定人,Speaker-Independent,SI)系统的先验信息与被适应人的信息相结合实现自适应;而后者则是估计SI系统模型与被适应人之间的变换关系,对SI系统的模型或输入语音特征作变换,减少SI系统与被适应人之间的差异。
1.4 连续语音中的顽健性技术
语音识别系统的性能受许多因素的影响,包括不同的说话人、说话方式、环境噪音、传输信道等等。提高系统的顽健性,是要提高系统克服这些因素影响的能力,使系统在不同的应用环境和条件下性能稳定。
通常在实验室相对安静环境下训练好的语音识别系统,当用在与训练环境不匹配的实际环境时,性能明显下降。顽健语音识别的任务,就是研究一些实用的补偿技术以提高语音识别系统在变化环境下的系统性能。一个顽健的语音识别系统,在实际使用中将受到各种变化条件的挑战。一个良好的系统,应该在各种条件发生变化时仍能表现出顽健的性能。
语音系统中的噪声,包括环境噪声和录音过程加入的电子噪声。提高系统顽健性的特征方法包括语音增强和寻找对噪声干扰不敏感的特征,模型方法有并行模型组合PMC方法和在训练中人为加入噪声。信道畸变包括录音时话筒的距离、使用不同灵敏度的话筒、不同增益的前置放大和不同的滤波器设计等等。特征方法有从倒谱矢量中减去其长时平均值和RASTA滤波,模型方法有倒谱平移。
下面介绍几种抑制方法。
小波变换的噪声抑制根据噪声与信号在各尺度(即各频带)上的小波谱具有不同表现这一特点,将各尺度上由噪声产生的小波谱分量,特别是将那些噪声小波谱占主导地位的尺度上的噪声小波谱分量去掉,则保留下来的就是原信号的小波谱,此过程可称为小波谱的重构或还原。然后再利用小波变换重构算法,重构出原信号。
EVRC编码的噪声抑制噪声和语音信号是不相关的,因此含噪语音信号的能量谱是语音信号和噪声信号能量谱的和。另外还假设噪声是相对平稳的。利用背景噪声谱估计和当前帧含噪语音的估计,可以降低噪声的影响。背景噪声谱估计在话音的间歇更新。
HMM模型的噪声补偿并行模型联合(Parallel Model Combination,PMC)技术是一种基于HMM模型的参数补偿方法。PMC的基本思路是用HMM分别对干净的语音和背景噪声建模,然后语音模型和噪声模型按照一定的模型匹配函数进行联合,生成的模型就称为带噪语音的HMM模型。
1.5 连续语音中的搜索策略技术
利用电子计算机识别语音时,从输入的语音中求得的特征参数,即未知的模式,它与事先准备的标准模式是否一致,必须检查。
例如考虑一下人对语音的识别,我们感到能识别语音,是由于懂得所听到的语音的意义,之所以懂得,是因为从本人记忆中的名词和连接词中,找到了相当于听到语音的词句。因此亳无意义的单词和全新的单词是不能被识别的。
与此同理,用计算机进行识别时,预先要在计算机内存储标准模式,该标准模式与输入的未知模式的特征一致时才能够识别。我们把标准模式的存储称为词典,把标准模式称为词条或样板。
如果输入的语音与标准模式完全一致当然好,但是因为语音含有很多不确定因素,完全一致的条件往往是困难的。这种情况,要预先制定好计算输入语音的特征模式与各特征模式的类似度、或者距离的规则。把该距离最小,也就是最类似的模式作为识别相应语音的手段。连续语音识别中的搜索,就是寻找一个词模型序列以描述输入语音信号,从而得到词解码序列。搜索所依据的是对公式中的声学模型打分和语言模型打分。在实际使用中,往往要依据经验给语言模型加上一个高权重,并设置一个长词惩罚分数。
在连续语音识别中,搜索策略是一个非常重要的研究课题。对传统的或修改HMM,著名的Viterbi解码算法和帧同步算法及其修改版本是基本搜索策略,其基本思路是以帧为搜索单位,任一时刻对每一条路径,都假定当前帧可能是该路径的后续,即每一时刻都在当前所有路径后发展所有可能的路径,以进行一个完备的搜索。
这种基本的搜索策略简单易行,但是并不适合直接用作大词表的识别,因为搜索路径随着时间的增长会急剧膨胀。这时必须确定一定的阈值以确定该保留哪些路径,但阈值过严会丢失正确的路径,过宽又会增加搜索空间的负担。
下面讨论几种算法。
传统的帧同步算法无论是传统的帧同步算法还是修改的帧同步算法(包括Viterbi解码算法),它们都是基于动态规划最优原理的。即“时刻t到达节点n的最佳路径,可以由时刻t-1到达(任一)节点m的最佳路径和t时刻的最佳策略(节点m到节点n的转移)来决定”。很多研究发现,将这个原理应用于语音识别是不合适甚至是存在错误的。
基于统计知识的帧同步搜索算法原理针对前面算法的不足,有些研究者认为进行帧同步搜索时有两种知识可以利用。第一种是基于纯统计知识的概率描述。比较典型的是对状态驻留长度进行建模,用概率密度或分布律来刻划状态驻留长度的分布情况。在搜索时,把系统处在当前状态的、当前驻留长度下的条件概率作为惩罚加进路径的总得分中,以此控制N-Best搜索中路径的取舍。另一种则是基于统计的规则。例如,根据类似的方法统计得到状态驻留长度的直方图,搜索时只有驻留长度落在允许的矩形窗内的路径才可以进行状态转移或驻留,这实质是把第一种方法中的概率分布看成是均匀分布。
受词法约束的词搜索树汉语常用词可以达到2~3万个,如果这些词(音节基元的串接)在搜索时采用线性的结构,那么效率是非常低的,甚至是难以忍受的。汉语的词都是由音节组成的,而汉语的有调音节只有1282个,无调音节只有412个。这样,我们可以把词表按照音节组织成为一棵搜索树,这就是一棵词搜索树(Word Search Tree,WST)。
在这棵搜索树中,根节点是一个虚节点,它含有指向其它子节点的存储区的信息;音节节点含有当前搜索路径的音节模型信息,以及指向其子节点的存储区的信息;而叶子节点是该词的终结,含有词的描述信息。在连续语音识别中,当路径达到叶子节点时,下一次状态转移需要重新进入这棵搜索树的根节点。采用一种好的存储结构可以降低搜索树的存储空间,并有利于树的创建和遍历(搜索)。
连续语音识别中的双层搜索网络:
在连续语音识别听写机系统中,除语言模型的应用外,声学部分的搜索是采用双层搜索网络(Two-Level Search Network,TLSN)的。
TLSN的第一层是搜索树。该层在语音识别基元一级对搜索路径的选择进行控制,任何一个待识语音,其搜索路径首先受搜索树的限制。
TLSN的第二层是搜索树的树枝,也就是在基元模型内部进行状态转移的控制。
2 连续语音的系统实现
语音识别系统选择识别基元的要求是,有准确的定义,能得到足够数据进行训练,具有一般性。英语通常采用上下文相关的音素建模,汉语的协同发音不如英语严重,可以采用音节建模,当然也可以采用音素、词或声韵母建模。系统所需的训练数据大小与模型复杂度有关。模型设计得过于复杂以至于超出了所提供的训练数据的能力,会使得性能急剧下降。
听写机大词汇量、非特定人、连续语音识别系统通常称为听写机。其架构就是建立在声学模型和语言模型基础上的HMM拓扑结构。训练时对每个基元用前向后向算法获得模型参数。识别时,将基元串接成词,词间加上静音模型并引入语言模型作为词间转移概率,形成循环结构,用Viterbi算法进行解码。针对汉语易于分割的特点,先进行分割再对每一段进行解码,是提高效率的一个简化方法。
对话系统用于实现人机口语对话的系统称为对话系统。受目前技术所限,对话系统往往是面向一个狭窄领域、词汇量有限的系统,其题材有旅游查询、订票、数据库检索等等。其前端是一个语音识别器,识别产生的N-best候选或词候选网络,由语法分析器进行分析获得语义信息,再由对话管理器确定应答信息,由语音合成器输出。由于目前的系统往往词汇量有限,也可以用提取关键词的方法来获取语义信息。
汉语连续语音识别系统一种采用基于段长分布的隐马尔可夫模型的汉语连续语音识别系统,包括语音采集装置、前端处理模块、特征提取、基音特征提取模块、声调识别模块、训练模块、声学层识别模块、拼音文法理解模块、语言理解模块。通过训练模块得到码本和模型参数;通过声学层识别模块对MFCC语音特征序列的搜索算法,产生拼音格形式的识别结果。同时,语音信号的基音特征矢量也被提取出来,送入声调识别模块,声调识别模块利用基音特征信息和拼音的分割点信息,得到拼音的声调信息并加入到拼音格中。接着,通过拼音文法理解模块对拼音格进行修剪,送入语言理解模块,转化为拼音图和词图,并在词图中进行搜索,得到最后的理解结果。
嵌入式语音识别系统嵌入式语音识别技术是指应用各种先进的微处理器在板级或是芯片级用软件或硬件实现语音识别技术。语音识别系统的嵌入式实现要求算法在保证识别效果的前提下尽可能优化,以适应嵌入式平台存储资源少,实时性要求高的特点。实验室中高性能的大词汇量连续语音识别系统代表当今语音识别技术的先进水平。但由于嵌入式平台资源和速度方面的限制,其嵌入式实现尚不成熟。而中小词汇量的命令词语音识别系统由于算法相对简单,对资源的需求较小,且系统识别率和顽健性较高,能满足大多数应用的要求,因而成为嵌入式应用的主要选择。嵌入式系统的硬件通常是用性能比较高的数字信号处理器(digital signal processor,DSP)来实现。目前,在嵌入式平台实现的主要是对系统的运算资源和存储资源要求比较低的特定人孤立词语音识别系统。
3 总结
本文主要是想把语音识别中出现的关联词技术、关键词技术、顽健性技术、自适应性技术、搜索策略技术一起融入到连续语音识别技术中。我们人类在听别人说话时,不一定要逐字听懂,只需要听懂一些关键词及关联词就能理解对方的大概意思,对于电子计算机也一样。
语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术,语音识别经过了四十多年的发展,已经显示出巨大的应用前景。
语音识别技术是非常重要的人机交互技术, 有着非常广泛的应用领域和市场前景[1]。在近二十年, 语音识别技术在训练模型、匹配时间、识别率等方面都有较大的提高, 但要全面达到实用的水平, 必须考虑环境噪声对识别率的影响。文中, 运用小波去噪的方法有效去除了语音信号中大部分噪声, 大大提高了系统的识别率。
2、小波去噪
对带噪的语音信号进行小波变换, 得到各个不同频带的子波信号, 通过频率的高低, 可以将语音信号和白噪声粗略地分开[2], 用小波变换就可以去除高频部分的噪声。小波去噪实质上就是减少噪声产生的小波系数, 保留真实信号的系数。
2.1 小波分析
利用小波变换把信号分解到多尺度中, 在每一尺度下去除属于噪声的小波系数, 保留并增强属于真实信号的小波系数, 最后经小波反变换恢复待检测信号。
2.2 小波基的选取
小波分析在工程应用中的一个十分重要的问题就是最优小波基的选择问题, 通过测试用小波分析方法处理信号的结果与理论结果的误差大小来选取最佳小波基。
文中运用了db3、db8、bior4.4、sym6、sym8和coif5等6个小波基对语音信号进行去噪处理, 去噪后的语音与原始语言的信噪比依次为19.42、19.68、19.49、19.67、19.72、19.75。因此, 选用coif5小波基作为实验函数。
在Matlab环境下, 对采集的语音信号叠加高斯白噪声, 构成带噪语音信号。再用小波技术对带噪信号进行去噪处理, 得到去噪后的信号。仿真的结果如图1所示。
从图1中可以看出去噪信号去除了加噪信号中的噪声信号, 提高了语音信号的信噪比。
2.3 小波去噪
实验中采用阈值法进行降噪。一般来说, 运用阈值去噪法消噪过程可分为三个步骤进行:
(1) 音频信号的小波分解。
(2) 小波分解高频系数的阈值量化。
(3) 音频信号的小波重构。
3、系统实现
文中研究对象是“0-9”这十个汉语数字。说话人的声音经过话筒从模拟信号转变为数字信号, 然后将语音文件经过预处理和端点检测后进行特征参数提取, 最后把特征参数序列按照HMM算法[3]进行模板训练并得出最终的识别结果。
4、系统性能评价
评价语音识别系统的性能好坏, 需要多种性能指标, 下面将用三种性能指标对实验系统进行评价[4]:
4.1 鲁棒性
语音识别的噪声鲁棒性是指在输入语音质量退化, 语音的音素特性、分割特性或声学特性在训练和测试环境中不同时, 语音识别系统仍然保持较高的识别率的性质[5]。在安静环境下, 系统识别率为85%。在噪声环境下, 系统识别率为76%。可以看出虽然对信号加入了噪声干扰, 但是识别率还是达到一定的水平。
4.2 信噪比
纯语音信号功率和量化噪声信号功率的比值称为量化信噪比。实验中对语音信号添加信噪比为12的噪声, 经小波去噪后, 信噪比接近于20。一般来说量化信噪比越大, 说明信号中的噪声越小, 去噪后的语音越接近纯语音。
4.3 识别时间
本系统在安静环境下, 识别时间约为5s。在噪声环境下, 识别时间约为4s。由此看来, 经过去噪后的信号, 其噪声信息量和非重要信息量在去噪的过程中会消去一部分, 使得系统的识别时间减少, 识别效率提高[6]。
5、结语
相比于传统的去噪方法, 小波去噪法有着更好的去噪性能。文中采用小波技术有效地去除了语音信号中大部分噪声, 获得了较高的鲁棒性和抗噪性。实验只能运用在非连续词汇系统中, 对于连续大词汇量系统还有待研究。拟建立更稳定的模型, 加大模型训练量和存储量, 以提高系统性能。
摘要:在语音信号分析的理论基础上, 考虑了语音识别系统的实际应用要求, 提出了小波去噪技术的研究。文中介绍了小波分析的基本理论, 选取了最佳小波基, 有效去除了语音信号中大部分噪声。采用了MFCC参数和HMM算法, 最终建立了噪声环境下语音识别系统。
关键词:语音识别,小波去噪,阈值
参考文献
[1]刘加.汉语大词汇量连续语音识别系统研究进展[J].电子学报, 2000, 28 (1) :85-91.
[2]李海东, 李青.基于阈值法的小波去噪算法研究[J].计算机技术与发展, 2009, 19 (7) :56-58.
[3]何强, 何英.MATLAB扩展编程 (第一版) [M].北京:清华大学出版社, 2002.
[4]胡光锐.语音处理与识别[M].上海:上海科学技术文献出版社, 1994.
[5]雷建军, 杨震, 刘刚.噪声鲁棒语音识别研究综述[J].计算机应用研究, 2009, 26 (4) :1210-1216.
【更改Office语音识别工作的语音识别引擎】推荐阅读:
office中的秘密10-01
关于申请更改自来水管道的报告09-23
工期顺延申请(更改)10-31
office应用教案06-29
office基础教学09-13
上班时间更改提议范文07-10
年龄更改申请书11-10
工龄更改申请书11-14
测报告更改申请书06-10
师德演讲比赛演讲稿更改06-05