注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

中吴南顾惟一笑

成功法则就是那19个字

 
 
 

日志

 
 

[转]剑桥语音识别  

2012-01-04 22:20:21|  分类: R&D |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
我们要讲述的故事是关于“语音”的。坦率的说,对现代人而言,
和网络、电视、汽车、飞船这些东西相比,语音处理方面的发明和创造并不是特别的令人激 动。这已大大的不同于1915年洲际长途电话试验的时候,人们为自己的声音可以从大西洋这头传到那一头而惊奇跳跃,互相拥抱,为人类的听觉器官能够被理性 和技术延展到那样的程度而无比自豪。随着一样又一样划时代的技术的出现,人类已经变得越来越不容易激动,那份为最初的一小步而发出的自豪,逐渐化成了幻想 未来技术无所不能的自信,继而对技术不能满足人们随心所欲的要求而略略有些失望。然而,技术的发展既不会因为人们的自信而跳跃,也不会因为失望而迟缓。就 让我们用语音识别的发展来体会这不紧不慢的技术脚步吧。

人类对于语音的技术处理大概要追溯到爱迪生1875年发明留声机和贝尔1876年发明电话。在这两个划时代的发明之后,语音正式成为了可以被人造物 有效存储、传输的信号。此后的语音处理逐渐分化出三个方向。最早开展的是物理信号层次的处理,主要是为了获得清晰、可靠、高效的信号,例如去除电话噪音 等,而说话的和听话的都是人。后来,人们开始了语音合成的研究,就是根据文字制造声音。1936年AT&T的贝尔实验室(Bell Lab)发明了世界上第一个电子语音合成器,这个东西在二战时期被悄悄的用在罗斯福和邱吉尔的电话通话中,以保证通话的安全。语音合成不同于一般语音信号 处理就在于它利用机器进行信号到信息的转化,虽然听话的仍然是人,但说话的却变成了机器。语音识别作为合成的逆过程,说话的是人,听话的是机器,基本的任 务就是把语音转化为文字。由于一般情况下人的语音,尤其是自然语音,有太多的变化,比如连读、方言、噪声环境等等,再加上语义还掺杂其中,可想而知,它的 难度要比语音合成高出很多,成为了语音处理技术中最具挑战性的分支。1922年发明的雷克斯狗(Rex Dog)可能是最早的语音识别装置了。这个玩具狗里面有一个电磁感应装置,对500赫兹的声学信号能够产生反应并触发小狗的运动系统,而英语里面的 “Rex”恰好是标准的500赫兹强音,于是小狗就能听话的识别它的名字“Rex”。但这个装置并不能将语音信号转化成文字,第一个真正意义上的语音识别 器其实到了1952年才出现,而那也不过只能在特定的语言环境下识别0-9这几个数字而已。随后,尽管工程师们不断改进,语音识别系统一直没什么进展。以 至于到了1969年,雷克斯狗已经出现了快半个世纪的时候,贝尔实验室的约翰皮尔斯(John Pierce)断言,自动语音识别在几十年内根本是不现实的想法,工程师们的技术补丁不可能解决人工智能这一基本难题。说到这里,我们的主人公剑桥大学还 没有出现。当然,在真正的大戏开幕之前,主角是不会登场的。

后来的事实又一次证明了,技术的突破往往要以科学理论的突破为先导。就在皮尔斯先生悲观的批评工程师们的徒劳努力的同时,从1966年到1972 年,一种描述随机时间序列的规律的新的数学模型正在被悄悄的建立发展。这种被称为“隐马尔可夫”模型(Hidden Markov Model)的东西来源于20世纪初的俄国数学家马尔可夫的理论,建立发展于20世纪中的美国大学和研究所,技术上的集大成者则最终是英国的剑桥大学。对 隐马尔可夫模型的研究极大的鼓舞了语音识别工程师和研究者们的热情,甚至也带动了政府的热情。皮尔斯先生1969年的话音还没落定,从1971年开始,美 国国防高级计划研究署(Defence Advanced Research Project Agency, DARPA)就投资一千五百万美元,以三年为期,组织了包括麻省理工学院(MIT)、加州大学伯克莱分校(Berkeley)、卡内基梅隆(CMU)、斯 坦佛研究所(Stanford Research Institute)等等著名研究机构,一起建立一个进行连续语音识别的计算机系统。这是当时规模最大的语音识别项目,也是美国把对语音信息的研究作为一 种战略基础研究的开端。与此同时,1971年的剑桥大学工程系,一个新的实验室被建立起来,当时被命名为语音图像机器人研究组(Speech, Vision and Robotics Group),后来更名为机器智能实验室(Machine Intelligence Lab)。这个实验室建立之初的目标就是对机器学习相关的技术进行研究,力图使英国这个科学大国继续能在先进的技术领域也占据一席之地。

70年代对于语音识别来说是平常但不平静的年代。说它平常是因为没有产生什么特别激动人心的实际技术成果,说它不平静,是因为产生这些技术成果的理 论和硬件条件都在迅速的积累。由于计算机的发展和快速傅立叶变换的出现,数字信号处理成为70年代最为火热的技术领域之一。以此为基础的语音识别也在众多 世界著名的大学、研究所和公司紧锣密鼓的开展起来。除了前面提到的几所高校之外,还有几个名字值得一提,它们都在70年代中为语音识别的最初发展做出了重 要贡献。至今耳熟能详的几个大公司包括IBM、AT&T、Philips、德州仪器(Texas Instrument, TI)等等,还有一些专门从事语音处理的公司,如BBN、Dragon等。这些单位后来都参与了世界语音评测的比赛。到了80年代初,语音识别的研究已经 初具规模,形成了不同的门派以及各自的系统,Dragon甚至造出了一套完整的语音识别以及合成的商业系统。就像长跑中的头几圈一样,到这个时候,剑桥大 学还是跟在后面,不过已经逐渐跟住了这样的前沿。

1984年,美国国家标准及技术研究所(National Institute of Standards and Technology, NIST)和国防部高级计划研究署一起做了一件语音识别历史上的重大决定。它们决定出资进行语音识别评测标准的研究,希望能系统科学的衡量各个语音识别系 统的性能。TI和MIT一起收集整理了第一个声学数据库并制定了一套数据采集的标准,成为世界第一个语音评测平台。这套被成为TIMIT的数据库至今还在 被语音识别的研究者们用作评测算法的标准数据。TI收集的第二组数据被正式的用来进行自动语音识别系统的客观评测,从此开始了一场语音识别率桂冠的世界争 夺战。这组数据被称为“资源管理”(Resource Management)的数据库,是由人读了2800句固定模式的话而录成的,例如“请把椅子搬过来”之类。虽然是人“读”的,但毕竟是自然的连续语言, 这和TIMIT数据库中的孤立词相比,已经非常接近人类的实际语音。这是语音评测的第一个时代。NIST把这套数据和测试平台向世界所有的研究机构公开, 征求高性能的语音识别系统。参赛者必须提供自己系统的详细说明以及测试的结果,由NIST把结果与标准答案进行比对,获得错误率。参赛者还必须在NIST 举行的研讨会上做报告,共享自己系统中采用的各种技术和算法。顺便说一句,“错误率”标志了语音识别系统的性能,对各家参赛者来讲是性命攸关,而它自己本 身却也是一个颇有争议的研究问题。目前广泛采用的错误率是单词错误率(Word Error Rate, WER)(英文系统),基本想法就是把正确答案和机器的识别结果排在一起,一个词一个词的对,把多出的词,遗漏的词和错误识别的词统统加在一起,算作错 误,然后计算错误的词占实际单词总数的百分比,称为错误率。换句话说,这个标准要求理想的语音系统与标准答案严格一致,分毫不差,而这在有些情况下,比如 一般的电话语音,连人都做不到!不管研究者对苛刻的测试标准多么有微辞,毕竟华山论剑已经天下皆知,各门各派都禁不住摩拳擦掌跃跃欲试了。

第一次正式的测试是在1988年6月,BBN、CMU、MIT的两个实验室(MIT Lincoln Lab and MIT Lab for Computer Science)以及SRI参加了测试。这时的最高技术水平是达到了20.7%的错误率。而到了1991年的2月,错误率就已经迅速降低到了3.6%,参 赛者则又多出了AT&T、波士顿大学等等新的面孔。到1992年,NIST组织的语音评测大赛真正成为了一场国际赛事,包括Philip公司,法 国国家信息技术实验室(LIMSI)和剑桥大学等的非美国研究机构参与了进来。这一年,剑桥大学的评测成绩远远排在后面,没有引起任何注意。可是,同样不 被人注意的是,这次剑桥大学拿出来的其实根本不是一个完整的系统,它的参与更像是一次熟悉规则的试探。1992年成了“资源管理”时代的终结,在这个简单 测试集上人们已经再榨不出什么研究兴趣了,NIST决定改换测试集,进入一个新的时代。

新的时代被称作“华尔街杂志”(Wall Street Journal)。NIST选取了大量的华尔街杂志的文字,再找人读这些杂志,语音录成标准数据库。这个测试集的词汇量大约为5000到20000,大大 超过了“资源管理”测试集中的900个单词的词汇量。词汇量的增加使语音识别的难度也大大增加了,后来的人们所公认的最具有挑战性的“大词汇连续语音识 别”就始于此。所谓疾风知劲草,烈火现真金,语音识别任务的难度一上去,某些对特殊情况定制的系统就会吃力了。所以,这次语音评测的参与者数目骤减,只有 4家。法国国家信息技术实验室携着1992年一举拿到识别错误率最低桂冠的余威,当仁不让的参加了进来。可惜,这次却失手了。剑桥大学第一次以完整系统参 与了测试,把法国国家信息技术实验室挤到了老二的位置上。正是一战成名天下知,剑桥大学从此成为世界语音识别界目光的焦点。

其实,从1989年起,剑桥大学工程系语音视觉机器人研究组就在史蒂夫.杨(Steve Young)教授的主持下开始开发一套“隐马尔可夫模型工具包”(Hidden markov model Tool Kit, HTK)。这套软件包不是一个简单的语音识别系统,而是一套基于隐马尔可夫理论的完整的研究平台。由于在这个平台之上,研究者可以轻易的试验各种新式的算 法,搭建各种不同的语音识别系统,HTK很快就成为了语音识别研究的一个炙手可热的“标准”。从1992年起,这个代码以每份450或950英镑的价格向 研究机构或公司出售。在赢得语音评测冠军的同时,也给开发者们带来了不菲的收入。一位研究者在撰写语音处理的年代大事记时,在90年代一栏中有这样几句: “90年代,剑桥大学开发的HTK工具包广泛流行起来,它使研究用的代码标准化,并由此把众多新的研究者引入到这一领域(指语音识别,作者按)中来。”
当然,取得语音评测的桂冠不可能只靠几行C语言代码,更要靠创新性的技术。衡量一个技术水平的高低也不仅要看它是否有创新,更要看这个技术在多大程度上被 后来人广泛采用和接受。自1993年剑桥大学第一次取得桂冠起,许多影响深远的语音识别技术陆续在剑桥产生,并成为后来主流系统必然采用的经典算法。例如 1993年那次使用的状态绑定技术,从次年起就被所有的研究单位吸收使用,一直到今天。

高手过招,输赢都在毫发之间,更何况在NIST语音评测的规则之下,高手不能保存自己的秘密,必须把详细的系统说明和算法理论公布出来。于是,就像 NBA的篮球一样,三十年河东,三十年河西,几乎是一定的了。在1993年的评测之后,各个研究单位对大词汇连续语音识别的认识都有了极大提高,1994 年参与评测的单位一下子增加了将近3倍。IBM、AT&T、SRI、BBN、CMU、Philips、Dragon等等这些老牌的语音识别研究机 构都卷土重来。但到测试结果公布的时候,剑桥大学不仅以最低的错误率独占鳌头,而且和第二名的差距居然是“统计上显著”(Statistically Significant)的,用通俗的话来解释,就是把第二名远远甩在了后面。这年剑桥提出的最大似然线性回归自适应算法后来不单单是语音识别研究中的经 典之笔,也成了工业界广泛使用的基本算法。1995年,NIST增加了一些评测的难度,把带有噪声的语音作为评测数据,剑桥再次夺冠,其采用的线性预测编 码特征又一次成为后来研究者们追随的标准。在此几年中语音识别的巨大进步又燃起了人们的自信和渴望,语音识别逐渐在评测的基础上开始商业化。1995年, IBM开发了一个离散词汇听写软件,也就是后来的Via Voice的前身。一个叫Entropic的公司也在剑桥成立,开始专门维护和开发HTK软件。

识别听写的语音似乎已经成为了一个已经解决的不错的问题,人们开始把目光转向自发产生的连续语音。NIST又一次把评测推进了一个新的时代:广播新 闻(Broadcast News)。这是第一次识别真实世界中的流利的人类语音,由于广播中偶尔出现的采访、片头曲、背景噪音等等,这个任务曾一度被认为过于困难。后来, NIST不得不调整策略,仅仅对正常语音部分的识别率进行评估,1996年的评测就是基于此。尽管剑桥大学在基准系统的评测中仍然是第一,但综合系统却被 法国国家信息技术实验室以微弱优势超过,自身的优势与BBN、IBM比起来也并不十分明显。这显然刺激了剑桥的研究者们,虽然仅仅是个第二。到1997年 的广播新闻语音评测比赛,剑桥再次夺冠,并且又是赢的“统计上显著”,让其它人只能望其项背。不过,这一次,IBM已经超过了法国国家信息技术实验室,取 得了第二的位置,这个商业上的蓝色巨人在研究领域里面也决不甘心矮人半头。1998年的一般系统评测中,蓝色巨人终于夺得了桂冠,而剑桥只是第三名,在法 国国家信息技术实验室之后。不过,这次的失利到并不使剑桥的研究者们感觉特别尴尬,因为它们在更有技术难度的10倍实时系统评测中依然遥遥领先。原来,此 前NIST所组织的一般评测只考虑各个机构提交的语音识别结果的错误率,并不考虑识别语音所需要的时间。所谓“10倍实时”系统的意思,就是这个系统识别 1小时的语音,需要10小时的计算时间。这次NIST引进了10倍实时系统的评测,就是为了使语音识别系统向更为实际可行的方向发展。所以,虽然蓝色巨人 赢得了无限时系统的胜利,剑桥却在为自己在更高难度的系统中的霸主地位而欣喜。

1999年NIST没有举行正式的语音评测,原因不祥。不过,在剑桥却发生了一件大事。维护HTK多年的Entropic公司被微软 (Microsoft)公司高价收购,HTK也因此成为微软的财产。到那时为止,HTK已经拥有了世界范围内无数的忠实使用者,不仅遍布了语音相关的各个 领域,也有许多来自诸如图像、经济、生物信息等其它领域。封闭是没有前途的,经过一系列协商,令人惊奇的幸运发生了。微软没有向对待Windows一样对 待HTK,把它仅仅作为开发自己产品的软件包,而是重新把HTK核心技术的使用权送还给剑桥大学工程系,把HTK在网络上免费发送,并允许其它的机构或个 人自由的使用,甚至进行自己的修改。这一决定又一次促进了HTK成为最广泛使用的语音识别和时间序列处理的研究平台。

从1998年开始,在广播语音之后,NIST事实上又开辟了一个新的评测任务:电话对话语音(Conversational Telephone Speech)。2000年和2001年的评测就是以这一任务为主题。这在难度上又加了一层,因为电话中的对话通常都是非标准的自发语音,语音的随机程度 和内容、词汇的随机程度都要比广播语音大的多。更糟糕的是,通常的电话语音都有一定的线路干扰,而NIST偏偏选了许多长途电话的录音,导致语音信号的质 量从一开始就很差。这恐怕是语音识别发展到现在难度最高的识别任务了。而难度越高对剑桥似乎就越有吸引力,所以剑桥从最初就作为最具实力的研究机构参加了 电话语音的识别竞赛。自1998年取得了第一之后,2000年和2001年又两次取得了“统计上显著”的第一,以绝对的优势拉开了和IBM、约翰.霍普金 斯(John Hopkins University, JHU)、AT&T、SRI等研究机构之间的距离。至此,剑桥大学在语音识别领域的领导地位在将近10年的评测冠军的争夺中被确立下来。

随着信息处理技术的发展,人们逐渐把兴趣从发展成熟的单项技术转向建立综合的自动信息处理系统,在综合系统中提高单项分系统的性能。美国国防部高级 计划研究署在2002年提出了一个称作“高效低耗多用途语音文字转化”(Effective, Affordable and Reusable Speech-to-text, EARS)的项目,把NIST的语音评测推到了又一个新的时代:丰富的语音文本(Rich Transcription)。所谓“丰富的语音文本”就是指从经过机器的识别,不仅和语音相对应的文字都被显示出来,而且文字之间的标点符号、句词之间 的停顿、说话人等其它语音信息也同时识别出来。这样两者结合,计算机的自动输出就可能成为具有直接可读性的文本。当然,这个项目就自然分成了语音文字识别 和语音信息标注两个子项目。剑桥大学当仁不让的成为语音文字识别的主要参与者,并开始开展语音信息标注的研究。自2002年剑桥大学再次在NIST的语音 评测中全面的傲视群雄之后,参与NIST评测的研究机构发生了一点小小的变化。法国国家信息技术实验室和美国的BBN公司决定组成联合舰队,把各自的系统 组合起来参加评测,合二人之力挑战其它参赛者。有类似想法的也包括IBM和SRI。于是,2003年春天的NIST语音评测研讨会就格外引人关注。这次公 布的结果是,剑桥与法国美国的联合舰队在无限时电话语音识别中打了个平手(一个测试集上剑桥领先一点,另一个上面联合舰队领先一点),都做出了当时技术水 平下的最好结果。而在广播新闻的识别中,由于没有联合舰队的参与,剑桥一下子包揽了无限时、10倍实时和1倍实时测试的所有桂冠。2004年,为了达到国 防部高级计划研究署期望的技术水平,包括剑桥在内的主要研究机构联合起来,针对10倍实时的广播语音识别制造了一个叫“超级耳朵”(Super- ears)的系统。最后的测试报告显示,“超级耳朵”是第一,剑桥单独的系统是第二,而法国美国联合舰队的系统则屈居第三。不过,在同年的电话语音识别 中,剑桥被IBM超过,而且这次IBM取得了第一次“统计上显著”的胜利。剑桥的研究者们有些沮丧,更多的却是一点点尴尬,因为使得IBM取得这样成绩的 技术正是来自于2003年刚刚从剑桥工程系机器智能实验室毕业的一个优秀博士生。

故事到了这里大概就该告一段落了,因为我们的编辑大概等不急下一次测试了。不是一个完美的结束,是不是?其实,技术发展史中从来只有不断的起步,而 从没有完美的结束。剑桥大学机器智能实验室在历次世界语音评测比赛中提交的主系统都是最优秀或者最优秀的之一,历经10几年屡战屡胜。但它也提交过不少不 那么优秀的开发性测试系统,去保持自己和其它语音以及信息处理技术的接触。最近,又一个新的项目被美国国防部高级计划研究署大张旗鼓的提了出来:全局自动 语言利用(Global Autonomous Language Exploitation,GALE)计划。这个计划是要用计算机自动实现人的对语音和语言的分析,使多种语言的语音输入可以自动转化为英文的有效文字信 息。这个项目涉及了语音识别、机器翻译和信息自动分析等多个方面,剑桥大学不仅继续参与了语音识别,也决定开始研究机器翻译以及系统整合。许多领域对于它 来说又是新的,仿佛又回到了十几年前一样。不过,漫天飞雪梅花喜,对这个被古老大学的科学传统培育起来的世界顶级实验室而言,还有什么比新的挑战更有趣的么?

  评论这张
 
阅读(431)| 评论(0)
推荐 转载

历史上的今天

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017