语音搜索将会是下一个搜索引擎争夺的高地

来源:岁月联盟 编辑:猪猪 时间:2010-04-24

  在月光博客看到Google近日,终于推出了中文语音搜索新功能,用户可以直接对着手机说话进行中文搜索,无需输入地址和搜索条目。一灰激动不已,因为数年前用搜索引擎搜索的时候就曾幻想过用语音进行搜索。 Google语音搜索现在支持的语言有普通话、美式英语、英式英语、澳式英语、印式英语或新西兰英语等,支持中文语音搜索功能的手机暂时有S60系统的诺基亚手机


 

  看了上面的使用视频演示,只能说真是酷毙了。Google在移动搜索领域又一次走在前面,抢到了制高点。

  Google Voice Search支持中文普通话无疑是惊人的进步,因为中文有着数量惊人的二义性词语,甚至多义,随着互联网的发展还出现了众多稀奇古怪的语法。建立一个中文统计语言模型已经不是易事,而且要通过检索技术处理返回理想结果。

  统计语言模型相关知识介绍:

  统计语言模型可以应用到很多的语言领域,例如机器翻译、语音识别、拼写纠错,我们熟悉的应用了统计语言模型的产品有谷歌全文翻译、语音拨号、搜狗输入法等。

  统计语言模型的原理简单就是通过分析大量的文档信息,从而统计出合适的语法规则。

  利用统计语言模型进行语言处理,首先需要进行中文分词,中文存在大量的二义词和多义词,这样就需要利用大量文档数据来统计语言模型,得出分词算法,然后利于分词分析语音数据(搜索引擎在索引前也应用到分词),得出中文语音模型,最后就可以用于语音搜索(例如Google Voice Search)。

  统计语言模型的研究,搜索引擎有天然优势,因为他们有大量的文档数据。Google在利用统计语言模型方面更是玩得出神入化,扫描图书、提供谷歌翻译等都是为了积累大量数据来提高他们在各个语言领域的技术,衍生出图形验证码系统、拼写纠错等应用。而这些应用又可以反馈数据来完善语言模型或者算法。

  统计语言模型和信息检索技术是息息相关的。通过对更多的互联网文档统计出更完美的语言模型,更完美的语言模型又可以促进搜索引擎的算法给出更佳的排名结果……

  2008年Google推出语音搜索,把在文字信息检索领域的优势扩展到到语音(自动)搜索领域,近日还推出了中文语音搜索。

  09年上网本热卖、3G强势发展、淘宝出手机、QQ手机的幻想、最近的疯狂iPad……

  一系列的IT业界动态可以预知“移动”是未来发展的方向,而“移动”需要的又是一些小、灵、巧的载体,比如智能手机、平板电脑。

  Google在移动搜索领域耕耘多年,深知按键输入或手写输入进行搜索都不是最顺畅的,唯有更智能化的“语音搜索”!

  未来,语音搜索将会是搜索引擎兵家的必争之地!让搜索来得更加疯狂和不可思议吧,受益的是我们用户!

  附:有几个朋友看完这篇文章,问为什么中文搜索老大百度没出中文语音搜索功能,我在这里统一回答一下。建立起一个统计语言模型除了需要大量文档数据,还需要优秀的分词技术。从Google发布中文语音搜索侧面可以看出,谷歌在中文分词技术方面已经超越了多年来保守的百度。还有,你们太不了解百度了,其实百度很早之前已经推出了“语音搜索”,不过技术和概念相差太远而已。百度“语音搜索”的相关资费和功能,可以看这里 http://yuyin.baidu.com/,另外还有一篇GSeeker写的《初试百度语音搜索》。

  版权声明:转载时请以超链接形式标明文章原始出处和作者信息及本声明。