“汉语自然语言处理及机器翻译关键技术研究与应用” 获2009年度北京市科学技术奖二等奖
北京市委、市政府于2011年4月28日下午隆重召开北京市科学技术奖励大会。本研究组研制的“汉语自然语言处理及机器翻译关键技术研究与应用”项目被授予2009年度北京市科学技术奖二等奖。本次大会共颁发北京市科学技术奖一等奖29项,二等奖60项,三等奖194项。 附:项目简介 项目属于信息技术领域。 随着互联网的普及和全球经济一体化的发展,语言信息处理技术的重要性日益突出。本项目在面向海量信息的汉语自然语言处理以及以汉语为核心的面向多语言的统计机器翻译关键技术的研究和应用上取得了重要突破。 在汉语自然语言处理关键技术方面,提出了基于层叠隐马尔可夫模型的汉语词法分析方法,将汉语分词、未登录词识别、词性标注统一到了一个完整的理论框架中,大幅提高了汉语词法分析的效率和精度。此项研究成为同类研究工作的基准。基于该模型开发的词法分析系统ICTCLAS在多次国内外评测中表现出色。 在统计机器翻译关键技术方面,提出了一系列基于树到串规则的统计翻译模型,是目前国际上最热门的基于句法的统计翻译模型之一。项目组提出的基于最大熵括号转录语法的调序模型、基于上下文的规则选择模型以及领域自适应模型有效提高了机器翻译系统的翻译质量。基于该系列模型研制了多套统计机器翻译引擎和相应的训练工具,可以在大规模双语平行语料库基础上直接训练出高质量的机器翻译系统,并可以方便地移植到不同的领域和不同的语种。这些系统在多次国际国内机器翻译评测中表现突出。 以上研究成果申请发明专利8项,其中已经授权2项;获得计算机软件著作权10项;在本领域顶级国际会议上连续发表论文二十余篇,产生了较大的影响。
在应用方面,开源的ICTCLAS工具是目前世界上应用最广泛的汉语分词工具,正式下载量达7万余次,并被广大用户移植到了各种不同的编程语言和系统环境下,大大促进了我国中文信息处理、搜索引擎等相关领域的研究开发进展。项目组研制的专利翻译系统已经用于中国专利文献全文的翻译,用户给予了高度评价。机器翻译引擎已经转让给一些著名跨国公司,产生了很好的经济效益。