我组参加CCL暨NLP-NABD 2014会议并荣获NLP-NABD 2014最佳英文论文奖
2014年10月18日至19日,第十三届全国计算语言学会议(CCL 2014)暨第二届基于自然标注大数据的自然语言处理国际学术研讨会(NLP-NABD 2014)在湖北武汉的华中师范大学举行。CCL是中国中文信息学会的旗舰会议,从2013年开始每年举办一次。该会议为中国境内各类语言处理技术和成果提供了良好的交流平台。NLP-NABD覆盖了自然语言处理中的基础研究内容,它关注中文的自然语言处理研究,尤其注重基于互联网资源和大数据背景下的自然语言处理的前沿方法和技术。
我组姜文斌老师、硕士生张海波、滕志扬同学参加了本次会议。
张海波等人的《基于联合音变还原和形态切分的形态分析方法》被CCL 2014录用。张海波等人提出了联合音变还原和形态切分的形态分析方法,将音变还原问题和形态切分问题融合成一个序列标注的问题,同时实现了音变还原及形态切分的功能,解决了传统形态分析方法所存在的错误传播问题且很容易扩展到新的语言上。有关维吾尔语、蒙古语以及韩语的实验显示:该方法大幅度领先于传统的先进行音变还原后形态切分的模型以及有向图模型。
今年的CCL & NLP-NABD 2014会议设立了最佳论文奖(中、英文各一篇)。今年选出的两篇最佳论文均具有较鲜明的创新点。为确保获奖论文的学术水平,该会议最佳论文的评选经过了严格的评审程序:论文录取阶段的双盲评审成绩优秀 -> 领域主席的推荐 -> 最佳论文评审委员会亲临CCL & NLP-NABD 2014会场听作者作报告 -> 评审委员会开会讨论达成最后共识。
值得庆贺的是,我组滕志扬等人的论文《Unsupervised Joint Monolingual Character Alignment and Word Segmentation》获得了此次会议唯一一篇英文最佳论文。该论文借助机器翻译中的双语词语对齐技术,让单语的字语料自己和自己对齐,实现无监督分词。论文中设计了一种联合模型,同时考虑了字对齐模型的概率和分词模型的概率。实验表明该论文所提出的模型在英语音标数据集Brent和Sighan Bakeoff 2005的中文数据集中均取得了很好的效果。该论文的颁奖词为:“该论文借助机器翻译词语对齐技术在单语环境下发现汉字间的共现规律,设计了一种新的非参数化贝叶斯中文分词模型,显著提升了无监督中文分词准确率,提供了有效利用自然标注文本大数据的一个新案例。”
李生老师(右一)和孙茂松老师(左一)为最佳论文奖获得者颁奖,图片中右二为滕志扬同学。
滕志扬(左一)和张海波(左二)会议期间合影