去读读

免费在线阅读网

去读读 > 哲学心理 > 新中国民族语言学研究70年

第三节 民族语言计算语言学应用服务研究

    《新中国民族语言学研究70年》章节:第三节 民族语言计算语言学应用服务研究,去读读网友提供全文无弹窗免费在线阅读。!



一  民族语言计算语言学为民族语言机器翻译服务


机器翻译是指利用计算机将一种自然语言转换成另一种自然语言的过程。机器翻译研究开始于20世纪30年代,从发展历程来看,经历了基于规则的、基于统计的和基于神经网络的翻译方法三个阶段。

在藏汉机器翻译研究中,基于统计翻译的方法应用最广。董晓芳等(2012)提出了基于短语模型的藏汉机器翻译方法;华却才让(2014)提出了基于树到串的藏语机器翻译方法;位素东(2015)提出了基于短语的藏汉机器翻译方法。

神经网络机器翻译是最近几年比较流行的机器翻译方法,在大多数语言翻译上逐渐超过了基于短语的机器翻译方法,成为当前机器翻译研究的热点。李亚超等(2017)提出在藏汉双语句对上进行基于注意力的神经网络机器翻译的实验。

维吾尔语在机器翻译方面的研究起步于20世纪50年代,新疆大学着手研究“民汉语机器翻译系统基础研究”。2009年新疆大学与新疆信息产业有限公司合作开展了“汉—维、柯辅助翻译软件”的研发;2010年中科院计算所与新疆大学合作研制了基于统计的维汉机器翻译系统;2011年中科院新疆理化所开发了汉维—维汉统计机器翻译原型系统。

在2011年的全国机器翻译评测中新增了五种民族语言,维吾尔语是其中之一,新疆大学、中科院新疆理化所、中科院合肥物质科学研究院智能机械研究所、中科院计算所等6家单位参加了维汉新闻领域机器翻译。在2013年的评测中,新疆师范大学也参加了维汉机器翻译评测。在2015年的评测中,中科院合肥物质科学研究院智能机械研究所、新疆大学和中科院新疆理化所参加了维汉机器翻译评测。在新闻语料翻译领域,维汉机器翻译结果的BLEU值较高,译文的质量比较好。

在20世纪80年代末期,敖其尔(1988)开始了英文到蒙文机器翻译的相关研究。王斯日古楞(2007)报道了内蒙古大学等开展了  “面向政府文献的汉语蒙语机器辅助翻译系统”和“汉蒙机器翻译系统”等课题。娜步青(2006)谈到蒙古语言机器翻译研究经过了不同翻译方法的探索过程,即基于规则、统计以及规则和统计相结合的研究阶段。蒙古语言机器翻译,目前以蒙古语为目标语言的机器翻译研究相对多些,而以蒙古语言为源语言的研究很少。

当前有多个在线民汉机器翻译系统,分别是中国民族语文翻译局(中心)的智能翻译(多语);西藏大学的阳光藏汉双向机器翻译系统(汉藏语);中国科学院软件研究所和中国社会科学院民族学与人类学研究所的藏汉机器翻译系统(汉藏语),沈阳雅译网络技术有限公司的小牛翻译系统(多语),厦门大学云译藏汉翻译系统(多语)。



二  民族语言计算语言学为民族语言语音识别与合成服务


民族语言的语音识别研究是把民族语的语音转换成对应的民族文字或者国际音标。语音识别的结果能为民族语言文本信息处理提供资源,为语言调查者语音转写提供帮助,为语言资源保护提供技术手段。

民族语言语音识别的研究成果主要集中在蒙、藏、维三种语言。内蒙古大学飞龙研制了国内首款蒙古语语音识别和语音合成系统,实现了蒙古语大词汇量连续语音识别功能,识别正确率达到90%以上。

2010年,讯飞科技有限公司正式启动藏语语音处理系统的研发,成立了西藏大学—讯飞语音及语言联合实验室,该联合实验室推出三位一体藏语输入法、汉藏互译通、PC端藏语合成系统等多项科研产品。东嘎藏文语音输入法,卫藏方言识别率高达98.7%,平均每分钟180字。中国民族语文翻译中心(局)开发了藏语语音转写通、藏语智能语音输入法等一系列软件,极大地推动了藏文信息处理的进展。

捷通华声与清华大学、新疆大学、中国民族语文翻译中心(局)合作,打造维吾尔语语音交互服务平台——灵云平台,该平台的维吾尔语语音识别和合成调用次数超过上亿次,为汉族与维吾尔民众之间的语言交流做出了重要贡献。



三  民族语言计算语言学为语言本体研究服务


借用计算(或称计量)语言学的方法来研究语言,主要是采用计算的方法来研究语言,研究真实语言交际活动中呈现的各种语言现象、语言结构、结构属性以及它们之间的相互关系,通过概率、数学的定量方法对语言进行精确测量、观察、模拟、建模和解释,寻找语言现象背后的数理规律,揭示各种语言现象形成的内在原因,探索语言系统的自适应机制和语言演化的动因。其研究思路包括对某种语言学现象提出假设,采用大规模语言样本并转化为统计问题,然后通过一系列计算和检验得出结论并对结论进行解读。我国民族语言研究较早采用了计算方法来研究语言问题。

夏孟(1996)报道了民族研究所完成的苗瑶语言计算语言学研究项目“苗瑶语言的计量研究”,该项目运用计算机数据库和分析程序对14种有代表性的苗瑶语方言的词汇语音项做了定性和定量的描写、比较研究。曹雨生(1988)利用计量的方法探讨民族语言使用情况并对其分析。卢亚军等(2003)在大型藏文语料库的基础上,开展藏文字符、部件、音节、词汇频度与通用度统计研究。韩瑛等(2010)统计分析了小学藏语文课本词汇;曹晖等(2012)统计分析中学藏语文教材词汇;梁金宝(2013)则构建了藏语历史文献数据库,并统计分析了历史文献中词汇的基本面貌;杨建萍等(2015)统计分析了维吾尔文初中生物教材中的生物类词汇。

语言亲疏关系的计算研究。金理新(2001)利用斯瓦迪士的100核心词表分析藏语、缅语以及汉语彼此之间的同源关系,认为汉语和藏语的关系比较亲近,而缅语和藏语的关系比较疏远。邓晓华等(2003)采用计量方法研究苗瑶语族语言的亲缘关系,运用词源统计分析法对苗瑶语族语言作数理分类,认为斯瓦迪士的100词可以用作苗瑶语分类的标准,并描述出苗瑶语族语言之间亲缘距离的程度。张梦翰等(2019)通过对109种汉藏语系语言的近千个词汇词根—语义组合进行谱系建模分析,重构了汉藏语系诸语言间的亲缘关系,通过语言学和遗传学等多学科交叉的分析方法,揭示出汉藏语系在新石器时代晚期起源于中国北方。