去读读

免费在线阅读网

去读读 > 哲学心理 > 新中国民族语言学研究70年

第四节 研究成就、经验及展望

    《新中国民族语言学研究70年》章节:第四节 研究成就、经验及展望,去读读网友提供全文无弹窗免费在线阅读。!



一  民族语言计算语言学研究成就


民族语言计算语言学研究经过几十年的发展,取得了大量的研究成果,积累了丰富的研究经验。基本完成计算机字符编码,实现了现行文字和古文字计算机输入、输出、显示、打印,基于统一编码的民族文字的网络传输得以实现。为民族文字的文本信息化、基于民族文字的文化保护和传承、资源库建设奠定了基础。

民族语言“字”处理研究取得了大批科研成果。蒙、藏、维、朝、哈、柯、彝等民族语言在分词、词干词缀切分、词性标注等基础研究领域成果丰富,构建了大批数据资源,开发了语言研究和分析工具,基本满足了民族语言自然语言处理的需要。

民族语言句法、语义和篇章研究粗具规模。基于句子级、篇章级的资源库不断积累,推动民族语言本体和应用研究深入开展。

基于民族语言的应用产品不断涌现。一部分跨国、跨境语言的民族语言文字应用产品的开发和使用,对维护国家边疆稳定、地区和平发挥着重要作用。“一带一路”沿线多语机器翻译、语音识别产品对跨国、跨地区经济、文化交流提供服务。蒙、藏、维语音识别和机器翻译系统基本达到实用水平,推动了各民族之间的文化交流。

民族语言文字的搜索引擎、信息过滤等软件工具对净化网络环境发挥着重要作用。



二  民族语言计算语言学研究经验及展望


(一)基础资源建设是民族语言计算语言学研究的前提


计算语言学研究需要大量的数据,也只有数据量大了,计算的结果才更能反映语言的真实情况。停留在少量数据上的研究,不能发挥计算机强大的运算功能,难以采用语言模型自动处理和获取语言材料中人工不能捕获的信息。民族语言资源难以满足大数据、神经网络技术对资源的需求。在未来的民族语言计算语言学研究中,急需加大力度积累数据资源。文本材料和语音材料收集、整理都需要加强,从文本信息处理的角度看,丰富的资源能为提高民族文字的信息化、智能化水平奠定基础。从语言资源保护的角度看,大规模口语材料的收集和整理是民族语言及方言土语保护的有效措施,也是基于语料库的民族语言基础理论研究的前提。



(二)培养交叉学科人才是民族语言计算语言学研究的保障


民族语言计算语言学研究领域相对狭小,市场应用价值小,难以吸引高端人才加入研究队伍。民族语言计算语言学研究经历了字处理阶段、词处理阶段,虽然也培养了大批不同层次的学生队伍和研究人员队伍,但与汉、英语研究相比,研究团队小,技术相对落后。当前和今后一段时期,民族语言计算语言学研究领域转向句法、语义、篇章,一部分非母语研究者由于不精通民族语言,难以继续深入研究。培养多语人才和跨学科知识的后备人才是民族语言计算语言学研究面临的紧迫问题。



(三)加强民族语言本体研究与计算语言学研究的结合


民族语言本体研究成果主要集中在语音、词汇方面,句法、语义、篇章研究不足。其主要原因除了对研究者语言水平要求较高之外,本体研究者很少使用计算语言学研究手段和方法以及研究成果。在收集、整理和分析民族语言材料时,很少使用语言自动处理技术,导致工作进度慢,加工规范性差;反过来这些材料也难以用于语言计算研究。本体研究和计算研究有机结合、相互促进是今后民族语言研究关注的重点。

*  *  *

[1]  文心:《字符背后的秘密——文字编码》,《电脑爱好者》2005年第4期。

[2]  玉素甫·艾白都拉等:《维语词法分析器研究成功》,《中文信息》1997年第4期。

[3]  麦热哈巴·艾力:《基于实例的维汉机器翻译若干关键问题研究》,新疆大学博士学位论文,2014年。

[4]  王东海等:《电子词典编撰中的语义网与义链研究》,《长江学术》2007年第  4期。