去读读

免费在线阅读网

去读读 > 哲学心理 > 新中国民族语言学研究70年

第五章 新中国少数民族语言的计算语言学研究

    《新中国民族语言学研究70年》章节:第五章 新中国少数民族语言的计算语言学研究,去读读网友提供全文无弹窗免费在线阅读。!



自20世纪80年代开始,我国开展了民族语言计算语言学研究,经历了民族语言“字”处理研究阶段、“词”处理研究阶段,产生了大批研究成果。当前民族语言计算语言学处于“句法、语义和篇章”研究阶段。在探讨民族语言计算语言学理论方法的同时,也开展了面向民族语言应用和语言服务产品的研究。



第一节  民族语言计算语言学研究


一  民族语言字处理研究


我国有20多种民族文字,大体上可以分成两种类型,一类是以拉丁字母为基础的拼音文字,另一类为非拉丁字母的文字。非拉丁字母文字又可以分成两类,一是如维吾尔文以阿拉伯字母为基础的文字系统;一是如汉字一样的表意文字系统。民族语言字处理研究主要关注非拉丁字母文字系文字。



(一)民族文字代码转换阶段


没有计算机字符编码之前,非拉丁字母民族文字通过制定对应的拉丁字母,利用代码转换方式,借助计算机工具开展语言文字研究。由于不同民族语言文字研究的深度和广度存在差别,文字代码转换研究方式从20世纪80年代到现在一直存在。但随着各民族语言文字的国际、国家编码字符集的完成和颁布,代码转换方式也完成了其历史任务。

于道泉首先设计了一套数码,以数码代替藏文,张连生(1983)改进了数码代字设计,开展藏文计算机排序以及代码与藏文之间的互转研究。

确精扎布(2012)等把蒙古文转写成拉丁字母,以拉丁字母形式建设蒙古文文献数据库,开展蒙古语言文字研究。

其他民族文字包括锡伯文、维吾尔文等都采用过拉丁转写形式。



(二)民族文字字符计算机编码


计算机和手机等电子设备并不能直接处理文字图像,需要将每个图像转化为代码(编码)。当显示字符的图像时,通过代码(编码)在字库中查找该字符的点阵图,实现文字屏幕显示[1]。同时还需要解决字符输入、输出问题。与之相关的研究主要集中在字符集编码、输入法、文字字库三个方面。

在藏文字符编码初期阶段,各研究单位、出版机构开发藏文字处理软件,编制不同的藏文字符编码集。1997年形成ISO/IEC10646《通用多八位编码字符集》藏文编码字符国际标准字符集方案。1998年1月正式发布了藏文小字符集国家标准(GB  16959—1997《信息技术信息交换用藏文编码字符集基本集》),完成了藏文编码字符集国际、国家标准。

20世纪80年代中期,国内外已经有十多种蒙古文编码方案,如蒙科立编码、方正9.X系列、方正6.X系列、傲游塔、华光、明安图、赛音等。1987年,国家技术监督局发布了蒙古文字符编码国家标准(GB  8045—1987《信息处理交换用蒙古文七位和八位编码图形字符集》),这是我国第一个民族文字国家标准字符集。但蒙古文编码国际标准到2000年才获得ISO/IEC  JTC  1/SC2  的批准。

沙马拉毅等1985年研制了彝文的激光照排技术,是我国首个少数民族文字编辑排版系统。1992年《信息交换用彝文编码字符集》由国家标准出版社出版、国家技术监督局颁布实施。2000年彝文及其部首编码被批准成为国际标准。

蒙古文、托忒蒙古文、锡伯文、满文、藏文、维吾尔文、哈萨克文、柯尔克孜文、朝鲜文、彝文和德宏傣文编码字符集被收入在ISO/IEC  10646区;西双版纳新傣文编码字符集被收入在ISO/IEC  10646:2003/Amendment  2:2006区;其他一些文字也开始研究并逐步形成了编码字符集国际标准草案,如老傈僳文、滇东北简体苗文、西夏文和古突厥文。纳西东巴文和古彝文的编码字符集国际标准也在紧锣密鼓的研制之中。完成未编码的民族语言文字的编码体系,使之早日进入国际编码体系,以满足我国民族语言文字信息技术和产业快速发展的需要,这是当前和今后民族语言文字编码研究的重要任务。



(三)民族语言文字计算机输入


1.键盘输入

键盘输入法是文字进入计算机的主要手段之一。我国民族文字字符编码、键盘键位编排和输入法研究同步进行。

藏文键盘输入法先后出现有同元输入法、班智达输入法、央金藏文输入法和喜马拉雅输入法等。目前也开发了基于网络的在线输入法、基于手机系统的输入法、基于词或短语的联想输入法,等等。

其他民族文字输入法研究包括水书文字输入法、彝文输入法、西夏文四角号码输入法、满文输入法、纳西东巴文字输入法、苗文输入法、古壮字的输入法、蒙古文编码及输入法,等等。

键盘布局国家标准。键盘是计算机输入的主要方式之一,键盘硬件编排全球通用,但键位与不同文字字符的对应不同。如果键盘布局没有统一标准,不同设计和开发者都可以采用自己的键位对应规则。

藏文键盘布局国家标准在1998年发布,即GB/T  17543—1998《信息技术藏文编码字符集(基本集)键盘字母数字区的布局》,遵照小字符集标准。2008年更新了藏文键盘布局国家标准,即GB/T  22034—2008《信息技术藏文编码字符集键盘字母数字区的布局》等键盘布局标准。

蒙古文键盘布局标准于1987年颁布,即GB/T  8046—1987《信息处理交换用蒙古文字符集键盘的字母区布局》,2011年修订后的国家标准颁布,即GB/T  28038—2011《信息技术通用多八位编码字符集蒙古文通用键盘字母数字区布局》。

其他具有键盘布局国家标准的民族文字有德宏傣文,即GB/T  28175—2011《信息技术通用多八位编码字符集德宏傣文通用键盘字母数字区布局》,西双版纳新傣文,即GB/T  28176—2011《信息技术通用多八位编码字符集西双版纳新傣文通用键盘字母数字区布局》,西双版纳老傣文,即GB/T  32637—2016《信息技术通用多八位编码字符集西双版纳老傣文通用键盘字母数字区布局》,维吾尔文,即GB/T  12510—2015《信息技术维吾尔文通用键盘字母数字区布局》,哈萨克文,即GB/T  31918—2015《信息技术哈萨克文通用键盘字母数字区布局》,柯尔克孜文,即GB/T  31917—2015《信息技术柯尔克孜文通用键盘字母数字区布局》和GB/T  31921—2015《信息技术基于数字键盘的柯尔克孜文字母布局》。

输入法主要有基于字符的输入和基于词、短语和句的输入法。目前民族语文字的输入法以基于字符的输入为主,急需要开发词、短语等输入法。

2.光电扫描识别

字符识别主要通过光电扫描,把存在计算机内的民族文字图片转换成可以编辑的文本。我国民族文字文献非常多,要把它们变成可以编辑、检索的文本型文档,单独依靠手工录入方式,要耗费大量人力和财力,通过光电扫描技术可以加快民族文字文献的信息化。

文字识别可以分成印刷、雕刻版等材料的文字识别、手写体联机和脱机文字识别。藏文字符识别研究成果丰富,手写体识别研究也不断深入。蒙古文字符识别达到实用水平。维吾尔文识别研究成果相对较多,维吾尔文手写体识别成为研究热点。朝鲜文、东巴象形文字符识别处于起步阶段。满文字符识别取得了一定的成效。湘西方块苗文和苗文手写体识别逐步开展。

3.语音输入

语音识别是让机器把人类的语音信号转变为相应的文本或命令。民族语言语音输入研究处于起步阶段,还没有太多的实用产品,制约语音输入的主要因素是基础研究薄弱,可供语音输入使用的资源有限。尤其是口语语音数据库、自然场景对话语音数据库等基础资源。

蒙、藏、维语音输入法研究深入开展。朝鲜语语音输入处于初步探索阶段。讯飞科技有限公司和中国民族语文翻译局开发的软件初步实现了蒙、藏、维语语音输入。



二  民族语言词处理


(一)分词及词缀切分研究


“字”处理是语言信息处理的前提,“词”处理是语言信息处理的基础。根据我国民族语言的语言类型不同,词法分析的方法也不同;大体上可以分成两类:一是词形变化不丰富的孤立型民族语言,如藏语、彝语等,则需要进行词的边界识别和词性标注。二是具有丰富词形变化的黏着型民族语言,如蒙古语、维吾尔语等,则需要进行词干、词缀切分和提取,然后进行词性标注。

1.孤立型民族语言分词

孤立型民族语言分词研究类似中文分词研究,就是寻找词的边界。孤立型民族语言分词研究大体经历两个阶段:基于词表匹配的规则分词和基于数据训练的统计分词。统计分词根据所采用方法的不同又可以分成基于序列标注的统计分词和基于神经网络深度学习的统计分词。

基于规则的分词原则研究。陈玉忠(2003)、江荻(2003)主要利用词典匹配,包括最大匹配法、逆向最大匹配法、双向扫描匹配法、高频优先切分法和最佳匹配法等研究藏语分词。

基于规则分词的词表研究。高定国(2009)总结了藏文词表开发研制的基本情况。

基于规则的分词技术研究。陈玉忠(2003)阐释了利用字切分特征、字性库先“认字”,再用标点符号、关联词“断句”,用格助词“分块”,再用词典“认词”。

基于统计的藏语分词研究。藏语统计分词经历了隐马尔科夫模型到条件随机场再到神经网络技术的研究历程。

彝文分词研究。王成平(2012)提出基于词表的彝文自动分词算法。陈顺强(2012)讨论彝文分词规范原则和分词技术,实现了基于隐马尔科夫模型的彝文分词系统。孙善通(2016)讨论彝文网络分词。

傣文分词研究。高廷丽(2013)提出了基于音节序列标注方法开发了傣文分词系统。李慧(2016)采用了统计和规则相结合的方法研究傣文分词。

2.黏着型民族语言词干、词缀切分

基于规则的词干、词缀切分。基于规则方法主要是通过构造词干和词尾的规则表。词根词典里存放功能词和非功能的词根[2]。例如维吾尔语非功能词中词尾非常丰富,词形变化较多,但有规律可循,词干和词尾、词尾与词尾之间的组合有规则,因此构造一个词干与词尾、词尾与词尾之间的变化规则,完成词法分析。但是黏着型语言存在语音和谐问题,词干后接词尾时,有些元音、辅音会出现弱化或者丢失、增加等情况,为了得到正确的词干与词尾,还需对发生变化的字母进行还原[3]。规则也可能出现遗漏、冲突、歧义等情况。对于发生复杂音变现象的词(特别是动词的形态)利用规则也难以恢复原始形式。

基于统计的词干、词缀切分。主要思路是采用人工加工好的语料通过计算机训练切分模型,自动切分词干词缀。



(二)词性标注研究


词性标注是指为给定句子中的每个词确定一个合适的词性的过程。词性标注研究是自然语言处理基础研究内容之一。词性标注研究包括两个方面:一是制定词性标注规范和标注集,二是词性标注技术研究。

词性标注规范如何制定,标注集如何确定,要根据不同民族语言的特点制定不同的标注规范和标注集。

藏文词类分类原则和标注规范研究。藏文词类分类有多套标准。

蒙古文词类分类原则和标注规范研究。通拉嘎(2014)从语料库标注的角度探讨了现代蒙古文标注规范问题。

周潭等(2019)探讨了方块苗文词性标注集的设计问题。

目前,藏文词类分类规范颁布了国家标准。

藏语词性标注研究。词性标注研究主要以统计方法为主,有隐马尔科夫模型标注方法、融合语言特征的最大熵词性标注方法、感知机训练模型的判别式标注方法、最大熵和条件随机场相结合的标注方法、未登录词的词性预测模型、词向量词性标注模型。

蒙古语词性标注研究。胡冠龙等(2007)在蒙古文拉丁化的基础上,讨论了词性标注研究。艳红等(2010)采用隐马尔科夫模型。赵建东(2013)讨论了蒙古语词性标注的历史模型。张贯虹等(2011)采用最大熵模型。那日松(2016)利用条件随机场模型开展蒙古文词性标注。刘婉婉等(2018)利用神经网络模型研究蒙古文词性标注。

维吾尔语词性标注,也主要分为三大类,早期主要是采用规则的方法,后来统计方法居上,当前的趋势是统计与规则结合。规则方法主要依靠基于词典的匹配,一词多性问题比较难解决。在统计方法中,有隐马尔科夫模型、N元模型、最大熵模型和条件随机场模型;统计和规则相结合方法也可以分为两种,一是规则和统计的结合;二是统计模型的套叠使用。

王海波(2013)、帕提古力·依马木(2014)等讨论了维吾尔语的标注问题。维吾尔语词性标注的准确率为95%左右,基本达到了工程应用目标。

朝鲜语词性标注。金国哲(2018)等开展了朝鲜语的词性标注研究。



(三)词向量研究


词向量是自然语言处理研究领域备受关注的热点。单从“词向量”这个术语字面上分析,就可以看出它是语言学和数学结合的产物。词是语言学中最基本的概念之一,是“最小的能够独立运用的语言单位”。向量则是数学中的基本概念之一(起源于物理学),是“具有大小和方向的量”。词和向量结合形成的“词向量”在一定程度上能够表达一个特定的“词”在大小(文本域)和方向(上下文)上的向量总和,其中最典型的是词的部分分布信息和语义信息可以通过特定的计算获得。

大部分民族语言难以获得训练词向量的大规模材料。当前只有在蒙、藏、维三种语言中有一定的研究进展,主要是一些硕士论文,利用训练好的词向量来解决自然语言处理研究中的应用工具问题和构建特定领域知识库。



三  句法语义研究


我国民族语言句法、语义研究成果相对较少,面向自然语言处理的形式化句法、语义研究成果更少。从事自然语言处理的研究者正努力探索民族语言的句法、语义描述方式和表示体系。

句法分析需要有一套合理的语法体系和简洁的推导规则,以便自动推导出句子的语法结构和语法关系,最终将一个句子转化为一棵结构化的语法树。当前,最受计算语言学欢迎的是短语结构文法和依存文法。

江荻(2006)提出了藏语动词语义分类原则,研究了述说动词的小句标记,为自动句法分析提供语言学知识。在自动句法分析方面,华却才让等人(2013)采用了判别式的依存句法分析;龙从军等(2019)开展了短语结构句法树库建设。

德·萨日娜(2006)构建了句子边界切分知识库。高莲花(2007)在生成句法框架内讨论蒙古语动词及其句法结构。张建梅(2010)探讨了蒙古语简单陈述句的句型。斯·劳格劳(2011)开展了依存句法的自动分析研究。苏向东等(2014)基于最大生成树模型进行了蒙古文依存句法分析。

玉素甫·艾白都拉(1996)开展了维吾尔语句法描述和分析方法研究。力提甫·托乎提(2005)在生成语法框架内进行句法分析。阿布都克力木·阿不力孜(2010)开展维吾尔语的自动句法分析。陈雪等人(2018)在研究哈萨克语句法时,采用计算机提取句子中每个单词之间组成结构的信息,以预测每个单词在句法树中的句法组成部分。

完全句法分析困难较大,如果能够采用部分句法分析方法化整体为部分,更适合现阶段句法分析的技术特点,局部句法分析主要是组块分析。

组块研究理论在藏语研究中运用优势明显,江荻(2003)划分了藏语组块类型,并讨论了每一类组块可能的边界标记。龙从军(2004)提出不同颗粒度的两种组块划分体系,并对非谓动词组块和带助动词的动词组块的边界标记识别。

达胡白乙拉(2005)基于组块研究的理论,探讨了蒙古语基本动词短语的自动识别。乌兰等(2014)采用短语结构语法的理论,构建了蒙古语短语结构树。

语义角色标注对计算机理解语言具有重要意义。民族语言的语义角色标注研究也出现了一批成果。

龙从军(2014)制定了藏语语义角色标注体系,并采用规则和统计融合的策略进行自动语义角色标注研究。祁坤钰(2014)采取了基于依存关系的藏语语义角色标注方法。

包晓荣等(2013)研究制定了蒙古语语义角色分类系统及其标记集。阿里甫·库尔班(2013)研制了维吾尔语的框架语义角色标注规范集。