去读读

免费在线阅读网

去读读 > 哲学心理 > 新中国民族语言学研究70年

第二节 民族语言电子词典及语料库建设

    《新中国民族语言学研究70年》章节:第二节 民族语言电子词典及语料库建设,去读读网友提供全文无弹窗免费在线阅读。!



一  民族语言电子词典建设


电子词典可以分成机用型、传统型、学习型和研究型[4]。机用型电子词典是语言信息处理的基础资源之一,在基于规则的分词、词性标注、语义理解、机器翻译等研究领域发挥着重要作用。在一些特定专题研究,如基于关键词的查询、检索、网络垃圾信息过滤、情感分析等领域,电子词典也发挥着重要作用。传统型词典主要是传统纸质词典的电子化,以计算机或者移动终端设备为载体,便于用户携带、查询和检索。研究型可以分为面向语言本体研究和面向语言信息处理的研究型词典。后者是主要根据语言信息处理的需要而编撰的带有丰富语法、语义信息的电子词典。民族语言电子词典的研究成果主要集中在机用型和传统型。

机用型电子词典在传统型电子词典的基础上,根据特定需要增、删、改形成的机用型电子词典。

扎西次仁(1999)提出了如何实现藏文自动排序的设想,江荻(2001)提出藏文计算机排序的技术流程。西藏大学和青海师范大学的研究团队都撰写了多篇有关藏文排序的文章。

传统型词典的电子化研究快速进展。各种藏语电子词典出现,包括藏汉英三语电子词典;多媒体在线藏汉电子词典;藏汉双语电子词典。有道公司和民族出版社达成合作,正式上线藏汉互译功能的词典,提供藏语和汉语之间的实时互译。

维吾尔语电子词典包括维汉—汉维双向翻译电子词典、维汉双语电子词典。

蒙古语电子词典有英蒙汉电子词典。

其他民族语电子词典有汉英泰互译有声电子词典;傣泐文—汉文互译有声电子词典;壮文电子词典及辅助翻译软件;多功能汉彝电子词典;朝汉—汉朝电子词典。汉—哈萨克双语电子词典等。

中国民族语文翻译局充分发挥自身优势,整合翻译资源,先后完成了蒙古文、藏文、维吾尔文、哈萨克文、朝鲜文、彝文、壮文7种民族文电子词典及辅助翻译软件,2012年,“彝文、壮文电子词典及辅助翻译软件”荣获该年度钱伟长中文信息处理科学技术二等奖。

面向特定领域的民族语电子词典研究成果不断涌现,诸如蒙藏维分词词典、词性标注词典、维吾尔人名解义词典、蒙古语语法信息词典、蒙古语语义词典,等等。



二  民族语言语料库建设


我国少数民族语言资源十分丰富。从语言本体研究来看,构建民族语单语或多语语料库将对民族语言发展史研究、语言描写研究和方言比较研究都具有重要的意义。在信息化时代,以数据为驱动的自然语言处理研究更离不开大规模的语料库。加强民族语言语料库建设是一项重要的基础研究工作。语料库研究的内容涉及语料的选取、收集、加工和分析,其中语料库加工包括语料库的分词、词缀词干切分、词性标注等词法层面的加工;也包括句法分析、语义标注等句法层面的加工;同时还涉及篇章标注和篇章分析等内容。

民族语言语料库建设研究起步于20世纪90年代。西藏大学完成了“大型藏文基础语料库建设”,高定国等(2013)探讨了语料样本类别号的研究以及数据分析。龙从军(2014)等构建了藏语分词和标注语料库、短语结构句法树库。卢亚军等(2006)建立了  “大型藏文语料库”,并进行了藏文词汇频度和通用度统计。

藏文互联网语料相对比较丰富,为了满足自然语言处理的需要,网络语料的采集得到了关注,才智杰(2017)讨论了藏语语料网页数据的采集方法;为了满足机器翻译、语音识别等研究需要,基于句子对齐的双语语料库也有一定规模的积累,在全国机器翻译评测中,共使用了大约13万句汉藏对齐双语语料。梁金宝(2013)统计研究了藏语历史文献词汇情况,通过选取典型的藏文历史文献,构建了历史文献语料库。

维吾尔语在语料库建设方面已做了大量的工作;吐尔根等(2011)开展维哈柯文语料库建设工作;2015年全国机器翻译评测会议上,评测主办方提供了大约14万句对的维汉双语语料。古丽拉·阿东别克等(2009)构建了现代哈萨克语词级标注语料库。

华沙宝等人(2003)建立了第一个蒙古文电子文本语料库《元朝秘史》,后来增加了《黄金史》  《回鹘蒙古文文献集》等历史文献,建立了100万词级和500万词级的现代蒙古语语料库;赵斯琴等(2003)构建了教材语料库。包敏娜等(2016)探讨了影视剧蒙古语语料库的标记问题,研究了蒙古语传媒语言文本语料库的构建。韩海霞(2012)讨论了蒙古语口语语料库的构建及语音标注问题。

刘连芳(2018)全面总结了朝鲜语语料库的基本情况,包括1.2亿字的原始文本语料库、词性标注语料库、2000万字的朝(韩)汉对译语料库、820万字的朝鲜语(韩国语)病句语料库、100小时的标准口语音频数据和100小时的标准语双频数据和140万字正字法转写库、140万字语言转写语料库、90万语节的实际发音训练语料库。

王成平(2012)探讨了彝、汉、英三语平行语料库建设和对齐问题。

张羽(2016)讨论了壮、汉、英三语平行语料库构建及其应用;沈向荣(2007)讨论了壮语方言词在线语料库的设计。