多拉.jpg       多拉,男,藏族,1967年6月生,博士、教授,博士生导师,从事语言学及应用语言学、少数民族语言专业教学与科研工作。是西北民族大学中国藏文典籍全文数字化研究所所长、教授,博士生导师,享受政府特殊津贴。2012年入选教育部新世纪优秀人才支持计划,2014年入选国家“百千万人才工程”国家级人选,获国家“有突出贡献中青年专家”荣誉称号。目前为甘肃省中国语言文学重点学科语言学及应用语言学学术带头人,云藏搜索引擎技术总监,全国信标委藏文信息标准工作组成员。

      目前主持教育部哲学社会科学重大攻关项目1项(藏文《大藏经》十种版本全文数字化及智能检索研究),主持国家自然科学基金、国家社会科学基金各1项,参加国家社科重点项目“敦煌古藏文文献数字化研究”。在文献数字化、语料库研究、语义本体研究、藏文智能检索等领域创新性地开展研究,发表相关论文20余篇,出版专著、译著6部。

       成果介绍

      1.研制藏文信息处理3项国家标准

      在标准研制方面,向国家信标委藏文信息技术工作组提交了《信息处理用藏文词类分类及标记集标准》、《信息处理用藏文分词工程规范》、《信息处理用藏文文本文献标记规范》三项标准,该三项标准几经讨论,目前已定稿,只待批准通过,这些标准的研制将极大地促进藏文信息化的发展和从标准层面进行资源共享打下了基础。

      2.首次实现藏文文献全文智能检索

      主持的教育部哲学社会科学重大课题攻关项目“藏文《大藏经》十种版本电子资料库建设及其研究”是一项国家文化战略工程。目前,研制成功《大藏经》全文检索系统进行,经测试,效果良好。

      3.研发国内首个藏文搜索引擎--云藏搜索引擎

      互联网时代,搜索引擎无疑是互联网上最重要的应用之一。校、地、企合作攻关的国内首个藏文搜索引擎开发项目——云藏跨平台藏文搜索引擎中,本人承担了搜索引擎藏文自动分词与语言分析系统,并作为藏文搜索引擎的技术总监设计、测试了云藏搜索引擎。该项目的完成,结束了我国藏文在信息化时代没有搜索引擎的历史,推动我国民族语言文字信息化的进程。

      4.建立各种语料库,用信息技术手段推进语言教学与研究

      1)建立了百万词次的藏文标注语料库;

      2)建立了37万词种的分词词库,是目前国内词种最多的词库;

      3)建立了小学、初中、高中、大学的语文教材语料库;

      4)建立了汉、藏双语句子对齐平行语料库;

      5)建立了《格萨尔》史诗专业语料库。

      5.首次发布《藏文规范音节频率词典》

      《藏文规范音节频率词典》是通过语料库方法统计的藏文音节,第一次确立了藏文音节的数量和具体音节。研究了藏文音节在整个语言的词汇系统中所扮演的角色和主次序列,该词典中共有目前使用的藏文音节8263个,梵文转写音节848个,并计算了每个音节的频次、频率、累计频次和累计频率以及信息熵。

      这也是截至目前统计到的使用中的藏文音节数最多的一次,第一次确立了藏文音节的数量和具体音节,是考察和研究藏文的一个重要的数据依据。该《词典》适用于藏文信息字典的建设、藏文基础词汇的研究和通用词表的建设、藏语文教材建设、藏语分级词汇研究以及藏文智能输入法的开发、藏文正字软件的开发、藏文信息检索系统的开发等诸多领域,应用前景广阔。