2019年12月27日,走进青海省海南藏族自治州云藏藏文信息技术孵化基地,讨论区、多功能会议室、咖啡屋、健身房等基础设施一应俱全;进入办公区,员工们正在格子间忙碌,技术部的工作人员正在研发新版APP,数据建设部的正在录入资料,安静的只听得见键盘敲击的声音;屋内的走廊、办公区摆满了绿植,让人感受到张扬的巨大生命力。
其实,云藏的成长也如这绿植般,生机勃勃而又充满希冀。
藏文信息技术研究中心主任才洛瞥了一眼放在办公室桌上“改革创新奖”的奖牌,笑着说:“我知道,你一定是为它而来。”
云藏藏文信息技术孵化基地全景。
2013年4月,由藏文信息技术研究中心实施的云藏藏文搜索引擎建设项目正式启动,2016年8月22日,“云藏”作为全国首个藏文搜索引擎正式上线。
“云藏”一词由藏文音译而来,有“全面抓取”之意,也有“老师”之意,即全面抓取各种信息后为用户们提供个性化的网络检索服务。“云藏”主要包括网页搜索、新闻搜索、图片搜索、音乐搜索、视频搜索、百科系统、文库系统、知道系统、舆情监测系统、广告系统等。目前,云藏搜索用户访问总量已突破35亿次,日平均访问量达到1000万次左右,用户覆盖全国31个省市自治区以及70多个国家和地区。
“研发一个藏文的搜索引擎,这本身就是一个创新。”藏文信息技术研究中心的网络安全技术部负责人官却多杰说。
工作人员正在忙碌工作。
“设想一下,如果你的生活里没有‘百度’‘搜狗’等搜索引擎,搜索一个东西就得记网址,那么对用户来说获取网络信息就是一件非常痛苦的事情。而‘云藏’就是我国各大藏文网站的统一入口,也是一个藏文资源的共享中心,这就为想要查阅藏文资料、历史古籍以及想要了解藏文化的用户提供了便利”官却多杰解释。
“云藏”正式上线后,研究中心的工作人员们层层攻克了与之相伴相生的一些技术难题。他们成功研发了藏文自动分词 与语言智能分析系统,实现了藏文同义词搜索、藏文拉丁转写搜索、藏文拼写检查系统、藏文语义检索系统、藏文不同编码自动转换等功能,攻克了藏文智能信息处理的核心技术,并成功实现与搜索引擎系统的集成,使“云藏”搜索引擎有了本土化或藏语化的人工智能特点。这一系统的创新性研发及应用,填补了藏文信息处理应用领域的一大空白。
“打个比方,比如你在‘百度’里搜‘中华人民共和国’,那么搜索引擎就会进行分词,根据你所输入的关键字进行查询处理后匹配。‘云藏’的道理相同,藏文自动分词与语言智能分析系统的作用就是为了使搜索结果更准确、更丰富。”官却多杰说。
除此之外,创新还体现在研究中心开辟了云藏百科、云藏文库和云藏知道等共享藏文化的基础工程,建构了藏文信息资源库与大数据库,将卷帙浩繁的藏文文献典籍数字化。同时还研发了藏文网络舆情检测分析系统,为藏区稳定和谐起到推动作用。
工作人员正在忙碌工作。
随着云藏数据量的不断增加扩充,以前的基础设施和机房场地等已不能满足快速发展的需要。2019年10月,研究中心正式入驻到了现在这个集创业、技术孵化、人才培养于一体的云藏藏文信息技术孵化基地。
改革创新需要只争朝夕。“云藏”缩小了藏族和汉族、藏区与内地的信息化水平,我国藏文信息技术发展有了质的飞跃,藏文大跨步进入了搜索时代。互联网时代,每个人都应该享受到信息化所带来的成果。这是奋起直追中的藏区的需要,是保护和传承民族文化的需要,是丰富藏族群众精神生活、增强团结稳定的需要。同时,这也是解决人民日益增长的美好生活需要和不平衡不充分的发展之间的矛盾的充分体现。
改革创新需要不负韶华。2019年12月,研究中心邀请了西北民族大学的教师针对“云藏”生态系统建设进行研讨,大家一起为“云藏”未来发展出谋划策。同时将现有的藏文信息技术和分散的人力财力进行有效整合,目前第一批六家从事藏文信息技术产业的小微企业已入驻。官却多杰说:“目前我们正在升级新版APP,使它更稳定,功能更强大、更人性化。另外,2019年9月我们在广州市天河区创业谷创立了分公司,招聘了5个人,团队的实力大大增强了。依托那里的技术、IT人才以及工作氛围,我们创新的意识就更强了!”