中国企业报集团主管主办

中国企业信息交流平台

微博 微信

字数多于《康熙字典》,合合信息智能文字识别赋能上海大学构建古彝文数据库

2022-12-21 15:34 来源:中国企业网 次阅读
 
字数多于《康熙字典》,合合信息智能文字识别赋能上海大学构建古彝文数据库
  古彝文传承至今已有数千年历史,是世界上最古老的文字之一。2022年12月21日,合合信息与上海大学社会学院正式签署校企合作协议,双方将合力完成以国家珍贵古籍《西南彝志》为中心的贵州古彝文图像识别及数字化校对项目(简称“古彝文数字化项目”)。

上海大学社会学院院长黄晓春、合合信息智能技术平台事业部副总经理郭丰俊共同出席签约仪式


  此前,在中国西南多家高校的共同努力下,规范和通用彝文的数字化工作取得了重要突破,而上海大学携手合合信息推进的古彝文数字化项目,更侧重于对原生态彝文识别的攻坚克难。项目将根据上海大学古彝文研究员设计的四字节编码系统,引入合合信息智能文字识别技术,对异体字、变体字、误用字和混用字等进行标注、识别、比对,并由此建立起精确的彝文古籍电子数据库,在古彝文研究领域属于首创。

  亟待识别的古彝文,比《康熙字典》字数还多

  彝文是云南、贵州、四川等地的彝族人使用的文字,而“古彝文”专指在民间流通使用的原生态彝文。根据《滇川黔桂彝文字集》,目前记录在册的古彝文多达87046个。非母语研究者在翻译古彝文时,通常需要在母语者的帮助下记音,再用汉语逐字直译,最后采用汉语对整句话进行意译。

  由于古彝文尚未取得预留的Unicode编码区段,数字化工程还处于起步阶段,所以在印刷出版时,需由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧,再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧,形成目前常见的“四行体”彝汉文对译,过程相对繁琐。

毕节市彝文文献翻译研究中心展示汉译书稿


  古彝文与汉字并非一一对应关系,存在大量的异体字、变体字。在相对规范的汉译本彝文典籍中就有至少15%的变体字,原稿中只会更多;每个字的异体写法少则2-3个,多则几十种。从总量上看,未经整理规范的古彝文字符数高达八万七千多个,比《康熙字典》的四万七千余字还多。据古彝文数字化团队研究人员透露,若想要找到某个字在一本古籍里的全部样例,手动查阅需要耗费一整天,如建立起完善的古彝文数据库和翻译系统,可极大提升研究效率。

表示“种类”的彝文字[mo21]/[mɯ33]的四个极为相似的变体

两个形似、但音义完全不同的彝文字,字义分别为“酒”、“仪礼”


  “汉文古籍识别所面对的页面残损、字形复杂、字迹模糊等问题,在彝文古籍识别中全部存在,还有一些任务是更加特殊的。”合合信息智能技术平台事业部副总经理郭丰俊博士提到,彝文古籍时常出现加字、替字、整句倒置、文字方向不统一等现象,给文字定位造成挑战。再加上古彝文从未经过统一,异体字、变体字众多。合合信息将基于“AI+OCR”融合下的智能文字识别技术,解决古彝文识别的版式检测、图像处理和文字识别的难题。

  据悉,2021年、2022年世界人工智能大会上,合合信息用AI技术对甲骨文、西周钟鼎文进行精准识别,受到包括央视、人民日报、新华社在内的上百家主流媒体的关注。郭丰俊博士表示,甲骨文和古彝文追溯源头都属于以刻画符号表意的文字,两种文字的识别方式有相通之处,此次古彝文数字化项目的开启,也成为合合信息智能文字识别技术赋能文字保护及文化传承的重要里程碑。

  用科技开启古彝文“传统的新生命周期”

  1950年,当代著名社会学家费孝通先生访问贵州毕节时,率先认识到彝文古籍对理解西南边疆历史的重要性,并鼓励筹建翻译机构,也为当下的古彝文研究提供了支持。古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑所在的上海大学社会学院,便长期设有费孝通田野调查项目资助计划。

  古籍数字化的过程同时也是保护古籍的过程。2017年,72位全国人大代表联名建议实施中华古籍数字资源总库体系建设工程,实现历史文明的有序传承。本次合合信息与上海大学共同研究的《西南彝志》共计26卷,有“彝族历史文化的百科全书”之誉,对研究彝族历史、经济、文化十分重要。

  古彝文数字化的价值并不止步于学术研究。随着我国小康社会的全面建成,人们对精神文化关注度日益提升,以民俗为主题的现代文艺创作、娱乐活动让传统文化焕发新的生机,例如中央歌剧院演绎的柯尔克孜族英雄史诗《玛纳斯》,既尊重了民族文化特色,又体现了新时代的风采。

  邵文苑提到,古彝文文献和口传史诗中记录了很多南诏古国、夜郎古国、巴蜀古国的奇闻异事,在理解典籍的基础上,可以通过电影、音乐剧、浸入式戏剧等形式进行创作,或打造“元宇宙”世界、IP主题乐园,让更多人跨越语种的隔阂,感受更多元的民族文化,倾听独具特色的中国故事。

  “传统也和人一样有生老病死的过程,并和人一样有通过后代延续‘生命’的能力,这种理论被称为‘传统的生命周期’。”邵文苑表示,智能文字识别技术“牵手”传统典籍研究,会是古彝文“传统的新生命周期”的开始。
点赞()
上一条:第十八届中国·企业社会责任论坛举办2022-12-21
下一条:多措并举迎“冬峰”2022-12-21

相关稿件

挑战“大师级”阅读理解,合合信息智能文字识别技术亮相2022世界人工智能大会 2022-09-01
亮相CCIG2022,合合信息以智能文字识别技术挑战传统OCR应用难题 2022-08-24
10分钟完成模型开发!合合信息智能文字识别服务平台亮相1024程序员节 2022-10-25
金融科技创新论坛(第15期)暨原生分布式数据库沙龙在线举办 2022-06-01
合合信息加入元脑生态 携手浪潮信息推动金融AI应用创新 2022-08-05
国务院国有资产管理委员会 中国企业联合会 中国企业报 中国社会经济网 中国国际电子商务网 新浪财经 凤凰财经 中国报告基地 企业社会责任中国网 杭州网 中国产经新闻网 环球企业家 华北新闻网 和谐中国网 天机网 中贸网 湖南经济新闻网 翼牛网 东莞二手房 中国经济网 中国企业网黄金展位频道 硅谷网 东方经济网 华讯财经 网站目录 全景网 中南网 美通社 大佳网 火爆网 跨考研招网 当代金融家杂志 借贷撮合网 大公财经 诚搜网 中国钢铁现货网 证券之星 融易在线 2014世界杯 中华魂网 纳税人俱乐部 慧业网 商界网 品牌家 中国国资报道 金融界 中国农业新闻网 中国招商联盟 和讯股票 经济网 中国数据分析行业网 中国报道网 九州新闻网 投资界 北京科技创新企业诚信联盟网 中国白银网 炣燃科技 中企媒资网 中国石油化工集团 中国保利集团公司 东风汽车公司 中国化工集团公司 中国电信集团公司 华为技术有限公司 厦门银鹭食品有限公司 中国恒天集团有限公司 滨州东方地毯集团有限公司 大唐电信科技股份有限公司 中国诚通控股集团有限公司 喜来健医疗器械有限公司 中国能源建设股份有限公司 内蒙古伊利实业集团股份有限公司 中国移动通信集团公司 中国化工集团公司 贵州茅台酒股份有限公司