【摘要】 在日本,古代文献大量使用了草书和行书这样的手写体来书写日语假名和汉字,要看懂不容易。而AI技术,也就是人工智能系统的开发能够帮助人们快速识读。包括手抄本和印刷本在内,日本
在日本,古代文献大量使用了草书和行书这样的手写体来书写日语假名和汉字,要看懂不容易。而AI技术,也就是人工智能系统的开发能够帮助人们快速识读。
包括手抄本和印刷本在内,日本流传至今的古代手写体文献据估算达到数亿件,但由于能够看懂手写体的专业人才极为有限,所以导致大量史料尚未完成识读整理工作。最近,日本信息系统研究机构的一个研究小组开发了一套人工智能系统,通过事先学习已由专家整理完成的44部文献,共计100万字的手写体写法,目前该系统已基本实现了准确高效地识读古代文献。
财经频道特约记者王翔:我们已经把日本古典文学名著《源氏物语》扫描进了电脑,只需要按一下按钮,马上就会在屏幕上看到人工智能解读的结果。像这样一页手写体文献,如果由人来完成的话,即便是最熟练的专家也需要10分钟以上,不过人工智能只花了不到3秒钟时间。
该研究小组共有3名成员,其中一名是来自泰国的塔琳 卡努瓦。11年前,塔琳来东京留学攻读日本古典文学,经常需要阅读原始文献。连日本学生都难以辨识的古代手写体文字,对一名来自汉字文化圈以外的留学生来说,无异于天书。这样的经历促使塔琳一同加入了这个研究小组,用半年时间开发了这套能够自动识别手写体文献的人工智能系统。
日本信息系统研究机构研究员塔琳 卡努瓦:这套系统基本覆盖了常用汉字,可以给日本文学研究者提供方便。
据研究小组负责人介绍,这套系统识别手写体文字的准确率已经达到90%以上,研究小组今后将继续扩大供人工智能系统用于学习的数据库范围,并改进程序算法,来进一步提高系统识别文字的准确率。
日本信息系统研究机构项目负责人北本朝展:这套系统也适用于汉语文献,部分文字的手写体样本太少,增加样本数量是今后改善的重点。