石川澪 白虎 书道字体批量生成 & 华文古籍OCR究诘

发布日期:2024-09-27 14:45    点击次数:90

石川澪 白虎 书道字体批量生成 & 华文古籍OCR究诘

配景石川澪 白虎

一般来说,古代书道家留住的汉字个数是有限的,某些常见汉字会有大宗的不同字型留存,而有些汉字唯有少数几个。关于 Unicode 汉字字型中的绝大多数,皆不能能找不到相应的字型。即便好多字型可以类推,仍然需要专科东说念主员凭据已有字型手工的组合与演绎。

书道汉字的批量自动生成

利用料想机的图像生成技巧,可以凭据古代书道家留住来的一丝碑刻或真货所制作的字型,模拟生成任性汉字的对应写法。本花样所使用的算法凭据不详找到的大要 2000-3000 字的汉字,利用训练的模子,可以“学习”到书道家的用笔格调,从而履行到任性的 Unicode 的字符,甚而是错别字。比如,该花样可以使用宋体大字符集字库,按照书道家的笔法,写出对应字体的“汉字”:

null

图1

比如,赵孟頫从莫得写过的字:

null

图2

书道汉字批量生成的应用

1、可以批量膨胀唯有一丝字型的书道字体。有好多书道字体库,唯有常用汉字几千个,甚而无法解救繁体字型,因此要露馅有较多超出常用汉字的文档就无法胜任,十分是无法用于露馅还有大宗异体字的古典文件。该项见地门径可以批量生成好意思不雅的书道字体,不论 Unicode 或极端区字符,只消某个字库解救,均可以生成。同期也可以凭据任何一丝手写体图像,生成任性汉字的写法。

2、该花样刻下最蹙迫的实用价值在于生成古籍图像识别的造谣页面。要是从确实古籍中切取汉字字图,一丝汉字会有大宗实例,而大宗汉字唯有一丝实例,这关于古籍图像识别来说瑕瑜常不利的。况且,即便有大宗实例的一丝汉字,字型的各类性也不及。因此,利用本项见地技巧,加多字型的各类性,大大普及古籍图像识别的准确率,使得古籍图像的识别不详适用多种各类的古籍。

利用上述书道字体批量生成的技巧,咱们在古籍的光学字符识别(Optical Character Recognition,OCR)上取得了可以的后果。古籍 OCR 是将古籍图像中的翰墨识别为可供料想机进一步利用的翰墨。

古籍 OCR 简介

古籍 OCR 是将古籍图像中的翰墨识别为可供料想机进一步利用的翰墨。

古籍 OCR 具体包括以下执行:第一步,正确获得古籍页面或版面的数字化图像及关连预处置,比如鼎新图像歪斜等;第二步,要对翰墨、图片、印鉴、表格、标题、段落、版心、图框等版面元素的区块位置进行辨识及性质判断;第三步,凭据每一区块的性质,在其中定位并切割出古文行列以及可能的每一个汉字的位置和大小(即行列定位、字定位);第四步,凭据定位识别出汉字串,用正确的汉字编码标志每一个汉字 glyph 字型的类别;第五步,凭据区块性质以及识别出的汉字及汉字串进行串联读出,酿成正确的翰墨序列;终末一步则是将识别搁置,不论是翰墨还是版式以及各种援手身分,以合理的形势输出。

基于书道字体生成技巧的华文 OCR 技巧

本花样在调研业界规划 OCR 关连技巧基础上,与一般的 OCR 技巧比较,在莫得大宗东说念主工切图与东说念主工生成数据的情况下,利用书道字体批量生成单字数据,训练出具有较高准确率的字识别模子,同期有借助伪数据集生成技巧,生成大宗的古籍页面,并对其进行切分,得到包含提神标注的伪数据集。在此字模子与页面识别伪数据集的基础上,束缚通过迭代,通过生成单字,单字增强,单行识别,双行识别,搀杂行识别,页面分析,分析后处置等多个技艺,并应用于大宗确实古籍页面,冉冉增强识别的准确率。

图3

图3 模拟生成古籍页面生成示例

模子的正确率

该模子历程规划东说念主员多轮测试,使用《金陵诗徵》《四明续志》《四明它山水利备览》《昌国州图志》以及“再造善本”中部分数据,正确率达到约 95.37%。

null

欧美性爱

图4 模拟生成古籍页面生成示例

刻下,本项见地模子平等闲版刻古籍的识别率能达到一个很高的准确率,举例,上图古籍的识别的正确率能达到 99%。

null

图5 模拟生成古籍页面生成示例

而敦煌写经一般手写体的识别率也能达到 90%以上。

模子的扩展应用

古籍识别模子可以扩展到更多的识别应用场景,如民国报纸及杂志、部分民国铅排竹帛、碑刻、甲骨文、金文、石刻、篆书、行草、草书等,在版面分析方面,也需要兼容横竖傍边翰墨处所,各式分栏的页面,还有表格的页面等石川澪 白虎,虽然更丰富的识别场景也意味着更多的数据加工解救。



 



    Powered by 美国艳星 @2013-2022 RSS地图 HTML地图

    Copyright Powered by站群 © 2013-2024 版权所有