石川澪白虎书道字体批量生成 & 华文古籍OCR究诘

发布日期：2024-09-27 14:45 点击次数：99

配景石川澪白虎

一般来说，古代书道家留住的汉字个数是有限的，某些常见汉字会有大宗的不同字型留存，而有些汉字唯有少数几个。关于 Unicode 汉字字型中的绝大多数，皆不能能找不到相应的字型。即便好多字型可以类推，仍然需要专科东说念主员凭据已有字型手工的组合与演绎。

书道汉字的批量自动生成

利用料想机的图像生成技巧，可以凭据古代书道家留住来的一丝碑刻或真货所制作的字型，模拟生成任性汉字的对应写法。本花样所使用的算法凭据不详找到的大要 2000-3000 字的汉字，利用训练的模子，可以“学习”到书道家的用笔格调，从而履行到任性的 Unicode 的字符，甚而是错别字。比如，该花样可以使用宋体大字符集字库，按照书道家的笔法，写出对应字体的“汉字”：

null

图1

比如，赵孟頫从莫得写过的字：

null

图2

书道汉字批量生成的应用

1、可以批量膨胀唯有一丝字型的书道字体。有好多书道字体库，唯有常用汉字几千个，甚而无法解救繁体字型，因此要露馅有较多超出常用汉字的文档就无法胜任，十分是无法用于露馅还有大宗异体字的古典文件。该项见地门径可以批量生成好意思不雅的书道字体，不论 Unicode 或极端区字符，只消某个字库解救，均可以生成。同期也可以凭据任何一丝手写体图像，生成任性汉字的写法。

2、该花样刻下最蹙迫的实用价值在于生成古籍图像识别的造谣页面。要是从确实古籍中切取汉字字图，一丝汉字会有大宗实例，而大宗汉字唯有一丝实例，这关于古籍图像识别来说瑕瑜常不利的。况且，即便有大宗实例的一丝汉字，字型的各类性也不及。因此，利用本项见地技巧，加多字型的各类性，大大普及古籍图像识别的准确率，使得古籍图像的识别不详适用多种各类的古籍。

利用上述书道字体批量生成的技巧，咱们在古籍的光学字符识别（Optical Character Recognition，OCR）上取得了可以的后果。古籍 OCR 是将古籍图像中的翰墨识别为可供料想机进一步利用的翰墨。

古籍 OCR 简介

古籍 OCR 是将古籍图像中的翰墨识别为可供料想机进一步利用的翰墨。

古籍 OCR 具体包括以下执行：第一步，正确获得古籍页面或版面的数字化图像及关连预处置，比如鼎新图像歪斜等；第二步，要对翰墨、图片、印鉴、表格、标题、段落、版心、图框等版面元素的区块位置进行辨识及性质判断；第三步，凭据每一区块的性质，在其中定位并切割出古文行列以及可能的每一个汉字的位置和大小（即行列定位、字定位）；第四步，凭据定位识别出汉字串，用正确的汉字编码标志每一个汉字 glyph 字型的类别；第五步，凭据区块性质以及识别出的汉字及汉字串进行串联读出，酿成正确的翰墨序列；终末一步则是将识别搁置，不论是翰墨还是版式以及各种援手身分，以合理的形势输出。

基于书道字体生成技巧的华文 OCR 技巧

本花样在调研业界规划 OCR 关连技巧基础上，与一般的 OCR 技巧比较，在莫得大宗东说念主工切图与东说念主工生成数据的情况下，利用书道字体批量生成单字数据，训练出具有较高准确率的字识别模子，同期有借助伪数据集生成技巧，生成大宗的古籍页面，并对其进行切分，得到包含提神标注的伪数据集。在此字模子与页面识别伪数据集的基础上，束缚通过迭代，通过生成单字，单字增强，单行识别，双行识别，搀杂行识别，页面分析，分析后处置等多个技艺，并应用于大宗确实古籍页面，冉冉增强识别的准确率。