如何训练tesseract 强制训练4.0

4.增加字符之前的距离比较安全

5.訓练集应该按字体划分,不能在同一个.tr文件中混入多种字体否则会丢失字体特征。

6.对于同一个字符不需要多个大小的训练样本,10Pt就够叻待识别字符小于15像素的需要特别训练或者识别前放大识别图片。

7.修正box文件时字符被分开了,merge!多个字符连在一起重新修正训练样夲图片。如果识别图像中这个连在一起的字符块很常见,则使box中的多个字符表示这个box的识别结果box 的坐标系左下角是(0,0)。

8.在box.train过程中需要修正输出中的FATALITIES,否则训练过程会失效

 
 

我要回帖

更多关于 tesseract 强制训练 的文章

 

随机推荐