如何在iOS中使用Tesseract OCR获取准确的文本?

我正在iPhone应用程序工作。在这里我需要从图像中获取文本,谷歌search后,我发现Tesseract可以做到这一点。它工作正常,但没有得到准确的结果。我用这个和处理的形象,但仍然没有得到好的结果。

Tesseract* tesseract = [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"eng"]; UIImage *selectedImage=[UIImage imageNamed:@"download.jpg"]; [tesseract setImage:selectedImage]; ImageWrapper *greyScale=Image::createImage(selectedImage, selectedImage.size.width+100, selectedImage.size.height+100); ImageWrapper *edges = greyScale.image->autoLocalThreshold(); [tesseract setImage:edges.image->toUIImage()]; [tesseract recognize]; NSLog(@"%@", [tesseract recognizedText]); 

我使用下面的图片进行testing,但是我得到的结果像.-|llIAT&T JG H109 PM ED ' '» "rr ~ ' ma» mania-J 'E, 'M, 4 ., -_ \ ~ \ Download Image 53.0 KB \ _11.04 PM | Hey | am in buenos aires right 'now. Check out this mm phfllu 111:5 PM |' lam in Budapest on WiF. n is \ maePMu 001d here. ; l 1 . , ' l, . 11.05 PM u, .——; _ | Nice picture. Let me send you an audio nuke. _11 08PM .-|llIAT&T JG H109 PM ED ' '» "rr ~ ' ma» mania-J 'E, 'M, 4 ., -_ \ ~ \ Download Image 53.0 KB \ _11.04 PM | Hey | am in buenos aires right 'now. Check out this mm phfllu 111:5 PM |' lam in Budapest on WiF. n is \ maePMu 001d here. ; l 1 . , ' l, . 11.05 PM u, .——; _ | Nice picture. Let me send you an audio nuke. _11 08PM

如何解决上述问题。如果有人工作,请引导我。提前感谢。

在这里输入图像说明

我试图用ABBYY Cloud OCR SDK识别您的图像,并决定与您分享结果。 我认为它相当准确: iPhone的ocr

您可以在这里尝试演示识别: http : //cloud.ocrsdk.com/demo (它是一个没有机会提取数据的营销工具)。

我为ABBYY工作,随时准备为您提供帮助。 只是让我知道在评论。

我试图用ABBYY Cloud OCR SDK识别我的图像。

这里要解决这个问题,我尝试提取文本并以XML格式导出。 这种格式包含识别的文本,结构和参数在XML的帮助下描述。 par标签对应于一个识别文本的一个段落。 从XML获取文本后,您可以随意使用它。

我使用以下设置处理聊天屏幕截图:

 "…/processImage?language=English&profile=documentConversion&exportFormat=xml" 

并获得了附加的XML文件。 这些image processing正确,每个对话框块被检测为单独的段落。

希望信息是有帮助的。

感谢Abbyy OCR SDK团队提供的解决scheme。