使用Tesseract OCR进行汉字识别

我一直在使用Tesseract 3.0.2 OCR SDK进行图像文本提取。但是，如果我使用中文文本图像并通过OCR，则Tesseract不会为我提供中文字符，而不是获取数字和英文字符。但我需要中文字符显示在我正在使用的图像。

我怎样才能做到这一点？有什么办法可以取得中文字，而不是其他字？

你需要下载中文训练数据（这将是一个像chi_sim.traineddata文件），并将其添加到您的tessdata文件夹。

要下载文件https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

像这样使用

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

如果您有任何问题，可以从https://github.com/aryansbtloe/ExperimentWithTesseract.git下载我的实验（使用中文支持）

我已经testing过这一个…希望你会发现这个有用的。

Interesting Posts

input'Any？' 没有下标成员

Watchkit＆Realm 0.92.3

iOS CoreLocation检查CLLocation时间戳以使用它

核心数据一对多Swift

聚焦input时iOS上的触摸滚动问题

Facebook API的BUG？

分析错误代码209和-34018

iPhone / iPad应用程序是否可以embedded一个可以使用HTML5标签播放RTSPstream的浏览器？

MPMoviePlayerController背景颜色不会粘住

垂直居中UILabel时忽略Ascender和Descender？