使用Tesseract OCR进行汉字识别
我一直在使用Tesseract 3.0.2 OCR SDK进行图像文本提取。 但是,如果我使用中文文本图像并通过OCR,则Tesseract不会为我提供中文字符,而不是获取数字和英文字符。 但我需要中文字符显示在我正在使用的图像。
我怎样才能做到这一点? 有什么办法可以取得中文字,而不是其他字?
你需要下载中文训练数据(这将是一个像chi_sim.traineddata文件),并将其添加到您的tessdata文件夹。
要下载文件https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
像这样使用
Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];
如果您有任何问题,可以从https://github.com/aryansbtloe/ExperimentWithTesseract.git下载我的实验(使用中文支持)
我已经testing过这一个…希望你会发现这个有用的。