Tag: tesseract

Tesseract OCR相机

我在我的iOS应用程序中使用了Tesseract OCR 3.01,当我从手机库中select一个图像时,它显示了90%的准确性。 但是,如果我使用相机的相同图像,它显示混乱的字母。 我遵循这个教程 ,请引导我,如果可以做一些事情,以确保它从相机工作,因为它适用于画廊图像。

iOS应用程序中Tesseract集成中的错误

在我的iOS应用程序中集成Tesseract SDK时出现一些错误。 我遵循的程序 – 1)在xcode中拖动“libtesseract_full.a”2)在xcode中拖动“tessdata”文件夹3)在xcode中拖动“baseapi.h” 现在,当我使用Tesseract – // init the tesseract engine. tess = new TessBaseAPI(); tess->SimpleInit([dataPath cStringUsingEncoding:NSUTF8StringEncoding], // Path to tessdata-no ending /. "eng", // ISO 639-3 string or NULL. false); 我得到这些下面的错误(我认为有一些框架或类似的东西缺less,但没有得到什么是缺less的,tesseract演示项目工作正常我的系统) clang: warning: argument unused during compilation: '-stdc++' ld: warning: CPU_SUBTYPE_ARM_ALL subtype is deprecated: /Users/saurabhsharma/Desktop/Tess/SnapXv2/libtesseract_full.a(libtesseract_full.o) Undefined symbols for architecture armv7: "std::basic_ostream<char, std::char_traits<char> >& […]

Tesseract-OCR 3.02与libc ++

Xcode 4.6,iOS SDK 6.1,tesseract-ocr 3.02 由于最后一个OpenCV版本是使用libc ++构build的,而tesseract-ocr是使用libstdc ++构build的,所以它们不能在一个xcode项目中一起使用。 所以,我试图使用libc ++来构buildtesseract。 使用这里的脚本(更新基础sdk和部署目标到6.1),tesseract正在build造得很好,一旦C ++标准库设置为编译器默认值,就可以在我的xcode项目中工作。 比起,我尝试改变脚本来用libc ++来构build它,根据这里的答案。 我将CXX改为指向clang ++ ,并将-stdlib = libc ++添加到CXXFLAGS 。 结果是脚本成功了,并且库被构build,但是当selectlibc ++作为xcode中的C ++标准库时,我得到了很多链接器错误,并且项目构build失败。 当标准库被设置为编译器默认的时候,新库仍然可以工作(就像当它定期创build时一样)。 我错过了什么?

使用Tesseract OCR进行汉字识别

我一直在使用Tesseract 3.0.2 OCR SDK进行图像文本提取。 但是,如果我使用中文文本图像并通过OCR,则Tesseract不会为我提供中文字符,而不是获取数字和英文字符。 但我需要中文字符显示在我正在使用的图像。 我怎样才能做到这一点? 有什么办法可以取得中文字,而不是其他字?

在哪里可以findtesseract-> setvariable函数的第一个参数的可用属性名称列表?

从大量的护目镜中,我只能find其中几个作为下面的例子tesseract的setVariable(第一参数,第二参数) tesseract->SetVariable("tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ"); tesseract->SetVariable("language_model_penalty_non_freq_dict_word", "0"); tesseract->SetVariable("language_model_penalty_non_dict_word", "0"); tesseract->SetVariable("tessedit_char_blacklist", "xyz"); tesseract->SetVariable("classify_bln_numeric_mode", "1"); 我想知道他们还有多less? 有没有可用的列表? 如果有的话,请给我的链接。

OCR:图像到文本?

在标记为复制或重复问题之前,请先阅读整个问题。 我能够做的事情如下: 获取图像并剪裁OCR所需的部分。 使用tesseract和leptonica处理图像。 当应用的文档以大块(即,每个图像1个字符)裁剪时,它提供了96%的准确度。 如果我不这样做,文档背景是白色,文字是黑色的,它的准确度几乎相同。 例如,如果input是这张照片: 照片开始 照片结束 我想要的是能够为这张照片获得相同的准确性 没有生成块。 我用来初始化和提取图像文本的代码如下: 对于tesseract的初始化 在.h文件中 tesseract::TessBaseAPI *tesseract; uint32_t *pixels; 在.m文件中 tesseract = new tesseract::TessBaseAPI(); tesseract->Init([dataPath cStringUsingEncoding:NSUTF8StringEncoding], "eng"); tesseract->SetPageSegMode(tesseract::PSM_SINGLE_LINE); tesseract->SetVariable("tessedit_char_whitelist", "0123456789ABCDEFGHIJKLMNOPQRSTUVWXYZ"); tesseract->SetVariable("language_model_penalty_non_freq_dict_word", "1"); tesseract->SetVariable("language_model_penalty_non_dict_word ", "1"); tesseract->SetVariable("tessedit_flip_0O", "1"); tesseract->SetVariable("tessedit_single_match", "0"); tesseract->SetVariable("textord_noise_normratio", "5"); tesseract->SetVariable("matcher_avg_noise_size", "22"); tesseract->SetVariable("image_default_resolution", "450"); tesseract->SetVariable("editor_image_text_color", "40"); tesseract->SetVariable("textord_projection_scale", "0.25"); tesseract->SetVariable("tessedit_minimal_rejection", "1"); tesseract->SetVariable("tessedit_zero_kelvin_rejection", "1"); 从图像获取文本 – (void)processOcrAt:(UIImage […]

Xcode上的Tesseract运行错误

我一直在testingTesseract在Xcode.I遵循访问http://lois.di-qual.net/blog/install-and-use-tesseract-on-ios-with-tesseract-ios/的指示。但问题是当我运行程序,我在控制台上得到以下错误: Error opening data file /Users/mdriduanulislam/Library/Application Support/iPhone Simulator/7.0/Applications/0ABCEAB3-3793-44C9-8914- A99BB6B4EF9F/Documents/tessdata/eng.traineddata Please make sure the TESSDATA_PREFIX environment variable is set to the parent directory of your "tessdata" directory. Failed loading language 'eng' Tesseract couldn't load any languages!` 我在StackOveflow上遇到了一个问题,但答案并不理想。有人请告诉我为什么问题在发生,请问可能的解决scheme。请大家等待正确的答案。

我怎样才能使iOS上的tesseract更快?

我正在苦苦挣扎在ios上的tesseract ocr。 一切正常,但它真的很慢。 2 – 3秒识别一行数字的时间。 我正在阅读videostream。 我正在使用tesseract 3.01与我的字体的自定义培训文件。 这是我做的: 设置tesseract仅查找数字(0-9) 收缩,歪斜和二值化图像 使用GetLinesfind我想要的文本行 setRectangle只识别我想要的行 getUTF8Text获取我的文本< – 这需要2-3秒 有什么build议可以加快这个过程吗?

7段显示OCR

我正在使用Tesseract(一个OCR库)构build一个iOS应用程序(拍摄照片并运行OCR),并且使用正确的数字和字符(使用常用的字体)可以很好地工作。 我遇到的问题是,如果我在7段显示器上尝试,它会给出非常糟糕的结果。 所以我的问题是:有谁知道我可以如何解决这个问题? Tesseract是否有办法识别这些字符?

使用tesseract识别牌照

我正在开发一个可以识别车牌(ANPR)的应用程序。 第一步是从图像中提取牌照。 我使用OpenCV来检测基于宽度/高度比的板,这个工作非常好: 但是,正如你所看到的,OCR结果非常糟糕。 我在Objective C (iOS)环境中使用tesseract 。 这些是我启动引擎时的initvariables: // init the tesseract engine. tesseract = new tesseract::TessBaseAPI(); int initRet=tesseract->Init([dataPath cStringUsingEncoding:NSUTF8StringEncoding], [language UTF8String]); tesseract->SetVariable("tessedit_char_whitelist", "BCDFGHJKLMNPQRSTVWXYZ0123456789-"); tesseract->SetVariable("language_model_penalty_non_freq_dict_word", "1"); tesseract->SetVariable("language_model_penalty_non_dict_word ", "1"); tesseract->SetVariable("load_system_dawg", "0"); 我怎样才能改善结果? 我需要让OpenCV做更多的image processing吗? 还是有什么我可以改善tesseract?