真正的TImeimage processing(OCR)

我正在计划开发像Word Lens这样的应用程序。 任何人都可以build议我可以使用一个好的图书馆吗? 或任何一个解释Word Lens App背后的技术? 是卷轴时间图像匹配还是OCR? 我知道一些image processing库像OpenCV,tesseract …任何帮助,非常感谢…

我是Word Lens的创造者之一。 虽然有一些OCR图书馆(如tesseract),我们决定自己做,以获得更好的结果和性能。 我们的一般algorithm是这样的:

  1. 从相机复制图像并获取其灰度分量
  2. 平整图像,使文字背景明显突出
  3. 围绕看起来像人物和句子的东西画盒子
  4. 做OCR:将每个盒子中的像素与字符数据库相匹配 – 这实际上很难!
  5. 将字符收集成单词,在字典中查找(这也很难,因为在OCR中会出现错误)
  6. 将结果绘制回图像上

由于各种各样的字体,单词和语言,图像匹配本身并不够好。

OpenCV是一个很好的图书馆,可以帮助你更好地了解计算机视觉。 我会build议build立他们的例子,并在那里玩耍。 玩的开心!