如何find使用CGPDFScanner在iPhone中的PDF页面的字坐标?
我正在使用CGPDFScannerparsingPDF页面。 但是我无法find结果的协调。
在void Tm1(CGPDFScannerRef扫描器,void * info)中,我只是得到了某个词的共同oridnates,而不是pdf的每个单词。
我怎样才能findPDF页面的每个单词的(x,y)这样的co-oridnates?
你大大低估了将PDF转换为文本的复杂性。 我也犯了这个错误,花了好几个月的时间写出一个可以和大多数PDF一起工作的文本提取引擎。 我的代码是商业的,但只是给你一个想法:
TD,TD,Tm,T *,d0,d1都可以包含文本。 (d0,d1是Type3字体,不太常见,但是Microsoft Word真的喜欢它们)所以可以在XObjects中做任何对象(也是recursion的)。 但是你也需要parsing字体,因为许多PDF文件都附带CMap,将“随机数字”翻译成字符(或字符–PDF也可以有连字符)。 要小心,XObjects也可能包含字体,并且按照正确的顺序parsing它们是至关重要的,因为字体可以有父字体。
Adobe的ToUnicode PDF为您提供了一些启动方式,但只是一个警告,规范是非常不完整的。 官方的PDF参考文献还有一些,但是你仍然会发现不应该工作的文档(当看规范的时候),但是仍然可以工作(当你在Adobe Acrobat上试用时)。