大作业选了“PDF解析和数据提取”的题目,搜了一圈发现PDFMiner比较靠谱。
安装
第一步当然是安装,pip失败了,总是提示read timeout类似的问题。于是直接去官网下载了包,解压后cmd安装(cd到setup.py的文件夹):
setup.py install
(顺便提一句,后来队友用pip安装成功了,说是要用梯子。)
使用
由于ddl快到了,准备先在博客上扒现成代码。先找到了这个:https://blog.csdn.net/shao824714565/article/details/84792089
然而出现了报错,一个是import的位置,可能是PDFMiner版本不同,模块的位置发生了变化,解决方法见https://www.cnblogs.com/uibe/p/8963196.html
第二是
TypeError: set_document() missing 1 required positional argument: ‘doc’
至于
AttributeError: ‘PDFDocument’ object has no attribute ‘set_parser’
只要删除doc.set_parser()和doc.initialize()那两行就可以了。