大作业选了“PDF解析和数据提取”的题目，搜了一圈发现PDFMiner比较靠谱。

安装

第一步当然是安装，pip失败了，总是提示read timeout类似的问题。于是直接去官网下载了包，解压后cmd安装（cd到setup.py的文件夹）：

setup.py install

（顺便提一句，后来队友用pip安装成功了，说是要用梯子。）

使用

由于ddl快到了，准备先在博客上扒现成代码。先找到了这个：https://blog.csdn.net/shao824714565/article/details/84792089

然而出现了报错，一个是import的位置，可能是PDFMiner版本不同，模块的位置发生了变化，解决方法见https://www.cnblogs.com/uibe/p/8963196.html

第二是

TypeError: set_document() missing 1 required positional argument: ‘doc’

至于

AttributeError: ‘PDFDocument’ object has no attribute ‘set_parser’

只要删除doc.set_parser()和doc.initialize()那两行就可以了。