Python使用PDFMiner解析PDF代码实例
近期在做爬虫时有时会遇到网站只提供pdf的情况,这样就不能使用scrapy直接抓取页面内容了
pdfminer解析pdf
近期在做爬虫时有时会遇到网站只提供pdf的情况,这样就不能使用scrapy直接抓取页面内容了
最近要做个从pdf文件中抽取文本内容的工具,大概查了一下python里可以使用pdfminer来实现。
所使用python环境为最新的3.6版本一、安装pdfminer模块安装anaconda后,直接可以通过pip安装pipin