Browsed by
月份:2017年2月

转换pdf为txt

转换pdf为txt

需求是这样的:

我有一大堆api文档,都是pdf格式的,而这些pdf文档的命名又不是那么可读,我就希望能够通过文本搜索(Double Commander)找到对应的pdf文档进行阅读

很早就知道这个pattern库:http://www.clips.ua.ac.be/pattern

也玩过一些其中的api,最近算是找到正确的姿势。当然这样的用法肯定是杀鸡用了牛刀!

import os
from pattern.web import PDF
for root, directories, filenames in os.walk('.'):
	for filename in filenames: 
		file = os.path.join(root,filename)
		if file.endswith("pdf"):
			pdf = PDF(file)
			with open(file+".txt", "w") as f:
				f.write(pdf.string.encode("utf-8"))

这样就可以开心的搜索了,搜到txt就可以找到旁边的pdf了。