python pip install pipdfminer3k失败

  • 读取Excel把内容加载到程序中

 
  • 根据指定的规则来抽取Excel中的特定内容,用来之后匹配文件找到应写入数据的对应位置
 

 
  • 按照上面得到的文件序列来匹配文件夹名称,找到匹配嘚PDF文件目录
 

 
  • 从前面匹配得到的PDF文件目录中抽取得到特定类型的PDF文件抽取的规则是配置文件指定的
 

 
  • 解析PDF文件,转换为可读取的TXT文件
 

 
  • 遍历解析所有PDF文件
 

 
 
 
  • 把文件内容按照匹配原则写入Excel中
 

 
  • 使用一个遍历程序把所有解析出来的PDF文件抽取内容并写入到Excel中
 

 
  • 为了保证程序功能模块的独立需要另外写两个小函数,分别完成获取文件类型和匹配特定类型文件的功能这两个属于特殊情况
 

 
程序代码和exe程序下载







}
 

从stackoverflow搜索到可以去除页眉和页脚的命令(强烈推荐):


  

谷歌翻译并不能识别段落或者整句如果一个整句中出现换行符,会发现翻译就不完整了以网页版谷歌翻译测试:

因此需要将pdf转换好的文本文件进行拼接,借用linux args 命令实现此功能,将整个文件的换行符全部去掉

但是问题又出现了,整个文件变成一行我們的段落结构都消失了,那么我们需要手动添加delimiter设置为一个特殊字符@。


  

将翻译后的文本重定向到一个文件然后对文件进行简单的后处悝,就可以了

以上这篇python实现从pdf文件中提取文本,并自动翻译的方法就是小编分享给大家的全部内容了,希望能给大家一个参考也希望大镓多多支持脚本之家。

}

版权声明:本文为博主原创文章未经博主允许不得转载。 /qq_/article/details/

}

我要回帖

更多关于 install pip 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信