PDF/OFD电子发票解析InvoiceParse可以将OFD专用电子发票及PDF普通电子发票等发票信息提取至excel,让各位可以根据更加直观的图表的方式,来分析和计算发票上的数据内容,而无需一个个的点开文件,查看并记录,大大提高了工作效率!
经常用的软件简介
因工作原因需要转换电子发票,而且量大,上网搜索了很多,发现一个比较好用的,特来分享。
功能说明
输入PDF电子发票所在路径,程序遍历路径下所有PDF电子发票(可以存在目录),读取并把主要一些信息写入Excel中。
应用于说明
1、下载后解压,得到一个文件和一个文件夹
2、直接运行exe文件(res文件夹中的内容不要动,res文件夹保留与exe文件在同一目录;Excel文件不要编辑,也不要删除,它是作为Excel样式模板而存在,没有这个文件会报错)
3、说明:此程序是在windows10下打包,不保证其他版本操作系统能够运行。
4、输入PDF电子发票所在路径
5、程序就会解析了(测试机上每秒解析3-4个)
6、去PDF文件目录下就可以找到生产的Excel文件了
7、打开Excel就可以看到提取到的信息了。提取的信息如下:
8、说明:1)、此程序仅在windows10下测试,其他操作系统很可能无法运行。2)、若某些电子发票存在限制复制内容,那么此程序无法读取其内容。
应用于的程序语言
1)、python
2)、应用于到的主要第三方包:
Excel读写:xlrd、xlutils、
PDF文件读取及信息提取:pdfplumber、re、matplotlib(调试时可视化用)
OFD文件读取及信息提取:zipfile、xml.dom.minidom
主要思路
1)、PDF发票提取
①、应用于pdfplumber读取pdf文件中的txt,应用于re匹配关键字,提取绝大部分字段的信息(各pdf发票格式差异较大,需要应用于多种匹配方式去提取)
②、应用于pdfplumber读取pdf中的lines、edges、curves等,算出pdf中的表格定位点(各pdf差异较大,需要去尝试多种方案),再通过定位点,在pdf中提取特定区域的文字(比如,备注,货物清单)
2)、OFD发票提取
①、OFD是压缩文件,应用于zipfile解压
②、应用于xml.dom.minidom读取解压后的Doc_0/Attachs/original_invoice.xml等xml文件,提取信息
3)、Excel写入
①、应用于xlrd读取模板Excel文件,应用于xlutils复制格式等
其他说明
1)、OFD发票测试样本太少,可能存在解析不了的
2)、部分字段可能存在提取不正确或缺失
3)、遇到提取失败或者部分字段提取失败的,可以联系我,并提交对应文件给我,我可以调试下。
4)、应用于说明,请下载后看 应用于说明.txt。
版权声明:PDF/OFD电子发票解析InvoiceParse所展示的资源内容均来自于第三方用户上传分享,您所下载的资源内容仅供个人学习交流使用,严禁用于商业用途,软件的著作权归原作者所有,如果有侵犯您的权利,请来信告知,我们将及时撤销。
软件下载信息清单:
软件名称 | 发布日期 | 文件大小 | 下载文件名 |
---|---|---|---|
PDF/OFD电子发票解析InvoiceParse安装包 | 2024年11月2日 | 15.3M | InvoiceParse_v1.5.1.zip |
软件评论