Python中pdfminer如何抓取PDF中的內(nèi)容-創(chuàng)新互聯(lián)

小編給大家分享一下Python中pdfminer如何抓取PDF中的內(nèi)容,相信大部分人都還不怎么了解,因此分享這篇文章給大家參考一下,希望大家閱讀完這篇文章后大有收獲,下面讓我們一起去了解一下吧!

成都創(chuàng)新互聯(lián)專(zhuān)注于肇源企業(yè)網(wǎng)站建設(shè),成都響應(yīng)式網(wǎng)站建設(shè)公司,商城網(wǎng)站定制開(kāi)發(fā)。肇源網(wǎng)站建設(shè)公司,為肇源等地區(qū)提供建站服務(wù)。全流程按需定制設(shè)計(jì),專(zhuān)業(yè)設(shè)計(jì),全程項(xiàng)目跟蹤,成都創(chuàng)新互聯(lián)專(zhuān)業(yè)和態(tài)度為您提供的服務(wù)

轉(zhuǎn)換 PDF 有很多庫(kù)可以完成,如下是通過(guò) pdfminer 的示例:

from cStringIO import StringIO

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage


def convert_pdf_2_text(path):
    
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    
    device = TextConverter(rsrcmgr, retstr, codec='utf-8', laparams=LAParams())
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    
    with open(path, 'rb') as fp:
         for page in PDFPage.get_pages(fp, set()):
             interpreter.process_page(page)
         text = retstr.getvalue()
              
               device.close()
               retstr.close()
                 
               return text

需要指出的是,pdfminer 不但可以將 PDF 轉(zhuǎn)換為 text 文本,還可以轉(zhuǎn)換為 HTML 等帶有標(biāo)簽的文本。上面只是最簡(jiǎn)單的示例,如果每頁(yè)有很獨(dú)特的標(biāo)志,你還可以按頁(yè)單獨(dú)處理。

以上是Python中pdfminer如何抓取PDF中的內(nèi)容的所有內(nèi)容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內(nèi)容對(duì)大家有所幫助,如果還想學(xué)習(xí)更多知識(shí),歡迎關(guān)注創(chuàng)新互聯(lián)網(wǎng)站設(shè)計(jì)公司行業(yè)資訊頻道!

分享題目:Python中pdfminer如何抓取PDF中的內(nèi)容-創(chuàng)新互聯(lián)
鏈接地址:http://muchs.cn/article32/dhehsc.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供標(biāo)簽優(yōu)化虛擬主機(jī)、自適應(yīng)網(wǎng)站、用戶(hù)體驗(yàn)、品牌網(wǎng)站設(shè)計(jì)、微信小程序

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)

成都做網(wǎng)站