用Python處理HTML轉義字符的5種方式-創(chuàng)新互聯

寫爬蟲是一個發(fā)送請求,提取數據,清洗數據,存儲數據的過程。在這個過程中,不同的數據源返回的數據格式各不相同,有 JSON 格式,有 XML 文檔,不過大部分還是 HTML 文檔,HTML 經常會混雜有轉移字符,這些字符我們需要把它轉義成真正的字符。

創(chuàng)新互聯堅信:善待客戶,將會成為終身客戶。我們能堅持多年,是因為我們一直可值得信賴。我們從不忽悠初訪客戶,我們用心做好本職工作,不忘初心,方得始終。十多年網站建設經驗創(chuàng)新互聯是成都老牌網站營銷服務商,為您提供網站制作、成都網站建設、網站設計、H5開發(fā)、網站制作、高端網站設計、微信平臺小程序開發(fā)服務,給眾多知名企業(yè)提供過好品質的建站服務。

什么是轉義字符

在 HTML 中 <、>、& 等字符有特殊含義(<,> 用于標簽中,& 用于轉義),他們不能在 HTML 代碼中直接使用,如果要在網頁中顯示這些符號,就需要使用 HTML 的轉義字符串(Escape Sequence),例如 < 的轉義字符是 &lt;,瀏覽器渲染 HTML 頁面時,會自動把轉移字符串換成真實字符。

轉義字符(Escape Sequence)由三部分組成:第一部分是一個 & 符號,第二部分是實體(Entity)名字,第三部分是一個分號。 比如,要顯示小于號(<),就可以寫&lt; 。

用 Python 處理 HTML 轉義字符的5種方式

Python 反轉義字符串

用 Python 來處理轉義字符串有多種方式,而且 py2 和 py3 中處理方式不一樣,在 python2 中,反轉義串的模塊是 HTMLParser。

用 Python 處理 HTML 轉義字符的5種方式

Python3 把 HTMLParser 模塊遷移到 html.parser

用 Python 處理 HTML 轉義字符的5種方式

到 python3.4 之后的版本,在 html 模塊新增了 unescape 方法。

用 Python 處理 HTML 轉義字符的5種方式

推薦最后一種寫法,因為 HTMLParser.unescape 方法在 Python3.4 就已經被廢棄掉不推薦使用,意味著之后的版本有可能會被徹底移除。

另外,sax 模塊也有支持反轉義的函數

用 Python 處理 HTML 轉義字符的5種方式

當然,你完全可以實現自己的反轉義功能,不復雜,當然,我們崇尚不重復造輪子。

另外有需要云服務器可以了解下創(chuàng)新互聯cdcxhl.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

當前題目:用Python處理HTML轉義字符的5種方式-創(chuàng)新互聯
文章網址:http://muchs.cn/article6/djggig.html

成都網站建設公司_創(chuàng)新互聯,為您提供網站維護ChatGPT、網頁設計公司、搜索引擎優(yōu)化、虛擬主機網站改版

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯

成都定制網站網頁設計