Python如何識別字母數(shù)字組合驗證碼

小編給大家分享一下Python如何識別字母數(shù)字組合驗證碼,希望大家閱讀完這篇文章之后都有所收獲,下面讓我們一起去探討吧!

目前創(chuàng)新互聯(lián)公司已為1000多家的企業(yè)提供了網(wǎng)站建設(shè)、域名、網(wǎng)站空間、網(wǎng)站托管、企業(yè)網(wǎng)站設(shè)計、清豐網(wǎng)站維護等服務(wù),公司將堅持客戶導向、應用為本的策略,正道將秉承"和諧、參與、激情"的文化,與客戶和合作伙伴齊心協(xié)力一起成長,共同發(fā)展。

在爬蟲過程中難免會遇到驗證碼,各種驗證碼似乎阻擋了爬蟲的腳步。

因為本文實現(xiàn)的功能是在內(nèi)網(wǎng)環(huán)境下完成的,所以沒有代碼介紹,也沒有識別效果顯示。

1、編碼和轉(zhuǎn)換樣本圖像。

2、得到一個能夠反映圖像特征的code,然后保存所有這些樣本圖像的code。

3、圖片轉(zhuǎn)換code的方法可以選擇hash進行轉(zhuǎn)換。

圖片轉(zhuǎn)換code的方法我選擇的hash轉(zhuǎn)換過程如下:

縮放:圖片縮放8*8。

求平均值:計算灰度圖中所有像素的平均值。

比較:像素值大于平均值1,反之0,總共64位。

生成hash:將上述步驟生成的1和0按順序組合成圖片的指紋(hash)。順序不固定。但比較時必須有相同的順序。

在獲得hash值后,將同一數(shù)字對于圖片的hash值存在于txt文件中,在實際使用時,對預測圖像進行上述相同的預處理操作,出4張圖片,然后計算出4張預測圖像的hash值,將測試圖像的hash值與TXT文件中的hash進行比較,計算出漢明距離,即兩個64位的hash值有多大不同,不同位數(shù)越少,圖片越相似。

在獲得測試圖像與每個樣本圖像hash值的漢明距離后,進行統(tǒng)計,平均取預測值最大的樣本圖像標簽作為預測值。識別速度也不錯,平均只需要0.3秒就可以完成一次識別。

這種識別方法操作簡單,對簡單的字母數(shù)字組合驗證碼非常有效,但對圖像預處理提出了更高的要求,不具有泛化性。不同的驗證碼每次都需要單獨編輯規(guī)則。

看完了這篇文章,相信你對“Python如何識別字母數(shù)字組合驗證碼”有了一定的了解,如果想了解更多相關(guān)知識,歡迎關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道,感謝各位的閱讀!

名稱欄目:Python如何識別字母數(shù)字組合驗證碼
路徑分享:http://www.muchs.cn/article16/gjgjgg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站設(shè)計公司、手機網(wǎng)站建設(shè)、靜態(tài)網(wǎng)站、網(wǎng)站排名App設(shè)計、響應式網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都定制網(wǎng)站建設(shè)