干貨|如何利用CNN建立計(jì)算機(jī)視覺模型?

如何利用 CNNs 建立計(jì)算機(jī)視覺模型?什么是現(xiàn)有的數(shù)據(jù)集?訓(xùn)練模型的方法有哪些?本文在嘗試?yán)斫庥?jì)算機(jī)視覺的最重要的概念的過程中,為現(xiàn)有的一些基本問題,提供了答案。

創(chuàng)新互聯(lián)公司是一家專業(yè)提供科爾沁右翼中企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作、H5開發(fā)、小程序制作等業(yè)務(wù)。10年已為科爾沁右翼中眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計(jì)公司優(yōu)惠進(jìn)行中。

在機(jī)器學(xué)習(xí)中最熱門的領(lǐng)域之一是計(jì)算機(jī)視覺,它具有廣泛的應(yīng)用前景和巨大的潛力。它的發(fā)展目的是:復(fù)制人類視覺的強(qiáng)大能力。但是如何通過算法來實(shí)現(xiàn)呢?

讓我們來看看構(gòu)建計(jì)算機(jī)視覺模型中,最重要的數(shù)據(jù)集以及方法。

現(xiàn)有的數(shù)據(jù)集

計(jì)算機(jī)視覺算法并不神奇。 他們需要數(shù)據(jù)才能工作,并且它們只會(huì)與你輸入的數(shù)據(jù)的情況一樣。這些是收集正確數(shù)據(jù)的不同來源,具體還是要取決于任務(wù):

ImageNet是最龐大且最著名的數(shù)據(jù)集之一,它是一個(gè)現(xiàn)成的數(shù)據(jù)集,包含1400萬幅圖像,使用WordNet概念手工注釋。在整個(gè)數(shù)據(jù)集中,100萬幅圖像包含邊界框注釋。

干貨|如何利用CNN建立計(jì)算機(jī)視覺模型?

帶有對象屬性注釋的ImageNet圖像。圖片來源

另一個(gè)著名的例子是Microsoft COCO(Common Objects in Contex,常見物體圖像識別)的 DataSet,它包含了32.8萬張圖片,其中包括91種對象類型,這些對象類型很容易被識別,總共有250萬個(gè)標(biāo)記實(shí)例。

干貨|如何利用CNN建立計(jì)算機(jī)視覺模型?

來自COCO數(shù)據(jù)集的帶注釋圖像的示例

雖然沒有太多可用的數(shù)據(jù)集,但有幾個(gè)適合不同的任務(wù),

研究人員運(yùn)用了包含超過20萬名人頭像的CelebFaces Attributes數(shù)據(jù)集和超過300萬圖像的"臥室"室內(nèi)場景識別數(shù)據(jù)集(15,620幅室內(nèi)場景圖像);和植物圖像分析數(shù)據(jù)集(來自11個(gè)不同物種的100萬幅植物圖像)。

照片數(shù)據(jù)集,通過這些大量的數(shù)據(jù),不斷訓(xùn)練模型,使其結(jié)果不斷優(yōu)化。

一個(gè)總體戰(zhàn)略

深度學(xué)習(xí)方法和技術(shù)已經(jīng)深刻地改變了計(jì)算機(jī)視覺以及人工智能的其他領(lǐng)域,以至于在許多任務(wù)中,它的使用被認(rèn)為是標(biāo)準(zhǔn)的。特別是,卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)超越了使用傳統(tǒng)計(jì)算機(jī)視覺技術(shù)的最先進(jìn)的技術(shù)成果。

這四個(gè)步驟概述了使用CNN建立計(jì)算機(jī)視覺模型的一般方法:

  1. 創(chuàng)建由帶注釋的圖像組成的數(shù)據(jù)集,或使用現(xiàn)有的數(shù)據(jù)集。注釋可以是圖像類別(用于分類問題)、邊界框和類(用于對象檢測問題)、或者是對圖像中感興趣的每個(gè)對象進(jìn)行像素級分割(對于實(shí)例分割問題)。
  2. 從每個(gè)圖像中提取與當(dāng)前任務(wù)相關(guān)的特性。這是問題建模的關(guān)鍵點(diǎn)。例如,用于識別人臉的特征,基于面部標(biāo)準(zhǔn)的特征,明顯不同于用于識別旅游景點(diǎn)或人體器官的特征。
  3. 訓(xùn)練一個(gè)基于特征分離的深度學(xué)習(xí)模型。訓(xùn)練意味著給機(jī)器學(xué)習(xí)模型提供許多圖像,它將根據(jù)這些特征學(xué)習(xí)如何解決手頭的任務(wù)。
  4. 使用訓(xùn)練階段沒有使用的圖像來評估模型。通過這樣做,可以測試訓(xùn)練模型的準(zhǔn)確性。
  5. 這個(gè)策略很基本,但可以很好地達(dá)到了目的。這種方法稱為監(jiān)督機(jī)器學(xué)習(xí),需要一個(gè)包含模型且必須學(xué)習(xí)的現(xiàn)象的數(shù)據(jù)集。

訓(xùn)練對象檢測模型

解決對象檢測挑戰(zhàn)的方法有很多種。 在Paul Viola 和 Michael Jones 的論文《健壯實(shí)時(shí)對象檢測》(Robust Real-time Object Detection)中提出了普遍的方法。

論文傳送門: 「鏈接」

雖然該方法可以訓(xùn)練用來檢測不同范圍的對象類,但其最初的目的是面部檢測。它是如此的快速和直接,并且它是在傻瓜相機(jī)中實(shí)現(xiàn)的算法,這也使得實(shí)時(shí)人臉檢測幾乎沒有處理能力。

該方法的核心特性是使用一組基于Haar特性的二進(jìn)制分類器進(jìn)行訓(xùn)練的。這些特征表示邊和線,在掃描圖像時(shí)非常容易計(jì)算。

干貨|如何利用CNN建立計(jì)算機(jī)視覺模型?

Haar features

雖然非常基本,但在特定的人臉情況下,這些特征允許捕獲重要的元素,如鼻子、嘴巴或眉毛之間的距離。它是一種監(jiān)督方法,需要識別對象類型的許多正例和反例。

基于CNN的方法

深度學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)中一個(gè)真正的游戲規(guī)則改變者,特別是在計(jì)算機(jī)視覺領(lǐng)域中,基于深度學(xué)習(xí)的方法是許多常見任務(wù)的前沿。

在提出的各種實(shí)現(xiàn)目標(biāo)檢測的深度學(xué)習(xí)方法中,R-CNN(具有CNN特征的區(qū)域)特別容易理解。本文作者提出了三個(gè)階段的過程:

  • 使用區(qū)域建議方法提取可能的對象。
  • 使用CNN識別每個(gè)區(qū)域的特征。
  • 利用支持向量機(jī)對每個(gè)區(qū)域進(jìn)行分類。
干貨|如何利用CNN建立計(jì)算機(jī)視覺模型?

R-CNN Architecture. 圖片來源

雖然R-CNN算法對于具體采用的區(qū)域建議方法是不可知的,但是在原著中選擇的區(qū)域建議的方法是選擇性搜索。步驟3非常重要,因?yàn)樗鼫p少了候選對象的數(shù)量,從而降低了方法的計(jì)算開銷。

這里提取的特征不如前面提到的Haar特征直觀。綜上所述,我們使用CNN從每個(gè)區(qū)域提案中提取4096維特征向量??紤]到CNN的性質(zhì),輸入必須始終具有相同的維度。這通常是CNN的弱點(diǎn)之一,不同的方法以不同的方式解決這個(gè)問題。對于R-CNN方法,經(jīng)過訓(xùn)練的CNN架構(gòu)需要輸入227×227像素去固定區(qū)域。由于提議的區(qū)域大小與此不同,作者的方法只是扭曲圖像,使其符合所需的尺寸。

干貨|如何利用CNN建立計(jì)算機(jī)視覺模型?

與CNN所需的輸入維度匹配的扭曲圖像的示例

雖然取得了很好的效果,但是訓(xùn)練遇到了一些障礙,最終這種方法被其他人超越了。其中一些在文章中進(jìn)行了深入的回顧——《深度學(xué)習(xí)的對象檢測:權(quán)威指南》。

https://www.toutiao.com/a6693688027820065292/

名稱欄目:干貨|如何利用CNN建立計(jì)算機(jī)視覺模型?
文章路徑:http://muchs.cn/article40/gpjjho.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供網(wǎng)站排名、手機(jī)網(wǎng)站建設(shè)定制網(wǎng)站、做網(wǎng)站、網(wǎng)頁設(shè)計(jì)公司商城網(wǎng)站

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)頁設(shè)計(jì)公司