干貨｜如何利用CNN建立計(jì)算機(jī)視覺模型？

如何利用 CNNs 建立計(jì)算機(jī)視覺模型?什么是現(xiàn)有的數(shù)據(jù)集?訓(xùn)練模型的方法有哪些?本文在嘗試?yán)斫庥?jì)算機(jī)視覺的最重要的概念的過程中，為現(xiàn)有的一些基本問題，提供了答案。

創(chuàng)新互聯(lián)公司是一家專業(yè)提供科爾沁右翼中企業(yè)網(wǎng)站建設(shè),專注與成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站制作、H5開發(fā)、小程序制作等業(yè)務(wù)。10年已為科爾沁右翼中眾多企業(yè)、政府機(jī)構(gòu)等服務(wù)。創(chuàng)新互聯(lián)專業(yè)網(wǎng)站設(shè)計(jì)公司優(yōu)惠進(jìn)行中。

在機(jī)器學(xué)習(xí)中最熱門的領(lǐng)域之一是計(jì)算機(jī)視覺，它具有廣泛的應(yīng)用前景和巨大的潛力。它的發(fā)展目的是:復(fù)制人類視覺的強(qiáng)大能力。但是如何通過算法來實(shí)現(xiàn)呢?

讓我們來看看構(gòu)建計(jì)算機(jī)視覺模型中，最重要的數(shù)據(jù)集以及方法。

現(xiàn)有的數(shù)據(jù)集

計(jì)算機(jī)視覺算法并不神奇。他們需要數(shù)據(jù)才能工作，并且它們只會(huì)與你輸入的數(shù)據(jù)的情況一樣。這些是收集正確數(shù)據(jù)的不同來源，具體還是要取決于任務(wù)：

ImageNet是最龐大且最著名的數(shù)據(jù)集之一，它是一個(gè)現(xiàn)成的數(shù)據(jù)集，包含1400萬幅圖像，使用WordNet概念手工注釋。在整個(gè)數(shù)據(jù)集中，100萬幅圖像包含邊界框注釋。

帶有對象屬性注釋的ImageNet圖像。圖片來源

另一個(gè)著名的例子是Microsoft COCO（Common Objects in Contex，常見物體圖像識別）的 DataSet，它包含了32.8萬張圖片，其中包括91種對象類型，這些對象類型很容易被識別，總共有250萬個(gè)標(biāo)記實(shí)例。

來自COCO數(shù)據(jù)集的帶注釋圖像的示例

雖然沒有太多可用的數(shù)據(jù)集，但有幾個(gè)適合不同的任務(wù)，

研究人員運(yùn)用了包含超過20萬名人頭像的CelebFaces Attributes數(shù)據(jù)集和超過300萬圖像的"臥室"室內(nèi)場景識別數(shù)據(jù)集(15,620幅室內(nèi)場景圖像);和植物圖像分析數(shù)據(jù)集(來自11個(gè)不同物種的100萬幅植物圖像)。

照片數(shù)據(jù)集，通過這些大量的數(shù)據(jù)，不斷訓(xùn)練模型，使其結(jié)果不斷優(yōu)化。

一個(gè)總體戰(zhàn)略

深度學(xué)習(xí)方法和技術(shù)已經(jīng)深刻地改變了計(jì)算機(jī)視覺以及人工智能的其他領(lǐng)域，以至于在許多任務(wù)中，它的使用被認(rèn)為是標(biāo)準(zhǔn)的。特別是，卷積神經(jīng)網(wǎng)絡(luò)(CNN)已經(jīng)超越了使用傳統(tǒng)計(jì)算機(jī)視覺技術(shù)的最先進(jìn)的技術(shù)成果。

這四個(gè)步驟概述了使用CNN建立計(jì)算機(jī)視覺模型的一般方法:

創(chuàng)建由帶注釋的圖像組成的數(shù)據(jù)集，或使用現(xiàn)有的數(shù)據(jù)集。注釋可以是圖像類別(用于分類問題)、邊界框和類(用于對象檢測問題)、或者是對圖像中感興趣的每個(gè)對象進(jìn)行像素級分割(對于實(shí)例分割問題)。
從每個(gè)圖像中提取與當(dāng)前任務(wù)相關(guān)的特性。這是問題建模的關(guān)鍵點(diǎn)。例如，用于識別人臉的特征，基于面部標(biāo)準(zhǔn)的特征，明顯不同于用于識別旅游景點(diǎn)或人體器官的特征。
訓(xùn)練一個(gè)基于特征分離的深度學(xué)習(xí)模型。訓(xùn)練意味著給機(jī)器學(xué)習(xí)模型提供許多圖像，它將根據(jù)這些特征學(xué)習(xí)如何解決手頭的任務(wù)。
使用訓(xùn)練階段沒有使用的圖像來評估模型。通過這樣做，可以測試訓(xùn)練模型的準(zhǔn)確性。
這個(gè)策略很基本，但可以很好地達(dá)到了目的。這種方法稱為監(jiān)督機(jī)器學(xué)習(xí)，需要一個(gè)包含模型且必須學(xué)習(xí)的現(xiàn)象的數(shù)據(jù)集。

訓(xùn)練對象檢測模型

解決對象檢測挑戰(zhàn)的方法有很多種。在Paul Viola 和 Michael Jones 的論文《健壯實(shí)時(shí)對象檢測》(Robust Real-time Object Detection)中提出了普遍的方法。

論文傳送門：「鏈接」

雖然該方法可以訓(xùn)練用來檢測不同范圍的對象類，但其最初的目的是面部檢測。它是如此的快速和直接，并且它是在傻瓜相機(jī)中實(shí)現(xiàn)的算法，這也使得實(shí)時(shí)人臉檢測幾乎沒有處理能力。

該方法的核心特性是使用一組基于Haar特性的二進(jìn)制分類器進(jìn)行訓(xùn)練的。這些特征表示邊和線，在掃描圖像時(shí)非常容易計(jì)算。

Haar features

雖然非常基本，但在特定的人臉情況下，這些特征允許捕獲重要的元素，如鼻子、嘴巴或眉毛之間的距離。它是一種監(jiān)督方法，需要識別對象類型的許多正例和反例。

基于CNN的方法

深度學(xué)習(xí)已經(jīng)成為機(jī)器學(xué)習(xí)中一個(gè)真正的游戲規(guī)則改變者，特別是在計(jì)算機(jī)視覺領(lǐng)域中，基于深度學(xué)習(xí)的方法是許多常見任務(wù)的前沿。

在提出的各種實(shí)現(xiàn)目標(biāo)檢測的深度學(xué)習(xí)方法中，R-CNN(具有CNN特征的區(qū)域)特別容易理解。本文作者提出了三個(gè)階段的過程:

使用區(qū)域建議方法提取可能的對象。
使用CNN識別每個(gè)區(qū)域的特征。
利用支持向量機(jī)對每個(gè)區(qū)域進(jìn)行分類。

R-CNN Architecture. 圖片來源

雖然R-CNN算法對于具體采用的區(qū)域建議方法是不可知的，但是在原著中選擇的區(qū)域建議的方法是選擇性搜索。步驟3非常重要，因?yàn)樗鼫p少了候選對象的數(shù)量，從而降低了方法的計(jì)算開銷。

這里提取的特征不如前面提到的Haar特征直觀。綜上所述，我們使用CNN從每個(gè)區(qū)域提案中提取4096維特征向量?？紤]到CNN的性質(zhì)，輸入必須始終具有相同的維度。這通常是CNN的弱點(diǎn)之一，不同的方法以不同的方式解決這個(gè)問題。對于R-CNN方法，經(jīng)過訓(xùn)練的CNN架構(gòu)需要輸入227×227像素去固定區(qū)域。由于提議的區(qū)域大小與此不同，作者的方法只是扭曲圖像，使其符合所需的尺寸。

與CNN所需的輸入維度匹配的扭曲圖像的示例

雖然取得了很好的效果，但是訓(xùn)練遇到了一些障礙，最終這種方法被其他人超越了。其中一些在文章中進(jìn)行了深入的回顧——《深度學(xué)習(xí)的對象檢測:權(quán)威指南》。

https://www.toutiao.com/a6693688027820065292/

名稱欄目：干貨｜如何利用CNN建立計(jì)算機(jī)視覺模型？
文章路徑：http://muchs.cn/article40/gpjjho.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站排名、手機(jī)網(wǎng)站建設(shè)、定制網(wǎng)站、做網(wǎng)站、網(wǎng)頁設(shè)計(jì)公司、商城網(wǎng)站

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

干貨｜如何利用CNN建立計(jì)算機(jī)視覺模型？

現(xiàn)有的數(shù)據(jù)集

一個(gè)總體戰(zhàn)略

訓(xùn)練對象檢測模型

干貨｜如何利用CNN建立計(jì)算機(jī)視覺模型？