機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)有哪些

本篇內(nèi)容主要講解“機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)有哪些”，感興趣的朋友不妨來(lái)看看。本文介紹的方法操作簡(jiǎn)單快捷，實(shí)用性強(qiáng)。下面就讓小編來(lái)帶大家學(xué)習(xí)“機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)有哪些”吧!

公司主營(yíng)業(yè)務(wù)：成都網(wǎng)站制作、成都做網(wǎng)站、外貿(mào)營(yíng)銷網(wǎng)站建設(shè)、移動(dòng)網(wǎng)站開(kāi)發(fā)等業(yè)務(wù)。幫助企業(yè)客戶真正實(shí)現(xiàn)互聯(lián)網(wǎng)宣傳，提高企業(yè)的競(jìng)爭(zhēng)能力。創(chuàng)新互聯(lián)建站是一支青春激揚(yáng)、勤奮敬業(yè)、活力青春激揚(yáng)、勤奮敬業(yè)、活力澎湃、和諧高效的團(tuán)隊(duì)。公司秉承以“開(kāi)放、自由、嚴(yán)謹(jǐn)、自律”為核心的企業(yè)文化，感謝他們對(duì)我們的高要求，感謝他們從不同領(lǐng)域給我們帶來(lái)的挑戰(zhàn)，讓我們激情的團(tuán)隊(duì)有機(jī)會(huì)用頭腦與智慧不斷的給客戶帶來(lái)驚喜。創(chuàng)新互聯(lián)建站推出孝義免費(fèi)做網(wǎng)站回饋大家。

1.1 何謂機(jī)器學(xué)習(xí)

除卻一些無(wú)關(guān)緊要的情況，人們很難直接從原始數(shù)據(jù)本身獲得所需信息。例如，對(duì)于垃圾郵件的檢測(cè)，偵測(cè)一個(gè)單詞是否存在并沒(méi)有太大的作用，然而當(dāng)某幾個(gè)特定單詞同時(shí)出現(xiàn)時(shí)，再輔以考察郵件長(zhǎng)度及其他因素，人們就可以更準(zhǔn)確地判定該郵件是否為垃圾郵件。簡(jiǎn)單地說(shuō)，機(jī)器學(xué)習(xí)就是把無(wú)序的數(shù)據(jù)轉(zhuǎn)換成有用的信息

1.2 如何選擇合適的算法

從算法中選擇實(shí)際可用的算法，必須考慮下面兩個(gè)問(wèn)題:一、使用機(jī)器學(xué)習(xí)算法的目的，想要算法完成何種任務(wù)，比如是預(yù)測(cè)明天下雨的概率還是對(duì)投票者按照興趣分組;二、需要分析或收集的數(shù)據(jù)是什么？

首先，考慮使用機(jī)器學(xué)習(xí)算法的目的。如果想要預(yù)測(cè)目標(biāo)變量的值，則可以選擇監(jiān)督學(xué)習(xí)算法，否則可以選擇無(wú)監(jiān)督學(xué)習(xí)算法。確定選擇監(jiān)督學(xué)習(xí)算法之后，需要進(jìn)一步確定目標(biāo)變量類型，如果目標(biāo)變量是離散型，如是/否、1/2/3、A/B/C或者紅/黃/黑等，則可以選擇分類器算法;如果目標(biāo)變量是連續(xù)型的數(shù)值，如0.0~100.00、-999~999或者正無(wú)窮~負(fù)無(wú)窮等，則需要選擇回歸算法。

如果不想預(yù)測(cè)目標(biāo)變量的值，則可以選擇無(wú)監(jiān)督學(xué)習(xí)算法。進(jìn)一步分析是否需要將數(shù)據(jù)劃分為離散的組。如果這是唯一的需求，則使用聚類算法;如果還需要估計(jì)數(shù)據(jù)與每個(gè)分組的相似程度，則需要使用密度估計(jì)算法。

在大多數(shù)情況下，上面給出的選擇方法都能幫助我們選擇恰當(dāng)?shù)臋C(jī)器學(xué)習(xí)算法，但這也并非一成不變。也有時(shí)候我們就會(huì)使用分類算法來(lái)處理回歸問(wèn)題，顯然這將與監(jiān)督學(xué)習(xí)中處理回歸問(wèn)題的原則不同。

其次，需要考慮的是數(shù)據(jù)問(wèn)題。我們應(yīng)該充分了解數(shù)據(jù)，對(duì)實(shí)際數(shù)據(jù)了解得越充分，越容易創(chuàng)建符合實(shí)際需求的應(yīng)用程序。主要應(yīng)該了解數(shù)據(jù)的以下特性:特征值是離散型變量還是連續(xù)型變量，特征值中是否存在缺失的值，何種原因造成缺失值，數(shù)據(jù)中是否存在異常值，某個(gè)特征發(fā)生的頻率如何(是否罕見(jiàn)得如同海底撈針)，等等。充分了解上面提到的這些數(shù)據(jù)特性可以縮短選擇機(jī)器學(xué)習(xí)算法的時(shí)間

我們只能在一定程度上縮小算法的選擇范圍，一般并不存在最好的算法或者可以給出最好結(jié)果的算法，同時(shí)還要嘗試不同算法的執(zhí)行效果。對(duì)于所選的每種算法，都可以使用其他的機(jī)器學(xué)習(xí)技術(shù)來(lái)改進(jìn)其性能。在處理輸入數(shù)據(jù)之后，兩個(gè)算法的相對(duì)性能也可能會(huì)發(fā)生變化。一般說(shuō)來(lái)發(fā)現(xiàn)最好算法的關(guān)鍵環(huán)節(jié)是反復(fù)試錯(cuò)的迭代過(guò)程。

機(jī)器學(xué)習(xí)算法雖然各不相同，但是使用算法創(chuàng)建應(yīng)用程序的步驟卻基本類似。

1.3 開(kāi)發(fā)機(jī)器學(xué)習(xí)應(yīng)用程序的步驟

學(xué)習(xí)和使用機(jī)器學(xué)習(xí)算法開(kāi)發(fā)應(yīng)用程序，通常遵循以下的步驟:

(1)收集數(shù)據(jù)

我們可以使用很多方法收集樣本數(shù)據(jù)，如制作網(wǎng)絡(luò)爬蟲從網(wǎng)站上抽取數(shù)據(jù)、從RSS反饋或者API中得到信息、設(shè)備發(fā)送過(guò)來(lái)的實(shí)測(cè)數(shù)據(jù)(風(fēng)速、血糖等)。提取數(shù)據(jù)的方法非常多，為了節(jié)省時(shí)間與精力，可以使用公開(kāi)可用的數(shù)據(jù)源。

(2)準(zhǔn)備輸入數(shù)據(jù)

得到數(shù)據(jù)之后，還必須確保數(shù)據(jù)格式符合要求，采用的格式是python語(yǔ)言的list。使用這種標(biāo)準(zhǔn)數(shù)據(jù)格式可以融合算法和數(shù)據(jù)源，方便匹配操作。

此外還需要為機(jī)器學(xué)習(xí)算法準(zhǔn)備特定的數(shù)據(jù)格式，如某些算法要求特征值使用特定的格式，一些算法要求目標(biāo)變量和特征值是字符串類型，而另一些算法則可能要求是整數(shù)類型。但是與收集數(shù)據(jù)的格式相比，處理特殊算法要求的格式相對(duì)簡(jiǎn)單得多。

(3)分析輸入數(shù)據(jù)

此步驟主要是人工分析以前得到的數(shù)據(jù)。為了確保前兩步有效，最簡(jiǎn)單的方法是用文本編輯器打開(kāi)數(shù)據(jù)文件，査看得到的數(shù)據(jù)是否為空值。此外，還可以進(jìn)一步瀏覽數(shù)據(jù)，分析是否可以識(shí)別出模式;數(shù)據(jù)中是否存在明顯的異常值，如某些數(shù)據(jù)點(diǎn)與數(shù)據(jù)集中的其他值存在明顯的差異。通過(guò)一維、二維或三維圖形展示數(shù)據(jù)也是不錯(cuò)的方法，然而大多數(shù)時(shí)候我們得到數(shù)據(jù)的特征值都不會(huì)低于三個(gè)，無(wú)法一次圖形化展示所有特征。

這一步的主要作用是確保數(shù)據(jù)集中沒(méi)有垃圾數(shù)據(jù)。如果是在產(chǎn)品化系統(tǒng)中使用機(jī)器學(xué)習(xí)算法并且算法可以處理系統(tǒng)產(chǎn)生的數(shù)據(jù)格式，或者我們信任數(shù)據(jù)來(lái)源，可以直接跳過(guò)第3步。此步驟需要人工干預(yù)，如果在自動(dòng)化系統(tǒng)中還需要人工干預(yù)，顯然就降低了系統(tǒng)的價(jià)值。

(4)訓(xùn)練算法

機(jī)器學(xué)習(xí)算法從這一步才真正開(kāi)始學(xué)習(xí)。根據(jù)算法的不同，第4步和第5步是機(jī)器學(xué)習(xí)算法的核心。我們將前兩步得到的格式化數(shù)據(jù)輸入到算法，從中抽取知識(shí)或信息。這里得到的知識(shí)需要存儲(chǔ)為計(jì)算機(jī)可以處理的格式，方便后續(xù)步驟使用。

如果使用無(wú)監(jiān)督學(xué)習(xí)算法，由于不存在目標(biāo)變量值，故而也不需要訓(xùn)練算法，所有與算法相關(guān)的內(nèi)容都集中在第5步。

1.4 Python語(yǔ)言的優(yōu)勢(shì)

基于以下三個(gè)原因，我們選擇python作為實(shí)現(xiàn)機(jī)器學(xué)習(xí)算法的編程語(yǔ)言:(1)python語(yǔ)法清晰; (2)易于操作純文本文件; (3)使用廣泛，存在大量的開(kāi)發(fā)文檔。

python具有清晰的語(yǔ)法結(jié)構(gòu)，大家也把它稱作可執(zhí)行偽代碼(executable pseudo-code)。默認(rèn)安裝的python開(kāi)發(fā)環(huán)境已經(jīng)附帶了很多高級(jí)數(shù)據(jù)類型，如列表、元組、字典、集合、隊(duì)列等，無(wú) 需進(jìn)一步編程就可以使用這些數(shù)據(jù)類型的操作。使用這些數(shù)據(jù)類型使得實(shí)現(xiàn)抽象的數(shù)學(xué)概念非常簡(jiǎn)單。此外，讀者還可以使用自己熟悉的編程風(fēng)格，如面向?qū)ο缶幊?、面向過(guò)程編程、或者函數(shù) 式編程。

python語(yǔ)言處理和操作文本文件非常簡(jiǎn)單，非常易于處理非數(shù)值型數(shù)據(jù)。python語(yǔ)言提供了豐富的正則表達(dá)式函數(shù)以及很多訪問(wèn)web頁(yè)面的函數(shù)庫(kù)，使得從HTML中提取數(shù)據(jù)變得非常簡(jiǎn)單直觀。

在科學(xué)和金融領(lǐng)域python語(yǔ)言得到了廣泛應(yīng)用。SciPy和Numpy等許多科學(xué)函數(shù)庫(kù)都實(shí)現(xiàn)了向量和矩陣操作，這些函數(shù)庫(kù)增加了代碼的可讀性，學(xué)過(guò)線性代數(shù)的人都可以看懂代碼的實(shí)際功能。

Python的科學(xué)工具可以與繪圖工具M(jìn)atplotlib協(xié)同工作。Matplotlib可以繪制2D、3D圖形，也可以處理科學(xué)研究中經(jīng)常使用到的圖形。

1.5 Numpy函數(shù)庫(kù)基礎(chǔ)

機(jī)器學(xué)習(xí)算法涉及很多線性代數(shù)知識(shí)，因此在使用python語(yǔ)言構(gòu)造機(jī)器學(xué)習(xí)應(yīng)用時(shí)，會(huì)經(jīng)常使用Numpy函數(shù)庫(kù)。如果不熟悉線性代數(shù)也不用著急，這里用到線性代數(shù)只是為了簡(jiǎn)化不同的數(shù) 據(jù)點(diǎn)上執(zhí)行的相同數(shù)學(xué)運(yùn)算。將數(shù)據(jù)表示為矩陣形式，只需要執(zhí)行簡(jiǎn)單的矩陣運(yùn)算而不需要復(fù)雜的循環(huán)操作。

到此，相信大家對(duì)“機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)有哪些”有了更深的了解，不妨來(lái)實(shí)際操作一番吧！這里是創(chuàng)新互聯(lián)網(wǎng)站，更多相關(guān)內(nèi)容可以進(jìn)入相關(guān)頻道進(jìn)行查詢，關(guān)注我們，繼續(xù)學(xué)習(xí)！

分享題目：機(jī)器學(xué)習(xí)的基礎(chǔ)知識(shí)有哪些
路徑分享：http://www.muchs.cn/article44/ishiee.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供外貿(mào)網(wǎng)站建設(shè)、云服務(wù)器、網(wǎng)站排名、網(wǎng)站內(nèi)鏈、移動(dòng)網(wǎng)站建設(shè)、微信小程序

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容