如何使用scikit-learn機器學習庫做預測

本篇文章給大家分享的是有關如何使用scikit-learn機器學習庫做預測，小編覺得挺實用的，因此分享給大家學習，希望大家閱讀完這篇文章后可以有所收獲，話不多說，跟著小編一起來看看吧。

為欒城等地區(qū)用戶提供了全套網(wǎng)頁設計制作服務，及欒城網(wǎng)站建設行業(yè)解決方案。主營業(yè)務為網(wǎng)站制作、網(wǎng)站建設、欒城網(wǎng)站設計，以傳統(tǒng)方式定制建設網(wǎng)站，并提供域名空間備案等一條龍服務，秉承以專業(yè)、用心的態(tài)度為用戶提供真誠的服務。我們深信只要達到每一位用戶的要求，就會得到認可，從而選擇與我們長期合作。這樣，我們也可以走得更遠！

scikit-learn是基于Python的一個機器學習庫，你可以在scikit-learn庫中選擇合適的模型，使用它訓練數(shù)據(jù)集并對新數(shù)據(jù)集作出預測。

對于初學者來說，有一個共同的困惑：

怎么使用scikit-learn庫中的模型做預測

廢話少說，讓我們開始吧！

如何使用scikit-learn機器學習庫做預測 — 畢加索作品：愛、名聲和悲劇

一、選擇模型

模型選擇是機器學習的第一步。

你可以使用K折交叉驗證或者分割訓練集/測試集的方法處理數(shù)據(jù)集，并用來訓練模型。這樣做為了能夠讓訓練出來的模型對新數(shù)據(jù)集做出預測。

還要判斷該問題是分類問題還是回歸問題，分類問題預測的是類別、標簽，一般來說是二分類即（0，1），比如是否下雨?；貧w問題預測的是連續(xù)的數(shù)值，比如股票的價格。

二、如何使用分類模型

分類問題是指模型學習輸入特征和輸出標簽之間的映射關系，然后對新的輸入預測標簽。拿識別垃圾郵件舉例，輸入的是郵件的文本、時間、標題等等特征，而輸出的則是垃圾郵件和非垃圾郵件兩個標簽。模型通過訓練數(shù)據(jù)集，學習特征與標簽的關系，才能做出預測。

下面給出一個簡單的，針對二進制分類問題的LogisticRegression（邏輯回歸）模型代碼示例。

雖然我們用的是LogisticRegression（邏輯回歸）分類模型解決問題，但scikit-learn中的其它分類模型同樣適用。

# 導入LogisticRegression方法
from sklearn.linear_model import LogisticRegression
# 導入數(shù)據(jù)生成器
from sklearn.datasets.samples_generator import make_blobs
# 生成2維數(shù)據(jù)，類別是2類
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# 訓練模型
model = LogisticRegression()
model.fit(X, y)

注：make_blobs為聚類數(shù)據(jù)生成器

這里特別介紹兩種分類預測的模型，類別預測和概率預測。

1、類別預測

類別預測：給定模型并訓練數(shù)據(jù)實例后，通過scikit-learn的predict()函數(shù)預測新數(shù)據(jù)實例的類別。

比如，Xnew數(shù)組中有一個或多個數(shù)據(jù)實例，這個數(shù)組可以傳遞給predict()函數(shù)，用來預測每個實例的類別。

Xnew = [[...], [...]]
ynew = model.predict(Xnew)

輸入代碼：

# 類別預測案例
from sklearn.linear_model import LogisticRegression
from sklearn.datasets.samples_generator import make_blobs
# 生成數(shù)據(jù)集，有100個實列即100行，目標類別有2個:(0,1)
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# 擬合模型
model = LogisticRegression()
model.fit(X, y)

# 生成新的預測數(shù)據(jù)集，有3個實例。這里的新實例可以為1個或多個
Xnew, _ = make_blobs(n_samples=3, centers=2, n_features=2, random_state=1)
# 開始預測
ynew = model.predict(Xnew)
# 展示類別的預測結果
print('預測類別：')
for i in range(len(Xnew)):
	print("X=%s, Predicted=%s" % (Xnew[i], ynew[i]))
# 展示數(shù)據(jù)集真實類別
print('真實類別：')
for i in range(len(Xnew)):
	print("X=%s, Predicted=%s" % (Xnew[i], _[i]))

輸出結果：

預測類別：
X=[-0.79415228 2.10495117], Predicted=0
X=[-8.25290074 -4.71455545], Predicted=1
X=[-2.18773166 3.33352125], Predicted=0
真實類別：
X=[-0.79415228 2.10495117], Real=0
X=[-8.25290074 -4.71455545], Real=1
X=[-2.18773166 3.33352125], Real=0

可以看到，預測值和真實值一樣，說明準確率100%。

關于字符串類別標簽的小提示

有時候，數(shù)據(jù)集的類別可能是字符串，比如（是，否）、（熱，冷）等，但模型并不接受字符串輸入輸出，必須將字符串類別轉化為整數(shù)的形式，比如（1，0）對應（是，否）。

scikit-learn提供LabelEncoder函數(shù)，用以將字符串轉換為整數(shù)。

2、概率預測

另一種分類模型是預測數(shù)據(jù)實例屬于每個類別的概率，如果有2個類別（0，1），則預測輸出值為0的概率和1概率。

比如，Xnew數(shù)組中有一個或多個數(shù)據(jù)實例，這個數(shù)組可以傳遞給predict_proba()函數(shù)，用來預測每個實例的類別。

Xnew = [[...], [...]]
ynew = model.predict_proba(Xnew)

概率預測只適用于能夠進行概率預測的模型，大多數(shù)（不是全部）模型可以做到。

下面的例子，通過訓練好的模型對Xnew數(shù)組中的每個實例進行概率預測。

輸入代碼：

# 概率預測案例
from sklearn.linear_model import LogisticRegression
from sklearn.datasets.samples_generator import make_blobs
# 生成數(shù)據(jù)集，有100個實列即100行，目標類別有2個:(0,1)
X, y = make_blobs(n_samples=100, centers=2, n_features=2, random_state=1)
# 訓練模型
model = LogisticRegression()
model.fit(X, y)

# 生成新的預測集，有3個實例即3行
Xnew, _ = make_blobs(n_samples=3, centers=2, n_features=2, random_state=1)
# 開始預測
ynew = model.predict_proba(Xnew)
# 展示預測的類別概率，分別生成為0的概率和為1的概率
print('預測的類別概率：')
for i in range(len(Xnew)):
	print("X=%s, Predicted=%s" % (Xnew[i], ynew[i]))
print('真實類別：')
for i in range(len(Xnew)):
	print("X=%s, Predicted=%s" % (Xnew[i], _[i]))

輸出結果：

預測的類別概率：
X=[-0.79415228 2.10495117], Predicted=[0.94556472 0.05443528]
X=[-8.25290074 -4.71455545], Predicted=[3.60980873e-04 9.99639019e-01]
X=[-2.18773166 3.33352125], Predicted=[0.98437415 0.01562585]
真實類別：
X=[-0.79415228 2.10495117], Real=0
X=[-8.25290074 -4.71455545], Real=1
X=[-2.18773166 3.33352125], Real=0

概率預測的輸出可以理解為：輸出每個類別的概率，有多少個類別就有多少個概率值。

回歸預測

回歸預測和分類預測一樣，都是一種監(jiān)督學習。通過訓練給定的示例即訓練集，模型學習到輸入特征和輸出值之間的映射關系，如輸出值為0.1，0.4，0.8......

下面代碼用的最常見的LinearRegression線性回歸預測模型，當然你也可以用其它所有回歸模型來實踐它。

輸入代碼：

# 線性回歸預測案例
# 導入相關方法
from sklearn.linear_model import LinearRegression
from sklearn.datasets import make_regression
# 生成隨機回歸訓練數(shù)據(jù)集，有100個實列即100行
X, y = make_regression(n_samples=100, n_features=2, noise=0.1, random_state=1)
# 擬合模型
model = LinearRegression()
model.fit(X, y)

# 生成新的預測集，有3個實例即3行
Xnew, _ = make_regression(n_samples=3, n_features=2, noise=0.1, random_state=1)
# 開始預測
ynew = model.predict(Xnew)
# 展示預測的值
print('預測值：')
for i in range(len(Xnew)):
	print("X=%s, Predicted=%s" % (Xnew[i], ynew[i]))
# 展示真實的值
print('真實值：')
for i in range(len(Xnew)):
	print("X=%s, Real=%s" % (Xnew[i], _[i]))

注：make_regression函數(shù)為隨機回歸數(shù)據(jù)集生成器

輸出結果：

預測值：
X=[-1.07296862 -0.52817175], Predicted=-80.24979831685631
X=[-0.61175641 1.62434536], Predicted=120.64928064345101
X=[-2.3015387 0.86540763], Predicted=0.5518357031232064
真實值：
X=[-1.07296862 -0.52817175], Real=-95.68750948023445
X=[-0.61175641 1.62434536], Real=26.204828091429512
X=[-2.3015387 0.86540763], Real=-121.28229571474058

小編分別用scikit-learn庫中的分類模型和回歸模型做了預測，并解釋了這兩種預測模型的區(qū)別，你也可以探索其它相關函數(shù)并實現(xiàn)文中的案例。

以上就是如何使用scikit-learn機器學習庫做預測，小編相信有部分知識點可能是我們日常工作會見到或用到的。希望你能通過這篇文章學到更多知識。更多詳情敬請關注創(chuàng)新互聯(lián)行業(yè)資訊頻道。

本文名稱：如何使用scikit-learn機器學習庫做預測
文章地址：http://muchs.cn/article14/pdjege.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián)，為您提供App設計、網(wǎng)站改版、品牌網(wǎng)站建設、定制開發(fā)、動態(tài)網(wǎng)站、外貿網(wǎng)站建設

聲明：本網(wǎng)站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場，如需處理請聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經(jīng)允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內容

如何使用scikit-learn機器學習庫做預測

一、選擇模型

二、如何使用分類模型

回歸預測

一、選擇模型

二、如何使用分類模型