python分布函數(shù) python 概率分布

使用Python構(gòu)造經(jīng)驗(yàn)累積分布函數(shù)（ECDF）

對(duì)于一個(gè)樣本序列，經(jīng)驗(yàn)累積分布函數(shù) (Empirical Cumulative Distribution Function)可被定義為

站在用戶的角度思考問(wèn)題，與客戶深入溝通，找到玉樹(shù)網(wǎng)站設(shè)計(jì)與玉樹(shù)網(wǎng)站推廣的解決方案，憑借多年的經(jīng)驗(yàn)，讓設(shè)計(jì)與互聯(lián)網(wǎng)技術(shù)結(jié)合，創(chuàng)造個(gè)性化、用戶體驗(yàn)好的作品，建站類型包括：成都網(wǎng)站設(shè)計(jì)、成都網(wǎng)站建設(shè)、企業(yè)官網(wǎng)、英文網(wǎng)站、手機(jī)端網(wǎng)站、網(wǎng)站推廣、域名與空間、網(wǎng)站空間、企業(yè)郵箱。業(yè)務(wù)覆蓋玉樹(shù)地區(qū)。

其中是一個(gè)指示函數(shù)，如果，指示函數(shù)取值為1，否則取值為0，因此能反映在樣本中小于的元素?cái)?shù)量占比。

根據(jù)格利文科定理（Glivenko–Cantelli Theorem），如果一個(gè)樣本滿足獨(dú)立同分布(IID)，那么其經(jīng)驗(yàn)累積分布函數(shù) 會(huì)趨近于真實(shí)的累積分布函數(shù) 。

首先定義一個(gè)類，命名為ECDF：

我們采用均勻分布（Uniform）進(jìn)行驗(yàn)證，導(dǎo)入 uniform 包，然后進(jìn)行兩輪抽樣，第一輪抽取10次，第二輪抽取1000次，比較輸出的結(jié)果。

輸出結(jié)果為：

而我們知道，在真實(shí)的0到1均勻分布中，時(shí)，，從模擬結(jié)果可以看出，樣本量越大，最終的經(jīng)驗(yàn)累積分布函數(shù)值也越接近于真實(shí)的累積分布函數(shù)值，因此格利文科定理得以證明。

Python 數(shù)據(jù)可視化：數(shù)據(jù)分布統(tǒng)計(jì)圖和熱圖

本課將繼續(xù)介紹 Seaborn 中的統(tǒng)計(jì)圖。一定要牢記，Seaborn 是對(duì) Matplotlib 的高級(jí)封裝，它優(yōu)化了很多古老的做圖過(guò)程，因此才會(huì)看到一個(gè)函數(shù)解決問(wèn)題的局面。

在統(tǒng)計(jì)學(xué)中，研究數(shù)據(jù)的分布情況，也是一個(gè)重要的工作，比如某些數(shù)據(jù)是否為正態(tài)分布——某些機(jī)器學(xué)習(xí)模型很在意數(shù)據(jù)的分布情況。

在 Matplotlib 中，可以通過(guò)繪制直方圖將數(shù)據(jù)的分布情況可視化。在 Seaborn 中，也提供了繪制直方圖的函數(shù)。

輸出結(jié)果：

sns.distplot 函數(shù)即實(shí)現(xiàn)了直方圖，還順帶把曲線畫(huà)出來(lái)了——曲線其實(shí)代表了 KDE。

除了 sns.distplot 之外，在 Seaborn 中還有另外一個(gè)常用的繪制數(shù)據(jù)分布的函數(shù) sns.kdeplot，它們的使用方法類似。

首先看這樣一個(gè)示例。

輸出結(jié)果：

① 的作用是設(shè)置所得圖示的背景顏色，這樣做的目的是讓下面的 ② 繪制的圖像顯示更清晰，如果不設(shè)置 ①，在顯示的圖示中看到的就是白底圖像，有的部分看不出來(lái)。

② 最終得到的是坐標(biāo)網(wǎng)格，而且在圖中分為三部分，如下圖所示。

相對(duì)于以往的坐標(biāo)網(wǎng)格，多出了 B 和 C 兩個(gè)部分。也就是說(shuō)，不僅可以在 A 部分繪制某種統(tǒng)計(jì)圖，在 B 和 C 部分也可以繪制。

繼續(xù)操作：

輸出結(jié)果：

語(yǔ)句 ③ 實(shí)現(xiàn)了在坐標(biāo)網(wǎng)格中繪制統(tǒng)計(jì)圖的效果，jp.plot 方法以兩個(gè)繪圖函數(shù)為參數(shù)，分別在 A 部分繪制了回歸統(tǒng)計(jì)圖，在 B 和 C 部分繪制了直方圖，而且直方圖分別表示了對(duì)應(yīng)坐標(biāo)軸數(shù)據(jù)的分布，即：

我們把有語(yǔ)句 ② 和 ③ 共同實(shí)現(xiàn)的統(tǒng)計(jì)圖，稱為聯(lián)合統(tǒng)計(jì)圖。除了用 ② ③ 兩句可以繪制這種圖之外，還有一個(gè)函數(shù)也能夠“兩步并作一步”，具體如下：

輸出結(jié)果：

統(tǒng)計(jì)學(xué)入門(mén)級(jí)：常見(jiàn)概率分布+python繪制分布圖

如果隨機(jī)變量X的所有取值都可以逐個(gè)列舉出來(lái)，則稱X為離散型隨機(jī)變量。相應(yīng)的概率分布有二項(xiàng)分布，泊松分布。

如果隨機(jī)變量X的所有取值無(wú)法逐個(gè)列舉出來(lái)，而是取數(shù)軸上某一區(qū)間內(nèi)的任一點(diǎn)，則稱X為連續(xù)型隨機(jī)變量。相應(yīng)的概率分布有正態(tài)分布，均勻分布，指數(shù)分布，伽馬分布，偏態(tài)分布，卡方分布，beta分布等。(真多分布，好恐怖~~)

在離散型隨機(jī)變量X的一切可能值中，各可能值與其對(duì)應(yīng)概率的乘積之和稱為該隨機(jī)變量X的期望值，記作E(X) 。比如有隨機(jī)變量，取值依次為：2，2，2，4，5。求其平均值：(2+2+2+4+5)/5 = 3。

期望值也就是該隨機(jī)變量總體的均值。推導(dǎo)過(guò)程如下：

= (2+2+2+4+5)/5

= 1/5 2 3 + 4/5 + 5/5

= 3/5 2 + 1/5 4 + 1/5 5

= 0.6 2 + 0.2 4 + 0.2 5

= 60% 2 + 20% 4 + 20%*5

= 1.2 + 0.8 + 1

= 3

倒數(shù)第三步可以解釋為值為2的數(shù)字出現(xiàn)的概率為60%，4的概率為20%，5的概率為20%。所以E(X) = 60% 2 + 20% 4 + 20%*5 = μ = 3。

0-1分布（兩點(diǎn)分布），它的隨機(jī)變量的取值為1或0。即離散型隨機(jī)變量X的概率分布為：P{X=0} = 1-p, P{X=1} = p，即：

則稱隨機(jī)變量X服從參數(shù)為p的0-1分布，記作X~B（1，p)。

在生活中有很多例子服從兩點(diǎn)分布，比如投資是否中標(biāo)，新生嬰兒是男孩還是女孩，檢查產(chǎn)品是否合格等等。

大家非常熟悉的拋硬幣試驗(yàn)對(duì)應(yīng)的分布就是二項(xiàng)分布。拋硬幣試驗(yàn)要么出現(xiàn)正面，要么就是反面，只包含這兩個(gè)結(jié)果。出現(xiàn)正面的次數(shù)是一個(gè)隨機(jī)變量，這種隨機(jī)變量所服從的概率分布通常稱為二項(xiàng)分布。

像拋硬幣這類試驗(yàn)所具有的共同性質(zhì)總結(jié)如下：（以拋硬幣為例）

通常稱具有上述特征的n次重復(fù)獨(dú)立試驗(yàn)為n重伯努利試驗(yàn)。簡(jiǎn)稱伯努利試驗(yàn)或伯努利試驗(yàn)概型。特別地，當(dāng)試驗(yàn)次數(shù)為1時(shí)，二項(xiàng)分布服從0-1分布(兩點(diǎn)分布)。

舉個(gè)栗子：拋3次均勻的硬幣，求結(jié)果出現(xiàn)有2個(gè)正面的概率。

已知p = 0.5 (出現(xiàn)正面的概率) ，n = 3 ，k = 2

所以拋3次均勻的硬幣，求結(jié)果出現(xiàn)有2個(gè)正面的概率為3/8。

二項(xiàng)分布的期望值和方差分別為：

泊松分布是用來(lái)描述在一指定時(shí)間范圍內(nèi)或在指定的面積或體積之內(nèi)某一事件出現(xiàn)的次數(shù)的分布。生活中服從泊松分布的例子比如有每天房產(chǎn)中介接待的客戶數(shù)，某微博每月出現(xiàn)服務(wù)器癱瘓的次數(shù)等等。泊松分布的公式為：

其中 λ 為給定的時(shí)間間隔內(nèi)事件的平均數(shù)，λ = np。e為一個(gè)數(shù)學(xué)常數(shù)，一個(gè)無(wú)限不循環(huán)小數(shù)，其值約為2.71828。

泊松分布的期望值和方差分別為：

使用Python繪制泊松分布的概率分布圖：

因?yàn)檫B續(xù)型隨機(jī)變量可以取某一區(qū)間或整個(gè)實(shí)數(shù)軸上的任意一個(gè)值，所以通常用一個(gè)函數(shù)f(x)來(lái)表示連續(xù)型隨機(jī)變量，而f(x)就稱為概率密度函數(shù) 。

概率密度函數(shù)f(x)具有如下性質(zhì) ：

需要注意的是，f(x)不是一個(gè)概率，即f(x) ≠ P(X = x) 。在連續(xù)分布的情況下，隨機(jī)變量X在a與b之間的概率可以寫(xiě)成：

正態(tài)分布（或高斯分布）是連續(xù)型隨機(jī)變量的最重要也是最常見(jiàn)的分布，比如學(xué)生的考試成績(jī)就呈現(xiàn)出正態(tài)分布的特征，大部分成績(jī)集中在某個(gè)范圍（比如60-80分），很小一部分往兩端傾斜（比如50分以下和90多分以上）。還有人的身高等等。

正態(tài)分布的定義：

如果隨機(jī)變量X的概率密度為( -∞x+∞)：

則稱X服從正態(tài)分布，記作X~N(μ,σ2)。其中-∞μ+∞，σ0， μ為隨機(jī)變量X的均值，σ為隨機(jī)變量X的標(biāo)準(zhǔn)差。正態(tài)分布的分布函數(shù)

正態(tài)分布的圖形特點(diǎn) ：

使用Python繪制正態(tài)分布的概率分布圖：

正態(tài)分布有一個(gè)3σ準(zhǔn)則，即數(shù)值分布在(μ-σ,μ+σ)中的概率為0.6827，分布在（μ-2σ,μ+2σ)中的概率為0.9545，分布在(μ-3σ,μ+3σ)中的概率為0.9973，也就是說(shuō)大部分?jǐn)?shù)值是分布在(μ-3σ,μ+3σ)區(qū)間內(nèi)，超出這個(gè)范圍的可能性很小很小，僅占不到0.3%，屬于極個(gè)別的小概率事件，所以3σ準(zhǔn)則可以用來(lái)檢測(cè)異常值。

當(dāng)μ=0，σ=1時(shí)，有

此時(shí)的正態(tài)分布N(0,1) 稱為標(biāo)準(zhǔn)正態(tài)分布。因?yàn)棣?，σ都是確定的取值，所以其對(duì)應(yīng)的概率密度曲線是一條形態(tài)固定的曲線。

對(duì)標(biāo)準(zhǔn)正態(tài)分布，通常用φ(x)表示概率密度函數(shù)，用Φ(x)表示分布函數(shù)：

假設(shè)有一次物理考試特別難，滿分100分，全班只有大概20個(gè)人及格。與此同時(shí)語(yǔ)文考試很簡(jiǎn)單，全班絕大部分都考了90分以上。小明的物理和語(yǔ)文分別考了60分和80分，他回家后告訴家長(zhǎng)，這時(shí)家長(zhǎng)能僅僅從兩科科目的分值直接判斷出這次小明的語(yǔ)文成績(jī)要比物理好很多嗎？如果不能，應(yīng)該如何判斷呢？此時(shí)Z-score就派上用場(chǎng)了。 Z-Score的計(jì)算定義：

即將隨機(jī)變量X先減去總體樣本均值，再除以總體樣本標(biāo)準(zhǔn)差就得到標(biāo)準(zhǔn)分?jǐn)?shù)啦。如果X低于平均值，則Z為負(fù)數(shù)，反之為正數(shù) 。通過(guò)計(jì)算標(biāo)準(zhǔn)分?jǐn)?shù)，可以將任何一個(gè)一般的正態(tài)分布轉(zhuǎn)化為標(biāo)準(zhǔn)正態(tài)分布。

小明家長(zhǎng)從老師那得知物理的全班平均成績(jī)?yōu)?0分，標(biāo)準(zhǔn)差為10，而語(yǔ)文的平均成績(jī)?yōu)?2分，標(biāo)準(zhǔn)差為4。分別計(jì)算兩科成績(jī)的標(biāo)準(zhǔn)分?jǐn)?shù)：

物理：標(biāo)準(zhǔn)分?jǐn)?shù) = (60-40)/10 = 2

語(yǔ)文：標(biāo)準(zhǔn)分?jǐn)?shù) = (85-95)/4 = -2.5

從計(jì)算結(jié)果來(lái)看，說(shuō)明這次考試小明的物理成績(jī)?cè)谌客瑢W(xué)中算是考得很不錯(cuò)的，而語(yǔ)文考得很差。

指數(shù)分布可能容易和前面的泊松分布混淆，泊松分布強(qiáng)調(diào)的是某段時(shí)間內(nèi)隨機(jī)事件發(fā)生的次數(shù)的概率分布，而指數(shù)分布說(shuō)的是隨機(jī)事件發(fā)生的時(shí)間間隔的概率分布。比如一班地鐵進(jìn)站的間隔時(shí)間。如果隨機(jī)變量X的概率密度為：

則稱X服從指數(shù)分布，其中的參數(shù)λ0。對(duì)應(yīng)的分布函數(shù) 為：

均勻分布的期望值和方差分別為：

使用Python繪制指數(shù)分布的概率分布圖：

均勻分布有兩種，分為離散型均勻分布和連續(xù)型均勻分布。其中離散型均勻分布最常見(jiàn)的例子就是拋擲骰子啦。拋擲骰子出現(xiàn)的點(diǎn)數(shù)就是一個(gè)離散型隨機(jī)變量，點(diǎn)數(shù)可能有1，2，3，4，5，6。每個(gè)數(shù)出現(xiàn)的概率都是1/6。

設(shè)連續(xù)型隨機(jī)變量X具有概率密度函數(shù)：

則稱X服從區(qū)間(a,b)上的均勻分布。X在等長(zhǎng)度的子區(qū)間內(nèi)取值的概率相同。對(duì)應(yīng)的分布函數(shù)為：

f(x)和F(x)的圖形分別如下圖所示：

均勻分布的期望值和方差分別為：

python制作分布圖

制作分布圖類似密度圖，在python中利用pandas來(lái)提取分布數(shù)據(jù)是比較方便的。主要用到pandas的cut和groupby等函數(shù)。

官方文檔鏈接

主要參數(shù)為x和bins。

x為數(shù)據(jù)源，數(shù)組格式的都支持，list，numpy.narray, pandas.Series。

bins可以為int，也可以為序列。

我們定義bins為一個(gè)序列，默認(rèn)為左開(kāi)右閉的區(qū)間：

對(duì)言值列按cats做groupby，然后調(diào)用get_stats統(tǒng)計(jì)函數(shù)，再用unstack函數(shù)將層次化的行索引“展開(kāi)”為列。

G2在之前的文章中有介紹，文章《python結(jié)合G2繪制精美圖形》。

一句話繪制出來(lái)，但具體的區(qū)間段難以區(qū)分出來(lái)。

bokeh是python的一個(gè)優(yōu)秀的繪圖工具包，與pandas結(jié)合的比較好。 bokeh文檔

作者原文鏈接： python制作分布圖

當(dāng)前標(biāo)題：python分布函數(shù) python 概率分布
當(dāng)前地址：http://muchs.cn/article16/doespgg.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供虛擬主機(jī)、企業(yè)網(wǎng)站制作、營(yíng)銷型網(wǎng)站建設(shè)、網(wǎng)站設(shè)計(jì)、手機(jī)網(wǎng)站建設(shè)、全網(wǎng)營(yíng)銷推廣

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容