從另一個視角看待邏輯回歸-創(chuàng)新互聯(lián)

摘要

邏輯回歸是用在分類問題中,而分類為題有存在兩個比較大的方向:分類的結果用數(shù)值表是,比如1和0(邏輯回歸采用的是這種),或者-1和1(svm采用的),還有一種是以概率的形式來反應,通過概率來說明此樣本要一個類的程度即概率。同時分類問題通過適用的場合可以分為:離散和連續(xù),其中決策樹分類,貝葉斯分類都是適用離散場景,但是連續(xù)場景也可以處理,只是處理起來比較麻煩,而邏輯回歸就是用在連續(xù)特征空間中的,并把特征空間中的超平面的求解轉化為概率進行求解,然后通過概率的形式來找給出分類信息,最后設置一個閾值來進行分類。

從策劃到設計制作,每一步都追求做到細膩,制作可持續(xù)發(fā)展的企業(yè)網站。為客戶提供網站設計、成都做網站、網站策劃、網頁設計、空間域名、虛擬空間、網絡營銷、VI設計、 網站改版、漏洞修補等服務。為客戶提供更好的一站式互聯(lián)網解決方案,以客戶的口碑塑造優(yōu)易品牌,攜手廣大客戶,共同發(fā)展進步。

邏輯回歸

問題描述

首先我們要明白,我們要解決的問題:給你一批數(shù)據,這一批數(shù)據特征都是連續(xù)的,并且我還知道這批數(shù)據的分類信息(x,y),x為特征,y為類別,取值為:0或者1。我們想干什么,想通過這批數(shù)據,然后再

給一個新的數(shù)據x,這個數(shù)據只存在特征,不存在類別,我們想給出分類的結果,是0還是1。下面為了方便,我們以二維空間的點為例進行說明。

解決策略

遇到這個問題時,我們首先做的是把數(shù)據的特征放到空間中,看有沒有什么好的特點。如下,從網上取的圖。

從另一個視角看待邏輯回歸

這些是二維空間的點,我們想在空間中找到一個超平面,在二維空間中超平面的為一條直線f(x),當我們帶入數(shù)據時:

從另一個視角看待邏輯回歸

得到這樣的結果。其中從另一個視角看待邏輯回歸

就是我們所要求的的直線。那么找這個直線怎么找,在機器學習中,我們要找的是一個學習模型,然后通過損失函數(shù)來進行模型參數(shù)的求解。那么對于邏輯回歸,求邏輯回歸的參數(shù)就是w和b,那么這個損失函數(shù)應該怎么設置。給一條數(shù)據,我們希望,他距離這個直線越遠我們越可以認為能夠很好的進行分類,即屬于這個類的可信度就越高。那么我們就需要有一個函數(shù)來反應這個情況啊,古人也很聰明啊,使用了logistics函數(shù):

從另一個視角看待邏輯回歸

而且這個函數(shù)又非常的好,f(x)來衡量數(shù)據距離超平面的距離二維中是直線,他被成為函數(shù)間隔,f(x)是有正負的,上圖中,在直線上面的點發(fā)f(x)是負的,相反位于其下的點事正的。這個為什么?是解析幾何的最基本的一些性質了。

從另一個視角看待邏輯回歸

是直線,而不在這個直線上的點f(x)是帶入后,其實是不等于0的,但是有規(guī)律,則就可以通過這個規(guī)律來進行劃分分類。以上面的圖為討論對象,位于上方的點是負的,為與下方的點是正的,那么當f(x)為正,越來越大,則說明點在直線的下方越來越靠下,那么他分為一個類的可能性是不是越大啊,相反,在上方的時候,f(x)是負的,越來越遠的時候,是不是越靠近另一個類啊。那么logistics函數(shù)不就是反應了這個現(xiàn)象嗎?我們類別設置成0或者1,當f(x)正向大時為1,f(x)負向大時為0,多好。下面給一下logistics的圖像(網上盜圖):從另一個視角看待邏輯回歸

這個函數(shù)是不是可以反應出我們所說的情況。其中f(x)就是我們logistics函數(shù)的x軸的值。y可以是一個程度,h越大,則說明其分為正類1的可能性越大,h越小,則說明分為負類0可能性越大。那么在數(shù)學中可能性的度量是什么?概率啊,logistics函數(shù)的大小剛好是[0,1]之間的,多好啊。那么我們以前的求直線問題就轉化為求如下的函數(shù):

從另一個視角看待邏輯回歸

把以前的問題就轉化為求概率的問題

從另一個視角看待邏輯回歸

為什么把y放上面,我認為這只是數(shù)學上的一種表示形式,給一個特征樣本,要么屬于0類的,要么屬于1類的,在不知道的情況下這樣表示和最后知道類別得到的概率是一樣的嘛。變化后的logistics函數(shù)其中的參數(shù)也只是包含w和b,那么我們求解超平面轉化為了求解h函數(shù),在概率問題中,求解最優(yōu)化的損失函數(shù)是誰?這又涉及到另外一個問題,我的數(shù)學模型已經有了,數(shù)學模型中包含一些參數(shù),我需要進行抽樣,得到這個問題的一些樣本,理由這些樣本來對參數(shù)進行估計,對參數(shù)估計時需要一個損失函數(shù)。概率問題最優(yōu)化的損失函數(shù)一般用的是大似然函數(shù),也就是通過大似然估計進行計算。這樣大家又會問,大似然估計大化的是什么?只有知道大化的是什么的時候,我們才能構造出似然函數(shù)啊。剛才我們說了進行參數(shù)估計時,我們需要一個樣本,那么大似然函數(shù)大化的是這個樣本出現(xiàn)的概率大,從而來求解參數(shù)??赡苡悬c抽象,在樣本空間中,樣本空間的數(shù)據很大,我們想得到含有n個對象的樣本,這樣含有n個的樣本是不是有很多很多,不同的人得到的樣本數(shù)據也不一樣,那么在我們已經得到了這n個樣本的情況下,我們進行參數(shù)估計,大似然估計大化的是我們已經得到的樣本在整個樣本空間中出現(xiàn)的概率大,從而來求解參數(shù)。

大似然估計

通過上面的討論,我們很容易構造出我們的似然函數(shù):

從另一個視角看待邏輯回歸

這就很簡單了,把上面的似然函數(shù)對數(shù)化,即:

從另一個視角看待邏輯回歸

一般有數(shù)學基礎的人都會知道我們這個下面就是求導唄,現(xiàn)在的x和y都是已知的只有w是未知的,我們要求的是找到w是我們抽到這個樣本的概率大。但是有一個問題,這樣平白無故的求的w不一定是我們這個樣本中最優(yōu)的啊,不是讓我們在整個樣本空間中進行求導,而是我們有一個樣本,在這n個樣本中找到我們最想要那個的w,這個用什么啊,這種搜索算法最常用的就是梯度下降啊,沿著梯度的負方向來找我們想要的點。

從另一個視角看待邏輯回歸

從另一個視角看待邏輯回歸

1、圖中的i表示的是第i個記錄,j表示的一個記錄中的第j個特征分量

2、上面的推導中1→ 2為什么有求和,而后又不存在了啊,這個是和梯度下降法有關系的,梯度下降法就是在當前點下找到一個梯度大的點作為下一個可以使用的,所有在1到2中,去掉了求和號

3、2→ 3的推導是根據logistics函數(shù)的性質得到的。

從另一個視角看待邏輯回歸

如果這還是不懂,那沒有辦法了。

另外有需要云服務器可以了解下創(chuàng)新互聯(lián)scvps.cn,海內外云服務器15元起步,三天無理由+7*72小時售后在線,公司持有idc許可證,提供“云服務器、裸金屬服務器、高防服務器、香港服務器、美國服務器、虛擬主機、免備案服務器”等云主機租用服務以及企業(yè)上云的綜合解決方案,具有“安全穩(wěn)定、簡單易用、服務可用性高、性價比高”等特點與優(yōu)勢,專為企業(yè)上云打造定制,能夠滿足用戶豐富、多元化的應用場景需求。

文章標題:從另一個視角看待邏輯回歸-創(chuàng)新互聯(lián)
文章轉載:http://www.muchs.cn/article20/djhhco.html

成都網站建設公司_創(chuàng)新互聯(lián),為您提供軟件開發(fā)、微信小程序、網頁設計公司、網站設計網站建設、微信公眾號

廣告

聲明:本網站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

成都app開發(fā)公司