數據挖掘機器學(xué)習總結
1 決策樹(shù)算法
機器學(xué)習中,決策樹(shù)是一個(gè)預測模型;它代表的是對象屬性值與對象值之間的一種映射關(guān)系。樹(shù)中每個(gè)節點(diǎn)表示某個(gè)對象,每個(gè)分叉路徑則代表的某個(gè)可能的屬性值,而每個(gè)葉結點(diǎn)則對應具有上述屬性值的子對象。決策樹(shù)僅有單一輸出;若需要多個(gè)輸出,可以建立獨立的決策樹(shù)以處理不同輸出。
從數據產(chǎn)生決策樹(shù)的機器學(xué)習技術(shù)叫做決策樹(shù)學(xué)習, 通俗說(shuō)就是決策樹(shù)。
決策樹(shù)學(xué)習也是數據挖掘中一個(gè)普通的方法。在這里,每個(gè)決策樹(shù)都表述了一種樹(shù)型結構,它由它的分支來(lái)對該類(lèi)型的對象依靠屬性進(jìn)行分類(lèi)。每個(gè)決策樹(shù)可以依靠對源數據庫的分割進(jìn)行數據測試。這個(gè)過(guò)程可以遞歸式的對樹(shù)進(jìn)行修剪。當不能再進(jìn)行分割或一個(gè)單獨的類(lèi)可以被應用于某一分支時(shí),遞歸過(guò)程就完成了。另外,隨機森林分類(lèi)器將許多決策樹(shù)結合起來(lái)以提升分類(lèi)的正確率。 決策樹(shù)同時(shí)也可以依靠計算條件概率來(lái)構造。決策樹(shù)如果依靠數學(xué)的計算方法可以取得更加理想的效果。
1.1 決策樹(shù)的工作原理
決策樹(shù)一般都是自上而下的來(lái)生成的。
選擇分割的方法有多種,但是目的都是一致的,即對目標類(lèi)嘗試進(jìn)行最佳的分割。
從根節點(diǎn)到葉子節點(diǎn)都有一條路徑,這條路徑就是一條“規則”。
決策樹(shù)可以是二叉的,也可以是多叉的。
對每個(gè)節點(diǎn)的衡量:
1) 通過(guò)該節點(diǎn)的記錄數;
2) 如果是葉子節點(diǎn)的話(huà),分類(lèi)的路徑;
3) 對葉子節點(diǎn)正確分類(lèi)的比例。
有些規則的效果可以比其他的一些規則要好。
1.2 ID3算法
1.2.1 概念提取算法CLS
1) 初始化參數C={E},E包括所有的例子,為根;
2) 如果C中的任一元素e同屬于同一個(gè)決策類(lèi)則創(chuàng )建一個(gè)葉子節點(diǎn)YES終止;否則依啟發(fā)式標準,選擇特征Fi={V1, V2, V3,……, Vn}并創(chuàng )建判定節點(diǎn),劃分C為互不相交的N個(gè)集合C1,C2,C3,……,Cn;
3) 對任一個(gè)Ci遞歸。
1.2.2 ID3算法
1) 隨機選擇C的一個(gè)子集W (窗口);
2) 調用CLS生成W的分類(lèi)樹(shù)DT(強調的啟發(fā)式標準在后);
3) 順序掃描C搜集DT的意外(即由DT無(wú)法確定的例子);
4) 組合W與已發(fā)現的意外,形成新的W;
5) 重復2)到4),直到無(wú)例外為止。
啟發(fā)式標準:
只跟本身與其子樹(shù)有關(guān),采取信息理論用熵來(lái)量度。
熵是選擇事件時(shí)選擇自由度的量度,其計算方法為:P=freq(Cj,S)/|S|;INFO(S)=-SUM(P*LOG(P));SUM()函數是求j從1到n的和。Gain(X)=Info(X)-Infox(X);Infox(X)=SUM( (|Ti|/|T|)*Info(X);
為保證生成的決策樹(shù)最小,ID3算法在生成子樹(shù)時(shí),選取使生成的子樹(shù)的熵(即Gain(S))最小的特征來(lái)生成子樹(shù)。
ID3算法對數據的要求:
1) 所有屬性必須為離散量;
2) 所有的訓練例的所有屬性必須有一個(gè)明確的值;
3) 相同的因素必須得到相同的結論且訓練例必須唯一。
1.3 C4.5算法
由于ID3算法在實(shí)際應用中存在一些問(wèn)題,于是Quilan提出了C4.5算法,嚴格上說(shuō)C4.5只能是ID3的一個(gè)改進(jìn)算法。
C4.5算法繼承了ID3算法的優(yōu)點(diǎn),并在以下幾方面對ID3算法進(jìn)行了改進(jìn):
1) 用信息增益率來(lái)選擇屬性,克服了用信息增益選擇屬性時(shí)偏向選擇取值多的屬性的`不足;
2) 在樹(shù)構造過(guò)程中進(jìn)行剪枝;
3) 能夠完成對連續屬性的離散化處理;
4) 能夠對不完整數據進(jìn)行處理。
C4.5算法有如下優(yōu)點(diǎn):
產(chǎn)生的分類(lèi)規則易于理解,準確率較高。
C4.5算法有如下缺點(diǎn):
在構造樹(shù)的過(guò)程中,需要對數據集進(jìn)行多次的順序掃描和排序,因而導致算法的低效。此外,C4.5只適合于能夠駐留于內存的數據集,當訓練集大得無(wú)法在內存容納時(shí)程序無(wú)法運行。
分類(lèi)決策樹(shù)算法:
C4.5算法是機器學(xué)習算法中的一種分類(lèi)決策樹(shù)算法,其核心算法是ID3算法。
分類(lèi)決策樹(shù)算法是從大量事例中進(jìn)行提取分類(lèi)規則的自上而下的決策樹(shù)。
決策樹(shù)的各部分是:
根:學(xué)習的事例集;
枝:分類(lèi)的判定條件;
葉:分好的各個(gè)類(lèi)。
1.3.1 C4.5對ID3算法的改進(jìn)
1) 熵的改進(jìn),加上了子樹(shù)的信息。
Split_Infox(X)= -SUM( (|T|/|Ti|)*LOG(|Ti|/|T|));
Gain ratio(X)= Gain(X)/Split_Infox(X);
2) 在輸入數據上的改進(jìn)
、 因素屬性的值可以是連續量,C4.5對其排序并分成不同的集合后按照ID3算法當作離散量進(jìn)行處理,但結論屬性的值必須是離散值。
、 訓練例的因素屬性值可以是不確定的,以?表示,但結論必須是確定的。
3) 對已生成的決策樹(shù)進(jìn)行裁剪,減小生成樹(shù)的規模。
2 The k-means algorithm(k平均算法)
k-means algorithm是一個(gè)聚類(lèi)算法,把n個(gè)對象根據它們的屬性分為k個(gè)分割,k < n。它與處理混合正態(tài)分布的最大期望算法很相似,因為他們都試圖找到數據中自然聚類(lèi)的中心。它假設對象屬性來(lái)自于空間向量,并且目標是使各個(gè)群組內部的均方誤差總和最小。
假設有k個(gè)群組Si, i=1,2,...,k。μi是群組Si內所有元素xj的重心,或叫中心點(diǎn)。
k平均聚類(lèi)發(fā)明于1956年,該算法最常見(jiàn)的形式是采用被稱(chēng)為勞埃德算法(Lloyd algorithm)的迭代式改進(jìn)探索法。勞埃德算法首先把輸入點(diǎn)分成k個(gè)初始化分組,可以是隨機的或者使用一些啟發(fā)式數據。然后計算每組的中心點(diǎn),根據中心點(diǎn)的位臵把對象分到離它最近的中心,重新確定分組。繼續重復不斷地計算中心并重新分組,直到收斂,即對象不再改變分組(中心點(diǎn)位臵不再改變)。
勞埃德算法和k平均通常是緊密聯(lián)系的,但是在實(shí)際應用中,勞埃德算法是解決k平均問(wèn)題的啟發(fā)式法則,對于某些起始點(diǎn)和重心的組合,勞埃德算法可能實(shí)際上收斂于錯誤的結果。(上面函數中存在的不同的最優(yōu)解)
雖然存在變異,但是勞埃德算法仍舊保持流行,因為它在實(shí)際中收斂非?。實(shí)際上,觀(guān)察發(fā)現迭代次數遠遠少于點(diǎn)的數量。然而最近,David Arthur和Sergei Vassilvitskii提出存在特定的點(diǎn)集使得k平均算法花費超多項式時(shí)間達到收斂。
近似的k平均算法已經(jīng)被設計用于原始數據子集的計算。
從算法的表現上來(lái)說(shuō),它并不保證一定得到全局最優(yōu)解,最終解的質(zhì)量很大程度上取決于初始化的分組。由于該算法的速度很快,因此常用的一種方法是多次運行k平均算法,選擇最優(yōu)解。
k平均算法的一個(gè)缺點(diǎn)是,分組的數目k是一個(gè)輸入參數,不合適的k可能返回較差的結果。另外,算法還假設均方誤差是計算群組分散度的最佳參數。
3 SVM(支持向量機)
支持向量機,英文為Support Vector Machine,簡(jiǎn)稱(chēng)SV機(論文中一般簡(jiǎn)稱(chēng)SVM)。它是一種監督式學(xué)習的方法,它廣泛的應用于統計分類(lèi)以及回歸分析中。
支持向量機屬于一般化線(xiàn)性分類(lèi)器。它們也可以被認為是提克洛夫規范化(Tikhonov Regularization)方法的一個(gè)特例。這種分類(lèi)器的特點(diǎn)是他們能夠同時(shí)最小化經(jīng)驗誤差與最大化幾何邊緣區。因此支持向量機也被稱(chēng)為最大邊緣區分類(lèi)器。
在統計計算中,最大期望(EM)算法是在概率(probabilistic)模型中尋找參數最大似然估計的算法,其中概率模型依賴(lài)于無(wú)法觀(guān)測的隱藏變量(Latent Variable)。最大期望經(jīng)常用在機器學(xué)習和計算機視覺(jué)的數據集聚(Data Clustering)領(lǐng)域。最大期望算法經(jīng)過(guò)兩個(gè)步驟交替進(jìn)行計算,第一步是計算期望(E),也就是將隱藏變量像能夠觀(guān)測到的一樣包含在內從而計算最大似然的期望值;另外一步是最大化(M),也就是最大化在 E 步上找到的最大似然的期望值從而計算參數的最大似然估計。M 步上找到的參數然后用于另外一個(gè) E 步計算,這個(gè)過(guò)程不斷交替進(jìn)行。
Vapnik等人在多年研究統計學(xué)習理論基礎上對線(xiàn)性分類(lèi)器提出了另一種設計最佳準則。其原理也從線(xiàn)性可分說(shuō)起,然后擴展到線(xiàn)性不可分的情況。甚至擴展到使用非線(xiàn)性函數中去,這種分類(lèi)器被稱(chēng)為支持向量機(Support Vector Machine,簡(jiǎn)稱(chēng)SVM)。支持向量機的提出有很深的理論背景。支持向量機方法是在近年來(lái)提出的一種新方法,但是進(jìn)展很快,已經(jīng)被廣泛應用在各個(gè)領(lǐng)域之中。
SVM的主要思想可以概括為兩點(diǎn):(1) 它是針對線(xiàn)性可分情況進(jìn)行分析,對于線(xiàn)性不可分的情況,通過(guò)使用非線(xiàn)性映射算法將低維輸入空間線(xiàn)性不可分的樣本轉化為高維特征空間使其線(xiàn)性可分,從而使得高維特征空間采用線(xiàn)性算法對樣本的非線(xiàn)性特征進(jìn)行線(xiàn)性分析成為可能;(2) 它基于結構風(fēng)險最小化理論之上在特征空間中建構最優(yōu)分割超平面,使得學(xué)習器得到全局最優(yōu)化,并且在整個(gè)樣本空間的期望風(fēng)險以某個(gè)概率滿(mǎn)足一定上界。
在學(xué)習這種方法時(shí),首先要弄清楚這種方法考慮問(wèn)題的特點(diǎn),這就要從線(xiàn)性可分的最簡(jiǎn)單情況討論起,在沒(méi)有弄懂其原理之前,不要急于學(xué)習線(xiàn)性不可分等較復雜的情況,支持向量機在設計時(shí),需要用到條件極值問(wèn)題的求解,因此需用拉格朗日乘子理論,但對多數人來(lái)說(shuō),以前學(xué)到的或常用的是約束條件為等式表示的方式,但在此要用到以不等式作為必須滿(mǎn)足的條件,此時(shí)只要了解拉格朗日理論的有關(guān)結論就行。
支持向量機將向量映射到一個(gè)更高維的空間里,在這個(gè)空間里建立有一個(gè)最大間隔超平面。在分開(kāi)數據的超平面的兩邊建有兩個(gè)互相平行的超平面。分隔超平面使兩個(gè)平行超平面的距離最大化。假定平行超平面間的距離或差距越大,分類(lèi)器的總誤差越小。一個(gè)極好的指南是C.J.C Burges的《模式識別支持向量機指南》。van der Walt 和 Barnard 將支持向量機和其他分類(lèi)器進(jìn)行了比較。
有很多個(gè)分類(lèi)器(超平面)可以把數據分開(kāi),但是只有一個(gè)能夠達到最大分割。
我們通常希望分類(lèi)的過(guò)程是一個(gè)機器學(xué)習的過(guò)程。這些數據點(diǎn)并不需要是中的點(diǎn),而可以是任意(統計學(xué)符號)中或者 (計算機科學(xué)符號) 的點(diǎn)。我們希望能夠把這些點(diǎn)通過(guò)一個(gè)n-1維的超平面分開(kāi),通常這個(gè)被稱(chēng)為線(xiàn)性分類(lèi)器。有很多分類(lèi)器都符合這個(gè)要求,但是我們還希望找到分類(lèi)最佳的平面,即使得屬于兩個(gè)不同類(lèi)的數據點(diǎn)間隔最大的那個(gè)面,該面亦稱(chēng)為最大間隔超平面。如果我們能夠找到這個(gè)面,那么這個(gè)分類(lèi)器就稱(chēng)為最大間隔分類(lèi)器。
設樣本屬于兩個(gè)類(lèi),用該樣本訓練SVM得到的最大間隔超平面。在超平面上的樣本點(diǎn)也稱(chēng)為支持向量。
【數據挖掘機器學(xué)習總結】相關(guān)文章:
挖掘買(mǎi)賣(mài)合同01-15
有關(guān)寫(xiě)大學(xué)學(xué)習總結-學(xué)習總結12-21
外出參觀(guān)學(xué)習總結3篇-學(xué)習總結12-21
大學(xué)三年學(xué)習總結-學(xué)習總結12-21
挖掘機租賃合同(15篇)01-28
學(xué)年學(xué)習總結12-21
盾構學(xué)習總結11-26
學(xué)習的總結08-18