歡迎來到魔據教育大數據學院,專注大數據工程師培養!
當前位置:首頁 > 學習資料 > 講師博文 > C4.5是什么,看大拿怎么說

C4.5是什么,看大拿怎么說

時間:2017-08-17 16:57:47作者:[!--zuozhe--]

          C4.5是機器學習算法中的另一個分類決策樹算法,它是基于ID3算法進行改進后的一種重要算法,相比于ID3算法,改進有如下幾個要點:

 
用信息增益率來選擇屬性。ID3選擇屬性用的是子樹的信息增益,這里可以用很多方法來定義信息,ID3使用的是熵(entropy, 熵是一種不純度度量準則),也就是熵的變化值,而C4.5用的是信息增益率。
在決策樹構造過程中進行剪枝,因為某些具有很少元素的結點可能會使構造的決策樹過適應(Overfitting),如果不考慮這些結點可能會更好。
對非離散數據也能處理。
能夠對不完整數據進行處理。
C4.5使用稱作增益率(gain ratio)的信息增益擴充。分裂公式如下:

1-公式1.jpg

1-公式2.jpg

GainRatio(A)代表增益率。選擇具有最大增益率的屬性作為分裂屬性。

那么下面來看信息增益存在的一個問題:假設某個屬性存在大量的不同值,如ID編號(在上面例子中加一列為ID,編號為a~n),在劃分時將每個值成為一個結點。這就會出現一些問題,我們因此引入了信息增益率的概念

信息增益率是怎么計算的呢?

是通過熵/信息增益得到的

gainratio(Attribute)=fracgain(Attribute)IntrinsicInfo(Attribute)

gainratio(IDCode)=frac0.940bits3.807bits=0.246

1-1.jpg

類別信息熵

1-2.jpg

上述數據集有四個屬性,屬性集合A={ 天氣,溫度,濕度,風速}, 類別標簽有兩個,類別集合L={進行,取消}。

計算每個屬性的信息熵

1-3.jpg

信息增益

1-4.jpg

信息增益的 = 熵 - 條件熵

信息增益率:

1-5.jpg

 1-6.jpg

1. 計算類別信息熵

1-7.jpg

2. 計算每個屬性的信息熵

 

1-8.jpg

3. 計算信息增益

1-9.jpg

4.計算屬性分裂信息度量
1-10.jpg

5. 計算信息增益率

風速屬性的信息增益率最高,所以選擇風速作為分裂結點,分裂之后,發現子結點都是純的,因此子節點均為葉子節點,分裂結束。

1-11.jpg

 


更多大數據相關資訊敬請關注魔據教育,為您分享最及時的大數據資訊。
學習大數據敬請關注魔據教育微信二維碼。
魔據教育微信二維碼

【版權與免責聲明】如發現內容存在版權問題,煩請提供相關信息發郵件至[email protected],我們將及時溝通與處理。本站內容除非來源注明魔據教育,否則均為網友轉載,涉及言論、版權與本站無關。

全國咨詢熱線:18501996998,值班手機:18501996998(7*24小時)

在線咨詢:張老師QQ 320169340

企業合作服務專線:010-82340234-821, 院校合作洽談專線:010-82340234

Copyright 2001-2019 魔據教育 - 北京華育興業科技有限公司 版權所有,京ICP備17018991號-2

免費在線咨詢立即咨詢

免費索取技術資料立即索取

大數據技術交流QQ:226594285

電話咨詢010-82340234

【看图找生肖】免费