CHAID、CART、Quest和 C5.0。 建立決策樹的過程,全自動(dòng)氮吹儀即樹的生長過程是不斷的把數(shù)據(jù)進(jìn)行分組的過程,每次分組對(duì)應(yīng)一 個(gè)問題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn)。每次分組都要 求所分 得的 組之間 的“差異”最大。各 種決 策樹 10.1 數(shù)據(jù)挖掘及其應(yīng)用 349 算法之間的主要區(qū)別就是對(duì)這個(gè)“差異”衡量方式的區(qū)別。這樣的分組過程也可稱為數(shù)據(jù)的 “純化”。比如圖10.1所示的例子,就包含兩個(gè)類別———低風(fēng)險(xiǎn)和高風(fēng)險(xiǎn)。如果經(jīng)過一次分 組后,就 使每個(gè) 組中 的數(shù)據(jù) 都屬 于同 一個(gè)類 別,則這 樣高 效的分 組方 法顯然 就是 我們 所追 求的。 當(dāng)然實(shí)際中應(yīng)用的決策樹可能不會(huì)像如 圖10.1所 示那 樣簡單。 如果利 用歷 史數(shù) 據(jù)建 立了一個(gè)包含幾百個(gè)屬性、輸出的類有十幾種的決策樹,這樣的一棵樹對(duì)人來說可能太復(fù)雜 了,但無 論它有 多復(fù) 雜,每一 條從根 節(jié)點(diǎn) 到葉子 節(jié)點(diǎn) 的路 徑所描 述的 含義仍 然是 可以 理解 的。決策樹的這種易理解性對(duì)數(shù)據(jù)挖掘的使用者來說是一個(gè)顯著的優(yōu)點(diǎn)。然而這種明確性 也可能會(huì)給人帶來誤導(dǎo)。比如,決策樹中的每個(gè) 決策 節(jié)點(diǎn) 都是非 常明 確毫不 含糊 的表 達(dá)了 一種數(shù)據(jù)分組 策 略,但 在 實(shí) 際 生 活 中 這 種 明 確 可 能 會(huì) 帶 來 一 些 麻 煩,憑 什 么 說 年 收 入
為 ¥40001 的人就具有較小的信用風(fēng)險(xiǎn),而年收入為¥40000的人就具有較大的信用風(fēng)險(xiǎn)呢? 在數(shù)據(jù)挖掘中應(yīng)用決策樹的優(yōu)點(diǎn)是需要的計(jì) 算資 源較少,而 且可 以很容 易地 處理 包含 很多預(yù)測變量的情況。在建立決策樹時(shí),為了使得到的決策樹所蘊(yùn)含的規(guī)則具有普遍意義, 必須避免對(duì)決策樹的過度訓(xùn)練,同時(shí)還要減少訓(xùn)練的時(shí)間。 決策樹很擅長處理非數(shù)值型數(shù)據(jù),這與神經(jīng)網(wǎng)絡(luò)只能處理數(shù)值型數(shù)據(jù)比起來,就免去了 很多數(shù)據(jù)預(yù)處理工作。甚至有些決策樹算法是專 門為 處理非 數(shù)值 型數(shù) 據(jù)而設(shè) 計(jì),因此 當(dāng)采 用此種方法建立決策樹同時(shí)又要處理數(shù)值型數(shù)據(jù) 時(shí),反而 要做把 數(shù)值 型數(shù)據(jù) 映射 到非 數(shù)值 型數(shù)據(jù)的預(yù)處理。 3. 回歸分析 回歸分析是通過具有已知值的變量來預(yù)測 其他 變量的 值。在 最簡單 的情 況下,回 歸采 用的是像線性回歸這樣的標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù),這 種技術(shù) 就是 最小 二乘法。 但在大 多數(shù) 現(xiàn)實(shí) 世界 中的問題是不能用簡單 的線 性 回歸 所能 預(yù)測 的。如 商品 的銷 售 量、股票 價(jià)格、產(chǎn) 品 合格 率
等,很難 找到簡 單有 效的方 法來 預(yù)測,因 為要描 述這 些事 件的變 化所 需的變 量往 往以 上百 計(jì),且這些變量本身又都是非線性的。為此人們 又發(fā) 明了 許多新 的手 段來試 圖解 決這 個(gè)問 題,如邏輯回歸、多項(xiàng)數(shù)回歸、對(duì)數(shù)回歸、泊松回歸等。 4. 遺傳算法 遺傳算法簡稱 GA(GeneticAlgorithm),在本 質(zhì)上是一種不依 賴具體問題的直 接搜索方 法。是一種基于進(jìn)化理論,并采用自然選擇、遺傳交叉(或結(jié)合)及遺傳變異等設(shè)計(jì)方法的優(yōu) 化技術(shù)。 遺傳算法把問題的解表示成“染色體”,在算法 中也 即是 以二進(jìn) 制編 碼的串。 在執(zhí) 行遺 傳算法之前,給出一群“染色體”,也即是假設(shè)解。然后,把這些假設(shè)解置于問題的“環(huán)境”中, 并按適者生存的原則,從中選擇出較適應(yīng)環(huán) 境的“染色 體”進(jìn)行 復(fù)制,再 通過交 叉、變異 過程 350 第十章 數(shù)據(jù)挖掘與Agent技術(shù) 產(chǎn)生更適應(yīng)環(huán)境的新一代“染色體”群。這樣,一代一代地進(jìn)化,最后就會(huì)收斂