有四種數(shù)據(jù)預(yù)處理技術(shù):
1、數(shù)據(jù)清理??杖敝堤幚怼⒏袷綐?biāo)準(zhǔn)化、異常數(shù)據(jù)清除、錯(cuò)誤糾正、重復(fù)數(shù)據(jù)的清除。
2、數(shù)據(jù)集成。將多個(gè)數(shù)據(jù)源中的數(shù)據(jù)結(jié)合起來并統(tǒng)一存儲(chǔ),建立數(shù)據(jù)倉庫的過程實(shí)際上就是數(shù)據(jù)集成。
3、數(shù)據(jù)變換。平滑、聚集、規(guī)范化、最小 最大規(guī)范化等。
4、數(shù)據(jù)歸約。維歸(刪除不相關(guān)的屬性(維))、數(shù)據(jù)壓縮(PCA,LDA,SVD、小波變換)、數(shù)值歸約(回歸和對數(shù)線形模型、線形回歸、對數(shù)線形模型、直方圖)。
現(xiàn)實(shí)世界中數(shù)據(jù)大體上都是不完整,不一致的臟數(shù)據(jù),無法直接進(jìn)行數(shù)據(jù)挖掘,或挖掘結(jié)果差強(qiáng)人意。為了提高數(shù)據(jù)挖掘的質(zhì)量產(chǎn)生了數(shù)據(jù)預(yù)處理技術(shù)。 數(shù)據(jù)預(yù)處理有多種方法:數(shù)據(jù)清理,數(shù)據(jù)集成,數(shù)據(jù)變換,數(shù)據(jù)歸約等。這些數(shù)據(jù)處理技術(shù)在數(shù)據(jù)挖掘之前使用,大大提高了數(shù)據(jù)挖掘模式的質(zhì)量,降低實(shí)際挖掘所需要的時(shí)間。數(shù)據(jù)清理例程通過填寫缺失的值、光滑噪聲數(shù)據(jù)、識(shí)別或刪除離群點(diǎn)并解決不一致性來“清理”數(shù)據(jù)。主要是達(dá)到如下目標(biāo):格式標(biāo)準(zhǔn)化,異常數(shù)據(jù)清除,錯(cuò)誤糾正,重復(fù)數(shù)據(jù)的清除。數(shù)據(jù)挖掘時(shí)往往數(shù)據(jù)量非常大,在少量數(shù)據(jù)上進(jìn)行挖掘分析需要很長的時(shí)間,數(shù)據(jù)歸約技術(shù)可以用來得到數(shù)據(jù)集的歸約表示,它小得多,但仍然接近于保持原數(shù)據(jù)的完整性,并結(jié)果與歸約前結(jié)果相同或幾乎相同。
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com