大數(shù)據(jù)技術可以分為數(shù)據(jù)收集、數(shù)據(jù)存取、基礎架構、數(shù)據(jù)處理、統(tǒng)計分析、數(shù)據(jù)挖掘、模型預測、結果呈現(xiàn)。以下是詳細介紹:
1、數(shù)據(jù)收集:在大數(shù)據(jù)的生命周期中,數(shù)據(jù)采集處于第一個環(huán)節(jié)。根據(jù)MapReduce產(chǎn)生數(shù)據(jù)的應用系統(tǒng)分類,大數(shù)據(jù)的采集主要有4種來源:管理信息系統(tǒng)、Web信息系統(tǒng)、物理信息系統(tǒng)、科學實驗系統(tǒng)。
2、數(shù)據(jù)存?。捍髷?shù)據(jù)的存去采用不同的技術路線,大致可以分為3類。第1類主要面對的是大規(guī)模的結構化數(shù)據(jù)。第2類主要面對的是半結構化和非結構化數(shù)據(jù)。第3類面對的是結構化和非結構化混合的大數(shù)據(jù),
3、基礎架構:云存儲、分布式文件存儲等。
4、數(shù)據(jù)處理:對于采集到的不同的數(shù)據(jù)集,可能存在不同的結構和模式,如文件、XML 樹、關系表等,表現(xiàn)為數(shù)據(jù)的異構性。對多個異構的數(shù)據(jù)集,需要做進一步集成處理或整合處理,將來自不同數(shù)據(jù)集的數(shù)據(jù)收集、整理、清洗、轉(zhuǎn)換后,生成到一個新的數(shù)據(jù)集,為后續(xù)查詢和分析處理提供統(tǒng)一的數(shù)據(jù)視圖。
5、統(tǒng)計分析:假設檢驗、顯著性檢驗、差異分析、相關分析、T檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分析、簡單回歸分析、多元回歸分析、逐步回歸、回歸預測與殘差分析、嶺回歸、logistic回歸分析、曲線估計、因子分析、聚類分析、主成分分析、因子分析、快速聚類法與聚類法、判別分析、對應分析、多元對應分析(最優(yōu)尺度分析)、bootstrap技術等等。
6、數(shù)據(jù)挖掘:目前,還需要改進已有數(shù)據(jù)挖掘和機器學習技術;開發(fā)數(shù)據(jù)網(wǎng)絡挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術;突破基于對象的數(shù)據(jù)連接、相似性連接等大數(shù)據(jù)融合技術;突破用戶興趣分析、網(wǎng)絡行為分析、情感語義分析等面向領域的大數(shù)據(jù)挖掘技術。
7、模型預測:預測模型、機器學習、建模仿真。
8、結果呈現(xiàn):云計算、標簽云、關系圖等。
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。TEL:177 7030 7066 E-MAIL:11247931@qq.com