現(xiàn)在各行各業(yè)每天都在產(chǎn)生大量的數(shù)據(jù),個(gè)人理解大數(shù)據(jù)時(shí)代就是信息爆炸的時(shí)代,如何從海量數(shù)據(jù)中尋找出自己有用的信息才是關(guān)鍵。
現(xiàn)在的社會(huì)是一個(gè)高速發(fā)展的社會(huì),科技發(fā)達(dá),信息流通,人們之間的交流越來(lái)越密切,生活也越來(lái)越方便,大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。下面來(lái)介紹一下什么是大數(shù)據(jù)時(shí)代以及其的理解。
大數(shù)據(jù)的定義
大數(shù)據(jù)指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合。通過(guò)大量的統(tǒng)計(jì)了解大家的喜好,想要的東西,從而得到他們想要的,比如精準(zhǔn)營(yíng)銷(xiāo),征信分析,消費(fèi)分析等等
大數(shù)據(jù)(Big data)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢(qián)。大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
大數(shù)據(jù)呈現(xiàn)出“4V+1C”的特點(diǎn):(1)Variety,大數(shù)據(jù)種類(lèi)繁多,在編碼方式、數(shù)據(jù)格式、應(yīng)用特征等多個(gè)方面存在差異性,多信息源并發(fā)形成大量的異構(gòu)數(shù)據(jù);(2)Volume,通過(guò)各種設(shè)備產(chǎn)生的海量數(shù)據(jù),其數(shù)據(jù)規(guī)模極為龐大,遠(yuǎn)大于目前互聯(lián)網(wǎng)上的信息
大數(shù)據(jù)的特點(diǎn)
例子:比如,阿里每天都在收集每一個(gè)淘寶用戶的各個(gè)方面的信息參考(千人千面)。然后再用大數(shù)據(jù)算法來(lái)推薦給你現(xiàn)在需要的產(chǎn)品,或者廣告,這個(gè)就是大數(shù)據(jù)。我說(shuō)的是最淺顯的一種大數(shù)據(jù)。 大數(shù)據(jù)就沒(méi)有隱私,手機(jī)里的APP都回收集你的一切的數(shù)據(jù)
數(shù)據(jù)量大、數(shù)據(jù)種類(lèi)多、 要求實(shí)時(shí)性強(qiáng)、數(shù)據(jù)所蘊(yùn)藏的價(jià)值大。在各行各業(yè)均存在大數(shù)據(jù),但是眾多的信息和咨詢是紛繁復(fù)雜的,需要搜索、處理、分析、歸納、總結(jié)其深層次的規(guī)律。
現(xiàn)在各行各業(yè)每天都在產(chǎn)生大量的數(shù)據(jù),個(gè)人理解大數(shù)據(jù)時(shí)代就是信息爆炸的時(shí)代,如何從海量數(shù)據(jù)中尋找出自己有用的信息才是關(guān)鍵。
大數(shù)據(jù)時(shí)代的影響
大數(shù)據(jù)概念就是指大數(shù)據(jù),指無(wú)法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。 大數(shù)據(jù)時(shí)代是IT行業(yè)術(shù)語(yǔ)。最早提出“大
越來(lái)越多的政府、企業(yè)等機(jī)構(gòu)開(kāi)始意識(shí)到數(shù)據(jù)正在成為組織最重要的資產(chǎn),數(shù)據(jù)分析能力正在成為組織的核心競(jìng)爭(zhēng)力。如2012年3月22日,奧巴馬政府宣布投資2億美元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國(guó)家意志。聯(lián)合國(guó)也在2012年發(fā)布了大數(shù)據(jù)政務(wù),指出大數(shù)據(jù)對(duì)于聯(lián)合國(guó)和各國(guó)政府來(lái)說(shuō)是一個(gè)歷史性的機(jī)遇,人們?nèi)缃窨梢允褂脴O為豐富的數(shù)據(jù)資源,來(lái)對(duì)社會(huì)經(jīng)濟(jì)進(jìn)行前所未有的實(shí)時(shí)分析,幫助政府更好地響應(yīng)社會(huì)和經(jīng)濟(jì)運(yùn)行。
大數(shù)據(jù)時(shí)代: 最早提出大數(shù)據(jù)時(shí)代到來(lái)的是全球知名咨詢公司麥肯錫, 大數(shù)據(jù)在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時(shí)日,卻因?yàn)榻陙?lái)互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。 大數(shù)據(jù)提出的背景: 進(jìn)入2012年,
大數(shù)據(jù)的意義和前景
大數(shù)據(jù)可以簡(jiǎn)單理解為: "大數(shù)據(jù)"是一個(gè)體量特別大,數(shù)據(jù)類(lèi)別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓娶管理和處理。簡(jiǎn)單的說(shuō)就是超級(jí)存儲(chǔ),海量數(shù)據(jù)上傳到云平臺(tái)后,大數(shù)據(jù)就會(huì)對(duì)數(shù)據(jù)進(jìn)行深入分析和挖掘。 進(jìn)一步
大數(shù)據(jù)是對(duì)大量、動(dòng)態(tài)、能持續(xù)的數(shù)據(jù),通過(guò)運(yùn)用新系統(tǒng)、新工具、新模型的挖掘,從而獲得具有洞察力和新價(jià)值的東西。以前,面對(duì)龐大的數(shù)據(jù),我們可能會(huì)一葉障目、可見(jiàn)一斑,因此不能了解到事物的真正本質(zhì),從而在科學(xué)工作中得到錯(cuò)誤的推斷,而大數(shù)據(jù)時(shí)代的來(lái)臨,一切將會(huì)展現(xiàn)在大家面前。
大數(shù)據(jù)雖好,但有人擔(dān)心隱私泄露、社會(huì)變得不真實(shí),甚至擔(dān)心智商呈現(xiàn)下降的趨勢(shì)。對(duì)此,維克托認(rèn)為,需通過(guò)社會(huì)監(jiān)管,通過(guò)安全的工具和措施來(lái)確保大數(shù)據(jù)的未來(lái)更明亮。
擴(kuò)展閱讀,以下內(nèi)容您可能還感興趣。
現(xiàn)在是大數(shù)據(jù)時(shí)代,什么叫大數(shù)據(jù)
大數(shù)據(jù)是由消費(fèi)者的生活,消費(fèi)習(xí)慣,消費(fèi)能力,愛(ài)好,職業(yè)、年齡、婚姻、什么時(shí)候在做做什么,喜歡去哪里,等,無(wú)數(shù)的人的信息構(gòu)成,這些數(shù)據(jù)對(duì)于個(gè)人沒(méi)啥用,但是對(duì)企業(yè),對(duì)政府就有用了,比如說(shuō):你是一家企業(yè),你現(xiàn)在想要開(kāi)發(fā)一款產(chǎn)品,想要通過(guò)這款產(chǎn)品盈利,但是問(wèn)題來(lái)了,第一這款產(chǎn)品是不是消費(fèi)者所喜歡的,第二,哪些消費(fèi)者能買(mǎi)得起愿意買(mǎi),第三,你的利潤(rùn)有多少,根據(jù)大數(shù)據(jù)可以分析出,不同消費(fèi)人群的購(gòu)買(mǎi)能力,為不同人數(shù)開(kāi)發(fā)出其所能消費(fèi)得起的產(chǎn)品,通過(guò)大數(shù)據(jù)也可以分析出來(lái),這類(lèi)產(chǎn)品在市場(chǎng)上的接受程度,消費(fèi)者更喜歡產(chǎn)品有哪些功能,哪些功能最實(shí)用,等等,記錄下消費(fèi)者的信息越多,越能深度的分析出用戶的需求從而可以根據(jù)用戶的需求定制產(chǎn)品功能價(jià)格等,這些數(shù)據(jù)就是大數(shù)據(jù),在過(guò)去要開(kāi)發(fā)一款產(chǎn)品,企業(yè)會(huì)到市場(chǎng)上做調(diào)研,調(diào)研所獲得的信息就是數(shù)據(jù),企業(yè)通過(guò)這些數(shù)據(jù)樣本,制定產(chǎn)品功能價(jià)格等,那這些數(shù)據(jù)在哪里呢?通常會(huì)被互聯(lián)網(wǎng)公司及各種手機(jī)應(yīng)用收集,只要你使用了他們的網(wǎng)站和手機(jī)應(yīng)用,你在網(wǎng)站和手機(jī)應(yīng)用上產(chǎn)生的消費(fèi),分享,評(píng)價(jià)等等各種行為都會(huì)被記錄下來(lái),當(dāng)然你不用擔(dān)心,這些數(shù)據(jù)不會(huì)對(duì)你構(gòu)成危險(xiǎn),你只是在為大數(shù)據(jù)添磚添瓦,這個(gè)數(shù)據(jù)也只有大型些互聯(lián)網(wǎng)公司擁有,自從產(chǎn)生了文字就產(chǎn)生了數(shù)據(jù),歷史文獻(xiàn)所記錄的文字信息圖片等內(nèi)容也是數(shù)據(jù),數(shù)據(jù)只是網(wǎng)絡(luò)用語(yǔ)(因?yàn)閷⑽淖中畔D片等存儲(chǔ)到計(jì)算e799bee5baa6e78988e69d8331333365646362機(jī)中,這些信息在計(jì)算機(jī)中就被稱(chēng)為數(shù)據(jù)),在沒(méi)有互聯(lián)網(wǎng)時(shí)他也是存在的,并非是互聯(lián)網(wǎng)時(shí)代的產(chǎn)物,“大"就是形容很多,所以當(dāng)這些信息達(dá)到數(shù)以萬(wàn)計(jì)時(shí)就被稱(chēng)為大數(shù)據(jù),以上只是個(gè)人的理解,希望對(duì)你有用,打字很辛苦,請(qǐng)點(diǎn)贊給于支持!謝謝!
大數(shù)據(jù)時(shí)代是什么意思?大數(shù)據(jù)是在什么背景下提出的?
大數(shù)據(jù)時(shí)代:
最早提出大數(shù)據(jù)時(shí)代到來(lái)的是全球知名咨詢公司麥肯錫, 大數(shù)據(jù)在物理學(xué)、生物學(xué)、環(huán)境生態(tài)學(xué)等領(lǐng)域以及軍事、金融、通訊等行業(yè)存在已有時(shí)日,卻因?yàn)榻陙?lái)互聯(lián)網(wǎng)和信息行業(yè)的發(fā)展而引起人們關(guān)注。
大數(shù)據(jù)提出的背景:
進(jìn)入2012年,大數(shù)據(jù)(big data)一詞越來(lái)越多地被提及,人們用它來(lái)描述和定義信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。
它已經(jīng)上過(guò)《紐約時(shí)報(bào)》《華爾街日?qǐng)?bào)》的專(zhuān)欄封面,進(jìn)入美國(guó)白宮官網(wǎng)的新聞,現(xiàn)身在國(guó)內(nèi)一些互聯(lián)網(wǎng)主題的講座沙龍中,甚至被嗅覺(jué)靈敏的國(guó)金證券、國(guó)泰君安、銀河證券等寫(xiě)進(jìn)了投資推薦報(bào)告。
數(shù)據(jù)正在迅速膨脹并變大,它決定著企業(yè)的未來(lái)發(fā)展,雖然很多企業(yè)可能并沒(méi)有意識(shí)到數(shù)據(jù)爆炸性增長(zhǎng)帶來(lái)問(wèn)題的隱患,但是隨著時(shí)間的推移,人們將越來(lái)越多的意識(shí)到數(shù)據(jù)對(duì)企業(yè)的重要性。
正如《紐約時(shí)報(bào)》2012年2月的一篇專(zhuān)欄中所稱(chēng),“大數(shù)據(jù)”時(shí)代已經(jīng)降臨,在商業(yè)、經(jīng)濟(jì)及其他領(lǐng)域中,決策將日益基于數(shù)據(jù)和分析而作出,而并非基于經(jīng)驗(yàn)和直覺(jué)。
哈佛大學(xué)社會(huì)學(xué)教授加里·金說(shuō):“這是一場(chǎng)*,龐大的數(shù)據(jù)資源使得各個(gè)領(lǐng)域開(kāi)始了量化進(jìn)程,無(wú)論學(xué)術(shù)界、商界還是政府,所有領(lǐng)域都將開(kāi)始這種進(jìn)程。”
擴(kuò)展資料
大數(shù)據(jù)影響
現(xiàn)在的社會(huì)是一個(gè)高速發(fā)展的社會(huì),科技發(fā)達(dá),信息流通,人們之間的交流越來(lái)越密切,生活也越來(lái)越方便,大數(shù)據(jù)就是這個(gè)高科技時(shí)代的產(chǎn)物。
隨著云時(shí)代的來(lái)臨,大數(shù)據(jù)(Big data)也吸引了越來(lái)越多的關(guān)注。大數(shù)據(jù)(Big data)通常用來(lái)形容一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢(qián)。
大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。
在現(xiàn)今的社會(huì),大數(shù)據(jù)的應(yīng)用越來(lái)越彰顯他的優(yōu)勢(shì),它占領(lǐng)的領(lǐng)域也越來(lái)越大,電子商務(wù)、O2O、物流配送等,各種利用大數(shù)據(jù)進(jìn)行發(fā)展的領(lǐng)域正在協(xié)助企業(yè)不斷地發(fā)展新業(yè)務(wù),創(chuàng)新運(yùn)營(yíng)模式。
有了大數(shù)據(jù)這個(gè)概念,對(duì)于消費(fèi)者行為的判斷,產(chǎn)品銷(xiāo)售量的預(yù)測(cè),精確的營(yíng)銷(xiāo)范圍以及存貨的補(bǔ)給已經(jīng)得到全面的改善與優(yōu)化。
“大數(shù)據(jù)”在互聯(lián)網(wǎng)行業(yè)指的是這樣一種現(xiàn)象:互聯(lián)網(wǎng)公司在日常運(yùn)營(yíng)中生成、累積的用戶網(wǎng)絡(luò)行為數(shù)據(jù)。這些數(shù)據(jù)的規(guī)模是如此龐大,以至于不能用G或T來(lái)衡量。
大數(shù)據(jù)到底有多大?一組名為“互聯(lián)網(wǎng)上一天”的數(shù)據(jù)告訴我們e68a84e799bee5baa6e79fa5e9819331333431356663,一天之中,互聯(lián)網(wǎng)產(chǎn)生的全部?jī)?nèi)容可以刻滿1.68億張DVD;發(fā)出的郵件有2940億封之多(相當(dāng)于美國(guó)兩年的紙質(zhì)信件數(shù)量)。
發(fā)出的社區(qū)帖子達(dá)200萬(wàn)個(gè)(相當(dāng)于《時(shí)代》雜志770年的文字量);賣(mài)出的手機(jī)為37.8萬(wàn)臺(tái),高于全球每天出生的嬰兒數(shù)量37.1萬(wàn)……
截止到2012年,數(shù)據(jù)量已經(jīng)從TB(1024GB=1TB)級(jí)別躍升到PB(1024TB=1PB)
EB(1024PB=1EB)乃至ZB(1024EB=1ZB)級(jí)別。國(guó)際數(shù)據(jù)公司(IDC)的研究結(jié)果表明,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB,2009年的數(shù)據(jù)量為0.8ZB,2010年增長(zhǎng)為1.2ZB,2011年的數(shù)量更是高達(dá)1.82ZB,相當(dāng)于全球每人產(chǎn)生200GB以上的數(shù)據(jù)。
而到2012年為止,人類(lèi)生產(chǎn)的所有印刷材料的數(shù)據(jù)量是200PB,全人類(lèi)歷史上說(shuō)過(guò)的所有話的數(shù)據(jù)量大約是5EB。IBM的研究稱(chēng),整個(gè)人類(lèi)文明所獲得的全部數(shù)據(jù)中,有90%是過(guò)去兩年內(nèi)產(chǎn)生的。而到了2020年,全世界所產(chǎn)生的數(shù)據(jù)規(guī)模將達(dá)到今天的44倍。
每一天,全世界會(huì)上傳超過(guò)5億張圖片,每分鐘就有20小時(shí)時(shí)長(zhǎng)的視頻被分享。然而,即使是人們每天創(chuàng)造的全部信息——包括語(yǔ)音通話、電子郵件和信息在內(nèi)的各種通信,以及上傳的全部圖片、視頻與音樂(lè),其信息量也無(wú)法匹及每一天所創(chuàng)造出的關(guān)于人們自身的數(shù)字信息量。
這樣的趨勢(shì)會(huì)持續(xù)下去。我們現(xiàn)在還處于所謂“物聯(lián)網(wǎng)”的最初級(jí)階段,而隨著技術(shù)成熟,我們的設(shè)備、交通工具和迅速發(fā)展的“可穿戴”科技將能互相連接與溝通。
科技的進(jìn)步已經(jīng)使創(chuàng)造、捕捉和管理信息的成本降至2005年的六分之一,而從2005年起,用在硬件、軟件、人才及服務(wù)之上的商業(yè)投資也增長(zhǎng)了整整50%,達(dá)到了4000億美元。
大數(shù)據(jù)的精髓
大數(shù)據(jù)帶給我們的三個(gè)顛覆性觀念轉(zhuǎn)變:是全部數(shù)據(jù),而不是隨機(jī)采樣;是大體方向,而不是精確制導(dǎo);是相關(guān)關(guān)系,而不是因果關(guān)系。
A.不是隨機(jī)樣本,而是全體數(shù)據(jù):在大數(shù)據(jù)時(shí)代,我們可以分析更多的數(shù)據(jù),有時(shí)候甚至可以處理和某個(gè)特別現(xiàn)象相關(guān)的所有數(shù)據(jù),而不再依賴于隨機(jī)采樣(隨機(jī)采樣,以前我們通常把這看成是理所應(yīng)當(dāng)?shù)?,但高性能的數(shù)字技術(shù)讓我們意識(shí)到,這其實(shí)是一種人為*);
B.不是精確性,而是混雜性:研究數(shù)據(jù)如此之多,以至于我們不再熱衷于追求精確度;之前需要分析的數(shù)據(jù)很少,所以我們必須盡可能精確地量化我們的記錄,隨著規(guī)模的擴(kuò)大,對(duì)精確度的癡迷將減弱;擁有了大數(shù)據(jù),我們不再需要對(duì)一個(gè)現(xiàn)象刨根問(wèn)底,只要掌握了大體的發(fā)展方向即可。
適當(dāng)忽略微觀層面上的精確度,會(huì)讓我們?cè)诤暧^層面擁有更好的洞察力;
C.不是因果關(guān)系,而是相關(guān)關(guān)系:我們不再熱衷于找因果關(guān)系,尋找因果關(guān)系是人類(lèi)長(zhǎng)久以來(lái)的習(xí)慣,在大數(shù)據(jù)時(shí)代,我們無(wú)須再緊盯事物之間的因果關(guān)系,而應(yīng)該尋找事物之間的相關(guān)關(guān)系;相關(guān)關(guān)系也許不能準(zhǔn)確地告訴我們某件事情為何會(huì)發(fā)生,但是它會(huì)提醒我們這件事情正在發(fā)生。
參考資料來(lái)源:百度百科-大數(shù)據(jù)時(shí)代
現(xiàn)在總說(shuō)大數(shù)據(jù)時(shí)代,到底是什么意思,指的是什么。對(duì)我們的生活會(huì)有多大影響,詳解
大數(shù)copy據(jù)可以簡(jiǎn)單理解為:
"大數(shù)據(jù)"是一個(gè)體量特別大,數(shù)據(jù)類(lèi)別特別大的數(shù)據(jù)集,并且這樣的數(shù)據(jù)集無(wú)法用傳統(tǒng)數(shù)據(jù)庫(kù)工具對(duì)其內(nèi)容進(jìn)行抓取、管理和處理。簡(jiǎn)單的說(shuō)就是超級(jí)存儲(chǔ),海量數(shù)據(jù)上傳到云平臺(tái)后,大數(shù)據(jù)就會(huì)對(duì)數(shù)據(jù)進(jìn)行深入分析和挖掘。
進(jìn)一步簡(jiǎn)單的說(shuō),大數(shù)據(jù)基本要具備以下三點(diǎn):
1)有海量的數(shù)據(jù);
2)有對(duì)海量數(shù)據(jù)zhidao進(jìn)行挖掘的需求;
3)有對(duì)海量數(shù)據(jù)進(jìn)行挖掘的技術(shù)和工具(比如常見(jiàn)的有hadoop、spark等)。
用這些數(shù)據(jù)做:數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)可視化
大數(shù)據(jù)的應(yīng)用對(duì)象可以簡(jiǎn)單的分為給人類(lèi)提供輔助服務(wù),以及為智能體提供決策服務(wù)。
大數(shù)據(jù)不僅包括企業(yè)內(nèi)部應(yīng)用系統(tǒng)的數(shù)據(jù)分析,還包括與行業(yè)、產(chǎn)業(yè)的深度融合。具體場(chǎng)景包括:互聯(lián)網(wǎng)行業(yè)、政府行業(yè)、金融行業(yè)、傳統(tǒng)企業(yè)中的地產(chǎn)、醫(yī)療、能源、制造、電信行業(yè)等等。通俗地講“大數(shù)據(jù)就像互聯(lián)網(wǎng)+,可以應(yīng)用在各行各業(yè)",如電信、金融、教育、醫(yī)療、軍事、電子商務(wù)甚至政府決策等。
如何看待大數(shù)據(jù)時(shí)代的到來(lái)
大數(shù)據(jù)雖好,但有人擔(dān)心隱私泄露、社會(huì)變得不真實(shí),甚至擔(dān)心智商呈現(xiàn)下降的趨勢(shì)。對(duì)此,維克托認(rèn)為,需通過(guò)社會(huì)監(jiān)管,通過(guò)安全的工具和措施來(lái)確保大數(shù)據(jù)的未來(lái)更明亮。
大數(shù)據(jù)時(shí)代和傳統(tǒng)數(shù)據(jù)有什么區(qū)別
說(shuō)到數(shù)據(jù)分析,其實(shí)隨著大數(shù)據(jù)這幾年的發(fā)展,數(shù)據(jù)被認(rèn)為是物理與信息融合中的關(guān)鍵技術(shù),以及核心引擎。各行各業(yè)都在馬不停蹄、轟轟烈烈地邁入了大數(shù)據(jù)時(shí)代。傳統(tǒng)行業(yè)與互聯(lián)網(wǎng)行業(yè)的界限開(kāi)始發(fā)展交集和互補(bǔ)、滲透,傳統(tǒng)的制造業(yè)再也不是悶頭生產(chǎn)+再銷(xiāo)售的模式,而是更多地聆聽(tīng)市場(chǎng)的聲音,市場(chǎng)需要什么,消費(fèi)終端就會(huì)相對(duì)應(yīng)的給予其更多的多樣化、個(gè)性化。
目前來(lái)看,兩者的主要區(qū)別還處在以下幾點(diǎn):
一: 結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)
傳統(tǒng)行業(yè)更多的是結(jié)構(gòu)化數(shù)據(jù), 即行數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫(kù)里,可以用二維表結(jié)構(gòu)來(lái)邏輯表達(dá)實(shí)現(xiàn)的數(shù)據(jù),像以應(yīng)用oracle、Sql Server等數(shù)據(jù)庫(kù)的制造型企業(yè)的ERP系統(tǒng)。而互聯(lián)網(wǎng)行業(yè)更多的是非結(jié)構(gòu)化數(shù)據(jù),就是不能以二維形態(tài)描述的,例如所有格式的辦公文檔、文本、圖片、XML、HTML、各類(lèi)報(bào)表、圖像和音頻/視頻信息等等,像是醫(yī)療影像系統(tǒng)、教育視頻點(diǎn)播、視頻監(jiān)控、國(guó)土GIS、設(shè)計(jì)院、文件服務(wù)器(PDM/FTP)、媒體資源管理等具體應(yīng)用。
二:數(shù)據(jù)的體量
互聯(lián)網(wǎng)行業(yè)海量的數(shù)據(jù),由于互聯(lián)網(wǎng)行業(yè)的特點(diǎn),每時(shí)每刻都會(huì)產(chǎn)生海量的數(shù)據(jù),它的數(shù)據(jù)往往是PB級(jí)的,1個(gè)PB有多大呢?它相當(dāng)于2的50次方個(gè)字節(jié)。如果你對(duì)此沒(méi)有概念,那么簡(jiǎn)單來(lái)說(shuō),《史記》約有52萬(wàn)多漢字,1個(gè)PB能夠存儲(chǔ)至少10億部《史記》,以百度、騰訊、阿里為代表的企業(yè)。傳統(tǒng)的一個(gè)生產(chǎn)制造工廠三個(gè)月制造的數(shù)據(jù)也不到100G。這是天大的一個(gè)差別。
三:看待數(shù)據(jù)的方式及數(shù)據(jù)分析目的不同
互聯(lián)網(wǎng)行業(yè)會(huì)對(duì)這些海量的數(shù)據(jù)做數(shù)據(jù)分析,挖掘,無(wú)論是過(guò)去的數(shù)據(jù)還是即時(shí)的數(shù)據(jù),數(shù)據(jù)不再是靜止和陳舊的,任何被遺忘在服務(wù)器中的數(shù)據(jù),都可能被重新利用,從而發(fā)現(xiàn)其中與我們、與行為、與現(xiàn)象的相關(guān)性,比如每逢“雙十一”,“剁手黨”都面臨痛苦的抉擇:打折的商品實(shí)在太多,買(mǎi)什么才好呢?最終一不小心,信用卡刷爆,買(mǎi)了一大堆自己不需要的商品,只得含淚吃半年的“康師傅”…
谷歌公司每天都會(huì)收到來(lái)自全球超過(guò)30億條的搜索指令,經(jīng)過(guò)多年數(shù)據(jù)的累計(jì),谷歌公司建立了“咳嗽”,“發(fā)熱”等搜索關(guān)鍵字與流感地區(qū)的聯(lián)系,于是在2009年谷歌成功地在美國(guó)預(yù)測(cè)了冬季流感的傳播,并且精確到地區(qū)和州等等。而傳統(tǒng)行業(yè)則不會(huì)過(guò)多去關(guān)注過(guò)去的數(shù)據(jù),一般月底會(huì)盤(pán)點(diǎn),出一些財(cái)務(wù)的數(shù)據(jù)分析報(bào)表,歷史的數(shù)據(jù)會(huì)存放于備份庫(kù)里,有問(wèn)題才會(huì)去查找。
四:數(shù)據(jù)查找的效率及安全性
互聯(lián)網(wǎng)行業(yè)往往存儲(chǔ)著用戶的個(gè)人行為信息,他要求保證絕對(duì)的安全或者準(zhǔn)確性,比如12306,每到年底,面臨數(shù)億人遷徙的購(gòu)票壓力,在臨近春節(jié)購(gòu)票高峰峰值的時(shí)候,它的要求絕對(duì)是用戶打開(kāi)網(wǎng)頁(yè)的速度可以慢一點(diǎn)沒(méi)關(guān)系,但是要保證用戶購(gòu)票信息的絕對(duì)安全。如果用戶付款購(gòu)買(mǎi)了一張高鐵動(dòng)車(chē)票,你那邊沒(méi)收到錢(qián)款,那面對(duì)著上億人的購(gòu)票錢(qián)款,這個(gè)絕對(duì)是要出大問(wèn)題的。
而傳統(tǒng)行業(yè)沒(méi)有那么大的數(shù)據(jù)量和訪問(wèn)量,往往解決好并發(fā),死鎖等等問(wèn)題,保證系統(tǒng)的高可靠性和穩(wěn)定性,偶爾也會(huì)發(fā)生丟失一條采購(gòu)記錄或者生產(chǎn)記錄的問(wèn)題,由于一般用戶都會(huì)除了系統(tǒng)錄入以外,還會(huì)紙質(zhì)的記錄,那么這個(gè)也是可以被容忍的
五:大數(shù)據(jù)技7a686964616fe59b9ee7ad9431333431373264術(shù)快速獲取有價(jià)值的信息
基于以上互聯(lián)網(wǎng)行業(yè)的特點(diǎn),當(dāng)數(shù)據(jù)量不斷增大時(shí),也隨之帶來(lái)了一系列的問(wèn)題。
比如假設(shè)解決某一問(wèn)題有算法A 和算法B。在小量數(shù)據(jù)中運(yùn)行時(shí),算法A的結(jié)果明顯優(yōu)于算法B。也就是說(shuō),就算法本身而言,算法A能夠帶來(lái)更好的結(jié)果;然而,人們發(fā)現(xiàn),當(dāng)數(shù)據(jù)量不斷增大時(shí),算法B在大量數(shù)據(jù)中運(yùn)行的結(jié)果優(yōu)于算法A在小量數(shù)據(jù)中運(yùn)行的結(jié)果。這一發(fā)現(xiàn)給計(jì)算機(jī)學(xué)科及計(jì)算機(jī)衍生學(xué)科都帶來(lái)了里程碑式的啟示:當(dāng)數(shù)據(jù)越來(lái)越大時(shí),數(shù)據(jù)本身(而不是研究數(shù)據(jù)所使用的算法和模型)保證了數(shù)據(jù)分析結(jié)果的有效性。即便缺乏精準(zhǔn)的算法,只要擁有足夠多的數(shù)據(jù),也能得到接近事實(shí)的結(jié)論。
由于能夠處理多種數(shù)據(jù)結(jié)構(gòu),大數(shù)據(jù)能夠在最大程度上利用互聯(lián)網(wǎng)上記錄的人類(lèi)行為數(shù)據(jù)進(jìn)行分析。大數(shù)據(jù)出現(xiàn)之前,計(jì)算機(jī)所能夠處理的數(shù)據(jù)都需要前期進(jìn)行結(jié)構(gòu)化處理,并記錄在相應(yīng)的數(shù)據(jù)庫(kù)中。但大數(shù)據(jù)技術(shù)對(duì)于數(shù)據(jù)結(jié)構(gòu)的要求大大降低,互聯(lián)網(wǎng)上人們留下的社交信息、地理位置信息、行為習(xí)慣信息、偏好信息等各種維度的信息都可以實(shí)時(shí)處理,立體完整地勾勒出每一個(gè)個(gè)體的各種特征。
一個(gè)公司創(chuàng)造的大量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)在下載到關(guān)系型數(shù)據(jù)庫(kù)用于分析時(shí)會(huì)花費(fèi)過(guò)多時(shí)間和金錢(qián),大數(shù)據(jù)分析常和云計(jì)算聯(lián)系到一起,因?yàn)閷?shí)時(shí)的大型數(shù)據(jù)集分析需要像MapReduce一樣的框架來(lái)向數(shù)十、數(shù)百或甚至數(shù)千的電腦分配工作。簡(jiǎn)言之,從各種各樣類(lèi)型的數(shù)據(jù)中,快速獲得有價(jià)值信息的能力,就是大數(shù)據(jù)技術(shù)。簡(jiǎn)單來(lái)說(shuō),大數(shù)據(jù)需要Hadoop=HDFS(文件系統(tǒng),數(shù)據(jù)存儲(chǔ)技術(shù)相關(guān))+HBase(數(shù)據(jù)庫(kù))+MapReduce(數(shù)據(jù)處理)+……Others這樣的分布式存儲(chǔ),分布式處理大數(shù)據(jù)架構(gòu),而不僅僅是傳統(tǒng)的磁盤(pán)陣列數(shù)據(jù)存儲(chǔ)處理方式。
互聯(lián)網(wǎng)極大地改變了人們的生活,大量、高速、多變的信息每天都圍繞在人們身邊,我們需要更好的處理方式,去應(yīng)對(duì)這種隨時(shí)隨地的變化。大數(shù)據(jù)技術(shù)將深遠(yuǎn)地改變互聯(lián)網(wǎng)世界,改變整個(gè)生產(chǎn)生活的方式。隨著技術(shù)的發(fā)展,大數(shù)據(jù)分析正在變得越來(lái)越容易,成本也越來(lái)越低,而且相比以前能更容易加速對(duì)業(yè)務(wù)的理解,越來(lái)越多的人開(kāi)始進(jìn)入大數(shù)據(jù)與數(shù)據(jù)分析行列,準(zhǔn)備在這里干出自己的一番事業(yè)。
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。TEL:0731-84117792 E-MAIL:11247931@qq.com