更新時間:2021-02-01 來源:黑馬程序員 瀏覽量:
高速發(fā)展的信息時代,新一輪科技革 命和變革正在加速推進(jìn) ,技術(shù)創(chuàng)新日益成為重塑經(jīng)濟(jì)發(fā)展模式和促進(jìn)經(jīng)濟(jì)增長的重要驅(qū)動力量,而“大數(shù)據(jù)”無疑是核心推動力。
那么,大數(shù)據(jù)是什么意思呢?如果從字面意思來看,大數(shù)據(jù)指的是巨量數(shù)據(jù)。那么可能有人會問,多大量級的數(shù)據(jù)才叫大數(shù)據(jù)?不同的機(jī)構(gòu)或?qū)W者有不同的理解,難以有一個非常定量的定義,只能說,大數(shù)據(jù)的計量單位已經(jīng)越過TB級別發(fā)展到PB、EB、ZB、YB甚至BB級別。
最早提出“大數(shù)據(jù)”這一概念的 是全球知名咨詢公司麥肯錫,它是這樣定義大數(shù)據(jù)的:一種規(guī)模大到在獲取、存儲、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型以及價值密度低四大特征。
研究機(jī)構(gòu)Gartner是這樣定義大數(shù)據(jù)的:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流轉(zhuǎn)優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。
若從技術(shù)角度來看,大數(shù)據(jù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù),而在于對這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)盈利的關(guān)鍵在于提高對數(shù)據(jù)的“加工能力”,通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。
一般認(rèn)為,大數(shù)據(jù)主要具有以下4個方面的典型特征,即大量(Volume)、多樣(Variety)、高速(Velocity)和價值(Value),即所謂的4V,接下來,通過一張圖來具休描述。
1. Volume(大量)
大數(shù)據(jù)的特征首先就是數(shù)據(jù)規(guī)模大。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、移動互聯(lián)技術(shù)的發(fā)展,人和事物的所有軌跡都可以被記錄下來,數(shù)據(jù)呈現(xiàn)出爆發(fā)性增長。數(shù)據(jù)相關(guān)計量單位的換算關(guān)系如下表所示。
單位 | 換算格式 |
Byte | 1Byte=1024bit |
KB | 1KB= 1024Byte |
MB | 1MB= 1024KB |
GB | 1GB= 1024MB |
TB | 1TB= 1024GB |
PB | 1PB= 1024TB |
EB | 1EB= 1024PB |
ZB | 1ZB= 1024EB |
2. Variety(多樣)
數(shù)據(jù)來源的廣泛性,決定了數(shù)據(jù)形式的多樣性。大數(shù)據(jù)可以分為三類,一是結(jié)構(gòu)化數(shù)據(jù),如財務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等,其特點(diǎn)是數(shù)據(jù)間因果關(guān)系強(qiáng);一是非結(jié)構(gòu)化的數(shù)據(jù),如視頻、圖片、音頻等,其特點(diǎn)是數(shù)據(jù)間沒有因果關(guān)系;三是半結(jié)構(gòu)化數(shù)據(jù),如HTML文檔、郵件、網(wǎng)頁等,其特點(diǎn)是數(shù)據(jù)間的因果關(guān)系弱。有統(tǒng)計顯示,目前結(jié)構(gòu)化數(shù)據(jù)占據(jù)整個互聯(lián)網(wǎng)數(shù)據(jù)量的75%以上,而產(chǎn)生價值的大數(shù)據(jù),往往是這些非結(jié)構(gòu)化數(shù)據(jù)。
3.Velocity(高速)
數(shù)據(jù)的增長速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。與以往的報紙、書信等傳統(tǒng)數(shù)據(jù)載體生產(chǎn)傳播方式不同,在大數(shù)據(jù)時代,大數(shù)據(jù)的交換和傳播主要是通過互聯(lián)網(wǎng)和云計算等方式實(shí)現(xiàn)的,其生產(chǎn)和傳播數(shù)據(jù)的速度是非常迅速的。另外,大數(shù)據(jù)還要求處理數(shù)據(jù)的響應(yīng)速度要快,例如,上億條數(shù)據(jù)的分析必須在幾秒內(nèi)完成。數(shù)據(jù)的輸人、處理與丟棄必須立刻見效,幾乎無延遲。
4.Value(價值)
大數(shù)據(jù)的核心特征是價值,其實(shí)價值密度的高低和數(shù)據(jù)總量的大小是成反比的,即數(shù)據(jù)價值密度越高數(shù)據(jù)總量越小,數(shù)據(jù)價值密度越低數(shù)據(jù)總量越大。任何有價值的信息的提取依托的就是海量的基礎(chǔ)數(shù)據(jù)。當(dāng)然目前大數(shù)據(jù)背景下有個未解決的問題,如何通過強(qiáng)大的機(jī)器算法更迅速地在海量數(shù)據(jù)中完成數(shù)據(jù)的價值提純。
現(xiàn)在的社會是一個高速發(fā)展的社會,科技發(fā)達(dá),信息流通,人們之間的交流也越來越密切,生活也越來越便捷,大數(shù)據(jù)就是這個高科技時代的產(chǎn)物。阿里巴巴創(chuàng)辦人馬云曾經(jīng)說過,未來的時代將不是IT時代,而是DT的時代,DT就是Data Technology,數(shù)據(jù)科技,這顯示出大數(shù)據(jù)對于阿里巴巴集團(tuán)來說是舉足輕重的。
有人把數(shù)據(jù)比喻為蘊(yùn)藏能量的煤礦。煤炭按照性質(zhì)有焦煤、無煙煤、肥煤、貧煤等分類,而露天煤礦、深山煤礦的挖掘成本又不一樣。與此類似,大數(shù)據(jù)并不在于“大”,而在于“有用”。數(shù)據(jù)的價值含量、挖掘成本比數(shù)量更為重要。對于很多行業(yè)而言,如何利用這些大規(guī)模數(shù)據(jù),發(fā)掘其潛在價值,才是贏得核心競爭力的關(guān)鍵。
研究大數(shù)據(jù),最重要的意義是預(yù)測。因?yàn)閿?shù)據(jù)從根本上講,是對過去和現(xiàn)在的歸納和總結(jié),其本身不具備趨勢和方向性的特征,但是可以應(yīng)用大數(shù)據(jù)去了解事物發(fā)展的客觀規(guī)律、了解人類行為,并且能夠幫助我們改變過去的思維方式,建立新的數(shù)據(jù)思維模型,從而對未來進(jìn)行預(yù)測和推測。比如,商業(yè)公司對消費(fèi)者日常的購買行為和使用商品習(xí)慣進(jìn)行匯總和分析,了解到消費(fèi)者的需求,從而改進(jìn)已有商品并適時推出新的商品,消費(fèi)者的購買欲就會提高。
知名互聯(lián)網(wǎng)公司谷歌對其用戶每天頻繁搜索的詞匯進(jìn)行數(shù)據(jù)挖掘,從而進(jìn)行相關(guān)的廣告推廣和商業(yè)研究。
大數(shù)據(jù)的處理技術(shù)迫在眉睫,近年來各國政府和全球?qū)W術(shù)界都掀起了一場大數(shù)據(jù)技術(shù)的革命,眾人紛紛積極研究大數(shù)據(jù)的相關(guān)技術(shù)。很多國家都把大數(shù)據(jù)技術(shù)研究上升到了國家戰(zhàn)略高度,提出了一系列的大數(shù)據(jù)技術(shù)研發(fā)計劃,從而推動政府機(jī)構(gòu)、學(xué)術(shù)界、相關(guān)行業(yè)和各類企業(yè)對大數(shù)據(jù)技術(shù)進(jìn)行探索和研究。
可以說大數(shù)據(jù)是一種寶貴的戰(zhàn)略資源,其潛在價值和增長速度正在改變著人類的工作、生活和思維方式??梢韵胂螅谖磥?,各行各業(yè)都會積極擁抱大數(shù)據(jù),積極探索數(shù)據(jù)挖掘和分析的新技術(shù)、新方法,從而更好地利用大數(shù)據(jù)。當(dāng)然,大數(shù)據(jù)并不能主宰一切。大數(shù)據(jù)雖然能夠發(fā)現(xiàn)“是什么”,卻不能說明“為什么”;大數(shù)據(jù)提供的是些描述性的信息,而創(chuàng)新還是需要人類自己來實(shí)現(xiàn)。
猜你喜歡:
大數(shù)據(jù)的兩種計算框架對比,哪個更適合開發(fā)?
大數(shù)據(jù)能干什么?淺談大數(shù)據(jù)的應(yīng)用場景