首頁(yè)技術(shù)文章正文

什么是大數(shù)據(jù)?大數(shù)據(jù)有什么特征?

更新時(shí)間:2020-07-16 來(lái)源:黑馬程序員 瀏覽量:


什么是大數(shù)據(jù)?


高速發(fā)展的信息時(shí)代,新一輪科技革命和變革正在加速推進(jìn),技術(shù)創(chuàng)新日益成為重塑經(jīng)濟(jì)發(fā)展模式和促進(jìn)經(jīng)濟(jì)增長(zhǎng)的重要驅(qū)動(dòng)力量,而“大數(shù)據(jù)”無(wú)疑是核心推動(dòng)力。

那么,什么是“大數(shù)據(jù)”呢?如果從字面意思來(lái)看,大數(shù)據(jù)指的是巨量數(shù)據(jù)。那么可能有人會(huì)問(wèn),多大量級(jí)的數(shù)據(jù)才叫大數(shù)據(jù)?不同的機(jī)構(gòu)或?qū)W者有不同的理解,難以有一個(gè)非常定量的定義,只能說(shuō),大數(shù)據(jù)的計(jì)量單位已經(jīng)越過(guò)TB級(jí)別發(fā)展到PB、EB、ZB、YB甚至BB來(lái)衡量。

最早提出“大數(shù)據(jù)”這一概念的是全球知名咨詢公司麥肯錫,他是這樣定義大數(shù)據(jù)的:一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫(kù)軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型以及價(jià)值密度四大特征。

研究機(jī)構(gòu)Gartner是這樣定義大數(shù)據(jù)的:“大數(shù)據(jù)”是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流轉(zhuǎn)優(yōu)化能力來(lái)適應(yīng)海量、高增長(zhǎng)率和多樣化的信息資產(chǎn)。

若從技術(shù)角度來(lái)看,大數(shù)據(jù)的戰(zhàn)略意義不在于掌握龐大的數(shù)據(jù),而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理,換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)盈利的關(guān)鍵在于提高對(duì)數(shù)據(jù)的“加工能力”,通過(guò)“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”。

大數(shù)據(jù)有什么特征?

一般認(rèn)為,大數(shù)據(jù)主要具有以下四個(gè)方面的典型特征,即大量(Volume)、多樣(Varity)、高速(Velocity)和價(jià)值(Value),即所謂的“4V”,接下來(lái),通過(guò)一張圖來(lái)描述,具體圖1所示。

img

圖1  大數(shù)據(jù)4V特征

接下來(lái)針對(duì)圖1中的4V特征進(jìn)行簡(jiǎn)要介紹,具體如下:

1.Volume(大量)

大數(shù)據(jù)的特征首先就是數(shù)據(jù)規(guī)模大。隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)技術(shù)的發(fā)展,人和事物的所有軌跡都可以被記錄下來(lái),數(shù)據(jù)呈現(xiàn)出爆發(fā)性增長(zhǎng)。數(shù)據(jù)相關(guān)計(jì)量單位的換算關(guān)系如表1所示。

表1    單位換算關(guān)系

單位換算公式
Byte1 Byte = 8 bit
KB1 KB = 1024 Byte
MB1 MB = 1024 KB
GB1 GB = 1024 MB
TB1 TB = 1024 GB
PB1 PB = 1024 TB
EB1 EB = 1024 PB
ZB1 ZB = 1024 EB


2.Variety(多樣)

數(shù)據(jù)來(lái)源的廣泛性,決定了數(shù)據(jù)形式的多樣性。大數(shù)據(jù)可以分為三類,一是結(jié)構(gòu)化數(shù)據(jù),如財(cái)務(wù)系統(tǒng)數(shù)據(jù)、信息管理系統(tǒng)數(shù)據(jù)、醫(yī)療系統(tǒng)數(shù)據(jù)等,其特點(diǎn)是數(shù)據(jù)間因果關(guān)系強(qiáng);二是非結(jié)構(gòu)化的數(shù)據(jù),如視頻、圖片、音頻等,其特點(diǎn)是數(shù)據(jù)間沒(méi)有因果關(guān)系;三是半結(jié)構(gòu)化數(shù)據(jù),如HTML文檔、郵件、網(wǎng)頁(yè)等,其特點(diǎn)是數(shù)據(jù)問(wèn)的因果關(guān)系弱。有統(tǒng)計(jì)顯示,目前結(jié)構(gòu)化數(shù)據(jù)占據(jù)整個(gè)互聯(lián)網(wǎng)數(shù)據(jù)量的75%以上,而產(chǎn)生價(jià)值的大數(shù)據(jù),往往是這些非結(jié)構(gòu)化數(shù)據(jù)。

3.Velocity(高速)

數(shù)據(jù)的增長(zhǎng)速度和處理速度是大數(shù)據(jù)高速性的重要體現(xiàn)。與以往的報(bào)紙、書(shū)信等傳統(tǒng)數(shù)據(jù)載體生產(chǎn)傳播方式不同,在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)的交換和傳播主要是通過(guò)互聯(lián)網(wǎng)和云計(jì)算等方式實(shí)現(xiàn)的,其生產(chǎn)和傳播數(shù)據(jù)的速度是非常迅速的。另外,大數(shù)據(jù)還要求處理數(shù)據(jù)的響應(yīng)速度要快,例如,上億條數(shù)據(jù)的分析必須在幾秒內(nèi)完成。數(shù)據(jù)的輸入、處理與丟棄必須立刻見(jiàn)效,幾乎無(wú)延遲。

4.Value(價(jià)值)

大數(shù)據(jù)的核心特征是價(jià)值,其實(shí)價(jià)值密度的高低和數(shù)據(jù)總量的大小是成反比的,即數(shù)據(jù)價(jià)值密度越高數(shù)據(jù)總量越小,數(shù)據(jù)價(jià)值密度越低數(shù)據(jù)總量越大。任何有價(jià)值的信息的提取依托的就是海量的基礎(chǔ)數(shù)據(jù),當(dāng)然目前大數(shù)據(jù)背景下有個(gè)未解決的問(wèn)題,如何通過(guò)強(qiáng)大的機(jī)器算法更迅速的在海量數(shù)據(jù)中完成數(shù)據(jù)的價(jià)值提純。

猜你喜歡:
大數(shù)據(jù)培訓(xùn)課程

分享到:
在線咨詢 我要報(bào)名
和我們?cè)诰€交談!