更新時間:2017-08-31 來源:黑馬程序員云計算大數(shù)據(jù)培訓學院 瀏覽量:
為了確保你組織的大數(shù)據(jù)計劃保持正軌,你需要消除以下10種常見的誤解。
1. 大數(shù)據(jù)就是“很多數(shù)據(jù)”
大數(shù)據(jù)從其核心來講,它描述了結構化或非結構化數(shù)據(jù)如何結合社交媒體分析,物聯(lián)網的數(shù)據(jù)和其他外部來源,來講述一個”更大的故事”。該故事可能是一個組織運營的宏觀描述,或者是無法用傳統(tǒng)的分析方法捕獲的大局觀。從情報收集的角度來看,其所涉及的數(shù)據(jù)的大小是微不足道的。
2. 大數(shù)據(jù)必須非常干凈
在商業(yè)分析的世界里,沒有“太快”之類的東西。相反,在IT世界里,沒有“進垃圾出金子”這樣的東西,你的數(shù)據(jù)有多干凈?一種方法是運行你的分析應用程序,它可以識別數(shù)據(jù)集中的弱點。一旦這些弱點得到解決,再次運行分析以突出 “清理過的” 區(qū)域。
3. 所有人類分析人員會被機器算法取代
數(shù)據(jù)科學家的建議并不總是被前線的業(yè)務經理們執(zhí)行。行業(yè)高管Arijit Sengupta在TechRepublic 的一篇文章中指出,這些建議往往比科學項目更難實施。然而,過分依賴機器學習算法也同樣具有挑戰(zhàn)性。Sengupta說,機器算法告訴你該怎么做,但它們沒有解釋你為什么要這么做。這使得很難將數(shù)據(jù)分析與公司戰(zhàn)略規(guī)劃的其余部分結合起來。
預測算法的范圍從相對簡單的線性算法到更復雜的基于樹的算法,最后是極其復雜的神經網絡。
來源:dataiku,dataconomy。
4. 數(shù)據(jù)湖是必不可少的
據(jù)豐田研究所數(shù)據(jù)科學家Jim Adler說,對于巨量存儲庫,一些IT經理們設想用它來存儲大量結構化和非結構化數(shù)據(jù),根本就不存在。企業(yè)機構不會不加區(qū)分地將所有數(shù)據(jù)存放到一個共享池中。Adler說,這些數(shù)據(jù)是 “精心規(guī)劃”的,存儲于獨立的部門數(shù)據(jù)庫中,鼓勵”專注的專業(yè)知識”。這是實現(xiàn)合規(guī)和其他治理要求所需的透明度和問責制的唯一途徑。