RDD( Resilient Distributed Dataset,彈性分布式數(shù)據(jù)集),是一個(gè)容錯(cuò)的、并行的數(shù)據(jù)結(jié)構(gòu),可以讓用戶顯式地將數(shù)據(jù)存儲(chǔ)到磁盤(pán)和內(nèi)存中,并且還能控制數(shù)據(jù)的分區(qū)。對(duì)于迭代式計(jì)算和交互式數(shù)據(jù)挖掘,RDD可以將中間計(jì)算的數(shù)據(jù)結(jié)果保存在內(nèi)存中,若是后面需要中間結(jié)果參與計(jì)算時(shí),則可以直接從內(nèi)存中讀取,從而可以極大地提高計(jì)算速度。查看全文>>
Scala語(yǔ)言可以在Windows、Linux、Mac OS等系統(tǒng)上編譯運(yùn)行。由于Scala是運(yùn)JVM平臺(tái)上的,所以安裝Scala之前必須配置好JDK環(huán)境(JDK版本要求不低于1.5)。查看全文>>
Scala是Scalable Language的簡(jiǎn)稱,它是一門(mén)多范式的編程語(yǔ)言,其設(shè)計(jì)初衷是實(shí)現(xiàn)種可擴(kuò)展的語(yǔ)言,并集成面向?qū)ο缶幊毯秃瘮?shù)式編程的各種特性?;谶@個(gè)目標(biāo)與設(shè)計(jì),Scala具有以下顯著的特性。查看全文>>
在Spark中,RDD是采用惰性求值,即每次調(diào)用行動(dòng)算子操作,都會(huì)從頭開(kāi)始計(jì)算。然而,每次調(diào)用行動(dòng)算子操作,都會(huì)觸發(fā)一次從頭開(kāi)始的計(jì)算,這對(duì)于迭代計(jì)算來(lái)說(shuō),代價(jià)是很大的,因?yàn)榈?jì)算經(jīng)常需要多次重復(fù)的使用同一組數(shù)據(jù)集,所以,為了避免重復(fù)計(jì)算的開(kāi)銷(xiāo),可以讓Spark對(duì)數(shù)據(jù)集進(jìn)行持久化。查看全文>>
完成虛擬機(jī)的安裝和網(wǎng)絡(luò)配置,雖然可以正常使用,但是工作中還需要遠(yuǎn)程操縱服務(wù)器進(jìn)行各項(xiàng)操作,所以就需要對(duì)虛擬機(jī)實(shí)行配置遠(yuǎn)程登錄和SSH免密登錄,進(jìn)行相關(guān)操作。接下來(lái),就分別對(duì)這兩種服務(wù)配置進(jìn)行說(shuō)明和詳細(xì)講解。查看全文>>
HBase是由Java語(yǔ)言開(kāi)發(fā)的,它對(duì)外提供了Java API的接口。接下來(lái),通過(guò)Java API來(lái)操作HBase分布式數(shù)據(jù)庫(kù),包括增、刪、改以及查等對(duì)數(shù)據(jù)表的操作,具體操作步驟如下:查看全文>>