Spark有哪些特點(diǎn)，Spark的生態(tài)系統(tǒng)包含哪些組件？

更新時間:2020-10-28 來源:黑馬程序員瀏覽量:

Spark在2013年加入Apache孵化器項(xiàng)目，之后獲得迅猛的發(fā)展，并于2014年正式成為Apache軟件基金會的頂級項(xiàng)目。Spark從最初研發(fā)到最終成為Apache頂級項(xiàng)目，其發(fā)展的整個過程僅用了5年時間。

　　目前，Spark生態(tài)系統(tǒng)已經(jīng)發(fā)展成為一個可應(yīng)用于大規(guī)模數(shù)據(jù)處理的統(tǒng)一分析引擎，它是基于內(nèi)存計算的大數(shù)據(jù)并行計算框架，適用于各種各樣的分布式平臺的系統(tǒng)。在Spark生態(tài)圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等組件，這些組件可以非常容易地把各種處理流程整合在一起，而這樣的整合，在實(shí)際的數(shù)據(jù)分析過程中是很有意義的。不僅如此，Spark的這種特性還大大減輕了原先需要對各種平臺分別管理的依賴負(fù)擔(dān)。下面，通過一張圖描述Spark的生態(tài)系統(tǒng)，具體如圖1所示。

　圖1 Spark生態(tài)系統(tǒng)

　　通過圖1可以看出，Spark生態(tài)系統(tǒng)主要包含Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX以及獨(dú)立調(diào)度器，下面針對上述組件進(jìn)行一一介紹。

　　Spark Core：Spark核心組件，它實(shí)現(xiàn)了Spark的基本功能，包含任務(wù)調(diào)度、內(nèi)存管理、錯誤恢復(fù)、與存儲系統(tǒng)交互等模塊。Spark Core中還包含了對彈性分布式數(shù)據(jù)集(Resilient Distributed Datasets，簡稱RDD)的API 定義，RDD是只讀的分區(qū)記錄的集合，只能基于在穩(wěn)定物理存儲中的數(shù)據(jù)集和其他已有的RDD上執(zhí)行確定性操作來創(chuàng)建。

　　Spark SQL：用來操作結(jié)構(gòu)化數(shù)據(jù)的核心組件，通過Spark SQL可以直接查詢Hive、HBase等多種外部數(shù)據(jù)源中的數(shù)據(jù)。Spark SQL的重要特點(diǎn)是能夠統(tǒng)一處理關(guān)系表和RDD。在處理結(jié)構(gòu)化數(shù)據(jù)時，開發(fā)人員無需編寫MapReduce程序，直接使用SQL命令就能完成更加復(fù)雜的數(shù)據(jù)查詢操作。

　　Spark Streaming：Spark提供的流式計算框架，支持高吞吐量、可容錯處理的實(shí)時流式數(shù)據(jù)處理，其核心原理是將流數(shù)據(jù)分解成一系列短小的批處理作業(yè)，每個短小的批處理作業(yè)都可以使用Spark Core進(jìn)行快速處理。Spark Streaming支持多種數(shù)據(jù)源，例如Kafka、Flume以及TCP套接字等數(shù)據(jù)源。

　　MLlib：Spark提供的關(guān)于機(jī)器學(xué)習(xí)功能的算法程序庫，包括分類、回歸、聚類、協(xié)同過濾算法等，還提供了模型評估、數(shù)據(jù)導(dǎo)入等額外的功能，開發(fā)人員只需了解一定的機(jī)器學(xué)習(xí)算法知識就能進(jìn)行機(jī)器學(xué)習(xí)方面的開發(fā)，降低了學(xué)習(xí)成本。

　　GraphX：Spark提供的分布式圖處理框架，擁有對圖計算和圖挖掘算法的API接口以及豐富的功能和運(yùn)算符，極大的方便了對分布式圖處理的需求，能在海量數(shù)據(jù)上運(yùn)行復(fù)雜的圖算法。

　　獨(dú)立調(diào)度器、Yarn、Mesos：Spark框架可以高效地在一個到數(shù)千個節(jié)點(diǎn)之間伸縮計算，集群管理器則主要負(fù)責(zé)各個節(jié)點(diǎn)的資源管理工作，為了實(shí)現(xiàn)這樣的要求，同時獲得最大靈活性，Spark支持在各種集群管理器(Cluster Manager)上運(yùn)行，Hadoop Yarn、Apache Mesos以及Spark自帶的獨(dú)立調(diào)度器都被稱為集群管理器。

　　Spark生態(tài)系統(tǒng)各個組件關(guān)系密切，并且可以相互調(diào)用，這樣設(shè)計具有以下顯著優(yōu)勢：

　　Spark生態(tài)系統(tǒng)包含的所有程序庫和高級組件都可以從Spark核心引擎的改進(jìn)中獲益。

　　不需要運(yùn)行多套獨(dú)立的軟件系統(tǒng)，能夠大大減少運(yùn)行整個系統(tǒng)的資源代價。

　　能夠無縫整合各個系統(tǒng)，構(gòu)建不同處理模型的應(yīng)用。

　　綜上所述，Spark框架對大數(shù)據(jù)的支持從內(nèi)存計算、實(shí)時處理到交互式查詢，進(jìn)而發(fā)展到圖計算和機(jī)器學(xué)習(xí)模塊。Spark生態(tài)系統(tǒng)廣泛的技術(shù)面，一方面挑戰(zhàn)占據(jù)大數(shù)據(jù)市場份額最大的Hadoop，另一方面又隨時準(zhǔn)備迎接后起之秀Flink、Kafka等計算框架的挑戰(zhàn)，從而使Spark在大數(shù)據(jù)領(lǐng)域更好的發(fā)展。

　　Spark計算框架在處理數(shù)據(jù)時，所有的中間數(shù)據(jù)都保存在內(nèi)存中。正是由于Spark充分利用內(nèi)存對數(shù)據(jù)進(jìn)行計算，從而減少磁盤讀寫操作，增大了框架計算效率。同時Spark還兼容HDFS、Hive，可以很好地與Hadoop系統(tǒng)融合，從而彌補(bǔ)MapReduce高延遲的性能缺點(diǎn)。所以說，Spark是一個更加快速、高效的大數(shù)據(jù)計算平臺。

　　Spark具有以下幾個顯著的特點(diǎn)：

　　1. 速度快

　　根據(jù)官方數(shù)據(jù)統(tǒng)計得出，與Hadoop相比，Spark基于內(nèi)存的運(yùn)算效率要快100倍以上，基于硬盤的運(yùn)算效率也要快10倍以上。Spark實(shí)現(xiàn)了高效的DAG執(zhí)行引擎，能夠通過內(nèi)存計算高效地處理數(shù)據(jù)流。

　　2. 易用性

　　Spark編程支持Java、Python、Scala或R語言，并且還擁有超過80種的高級算法，除此之前，Spark還支持交互式的Shell操作，開發(fā)人員可以方便的在Shell客戶端中使用Spark集群解決問題。

　　3. 通用性

　　Spark提供了統(tǒng)一的解決方案，適用于批處理、交互式查詢(Spark SQL)、實(shí)時流處理(Spark Streaming)、機(jī)器學(xué)習(xí)(Spark MLlib)和圖計算(GraphX)，它們可以在同一個應(yīng)用程序中無縫的結(jié)合使用，大大減少大數(shù)據(jù)開發(fā)和維護(hù)的人力成本和部署平臺的物力成本。

　　4. 兼容性

　　Spark可以運(yùn)行在Hadoop模式、Mesos模式、Standalone獨(dú)立模式或Cloud中，并且還可以訪問各種數(shù)據(jù)源，包括本地文件系統(tǒng)、HDFS、Cassandra、HBase和Hive等。

猜你喜歡：

實(shí)時計算Spark Streaming工作原理是什么？

黑馬程序員大數(shù)據(jù)實(shí)戰(zhàn)項(xiàng)目有什么特點(diǎn)?

什么是實(shí)時計算？常用的實(shí)計算框架有哪些？【大數(shù)據(jù)培訓(xùn)】