更新時(shí)間:2022-11-08 來(lái)源:黑馬程序員 瀏覽量:
當(dāng)我們?nèi)粘S?a target="_self" title="Python" _>Python做數(shù)據(jù)分析的時(shí)候,會(huì)利用Python的基礎(chǔ)語(yǔ)法來(lái)實(shí)現(xiàn)我們需要的功能。除此之外,技術(shù)人員也會(huì)通過(guò)第三方庫(kù)已經(jīng)封裝的功能,更快速、高效地處理和分析數(shù)據(jù)。Python常見的數(shù)據(jù)分析庫(kù)包括Pandas、NumPy、SciPy、Statsmodels、Gensim、scikit_learn。
Pandas(Python Data Analysis Library)是一個(gè)用于Python數(shù)據(jù)分析的庫(kù),Pandas主要的作用是進(jìn)行數(shù)據(jù)分析和預(yù)處理。和R語(yǔ)言中的數(shù)據(jù)框類似,Pandas可以提供用于進(jìn)行結(jié)構(gòu)化數(shù)據(jù)分析的二維表格型數(shù)據(jù)結(jié)構(gòu),可以處理類似于數(shù)據(jù)庫(kù)中的切片、切塊、聚合、選擇子集等比較精細(xì)化的操作,來(lái)進(jìn)行數(shù)據(jù)分析。同時(shí),Pandas還可以提供時(shí)間序列的功能,這項(xiàng)功能在金融行業(yè)的數(shù)據(jù)分析中是比較常見的。
Python中用于進(jìn)行科學(xué)計(jì)算的基礎(chǔ)庫(kù)NumPy(Numeric Python),是Python用來(lái)進(jìn)行數(shù)據(jù)計(jì)算的關(guān)鍵庫(kù)之一,也是許多第三方庫(kù)的依賴庫(kù)。
SciPy(Scientific Computing Tools for Python),這是一組針對(duì)解決不同場(chǎng)景科學(xué)和工程計(jì)算的庫(kù),該庫(kù)在數(shù)學(xué)、函數(shù)等有關(guān)方面應(yīng)用的效果更為顯著,比如我們知道的求解微分方程和積分等。
Statsmodels是以Python語(yǔ)言為基礎(chǔ)的統(tǒng)計(jì)建模和計(jì)量經(jīng)濟(jì)學(xué)庫(kù),其中包含統(tǒng)計(jì)模型估計(jì)和統(tǒng)計(jì)測(cè)試、描述性統(tǒng)計(jì),集成了時(shí)間序列分析模型、非參數(shù)估計(jì)、生存分析、線性回歸模型、離散數(shù)據(jù)分布模型、主成分分析以及核密度估計(jì),兼有廣泛的統(tǒng)計(jì)測(cè)試和繪圖功能。
Gensim,業(yè)內(nèi)公認(rèn)的專業(yè)主題模型Python語(yǔ)言庫(kù),用來(lái)提供可擴(kuò)展統(tǒng)計(jì)語(yǔ)義、分析純文本語(yǔ)義結(jié)構(gòu)以及檢索語(yǔ)義上類似的文檔。同學(xué)們可以在終端命令行中使用pip install gensim命令安裝該庫(kù)。
scikit_learn(簡(jiǎn)稱sklearn),該庫(kù)是Python中用來(lái)進(jìn)行數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的主要庫(kù)之一??梢哉f(shuō)它是一個(gè)以Python語(yǔ)言為基礎(chǔ)的機(jī)器學(xué)習(xí)工具庫(kù),庫(kù)中內(nèi)置了監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)兩類機(jī)器學(xué)習(xí)方法,包括各種回歸、k近鄰、決策樹、葉貝斯、聚類、分類、流失學(xué)習(xí)、混合高斯模型、人工神經(jīng)網(wǎng)絡(luò)、集成方法等主流分析方法;同時(shí)支持預(yù)置數(shù)據(jù)集、數(shù)據(jù)預(yù)處理、模型選擇和評(píng)估等方法,是一個(gè)非常完整的機(jī)器學(xué)習(xí)工具庫(kù)。
以上這些庫(kù)除了Gensim外,均在Anaconda中默認(rèn)安裝了,在Python數(shù)據(jù)分析中,通常還會(huì)涉及到數(shù)據(jù)讀寫與預(yù)處理、可視化和與其他程序進(jìn)行交互的庫(kù),后續(xù)筆者會(huì)一一介紹。