在之前的學(xué)習(xí)中我們已經(jīng)了解了如何利用Python的matplotlib進(jìn)行數(shù)據(jù)可視化,那么你對(duì)Seaborn進(jìn)行數(shù)據(jù)可視化了解嗎?下面是小編總結(jié)的有關(guān)利用Python的Seaborn進(jìn)行數(shù)據(jù)可視化的詳細(xì)介紹;請(qǐng)參照:

一個(gè)精心設(shè)計(jì)的可視化程序有一些特別之處。顏色突出,層次很好地融合在一起,整個(gè)輪廓流動(dòng),整個(gè)程序不僅有一個(gè)很好的美學(xué)質(zhì)量,它也為我們提供了有意義的技術(shù)洞察力。

這在數(shù)據(jù)科學(xué)中*重要,因?yàn)槲覀兘?jīng)常處理大量雜亂的數(shù)據(jù)。對(duì)于數(shù)據(jù)科學(xué)家來(lái)說(shuō),具有可視化的能力是至關(guān)重要的。我們的利益相關(guān)者或客戶將更多地依賴于視覺提示,而不是復(fù)雜的機(jī)器學(xué)習(xí)模型。

有大量*的Python可視化庫(kù)可用,包括內(nèi)置的matplotlib。但Seaborn對(duì)我來(lái)說(shuō)很重要。它將美學(xué)魅力與技術(shù)洞察力無(wú)縫地結(jié)合在一起,我們很快就會(huì)看到這一點(diǎn)。

Seaborn其實(shí)是在matplotlib的基礎(chǔ)上進(jìn)行了更*的API封裝,從而使得作圖更加容易,在大多數(shù)情況下使用seaborn就能做出很具有吸引力的圖,而使用matplotlib就能制作具有更多特色的圖。應(yīng)該把Seaborn視為matplotlib的補(bǔ)充,而不是替代物。

Python

一、什么是Seaborn?

你曾經(jīng)在R中使用過ggplot2庫(kù)嗎?它是任何工具或語(yǔ)言中*的可視化包之一。Seaborn給了我同樣的感覺。

Seaborn是一個(gè)構(gòu)建在matplotlib之上的一個(gè)*完美的Python可視化庫(kù)。

它使我們能夠創(chuàng)建放大的數(shù)據(jù)視覺效果。這有助于我們理解數(shù)據(jù),通過在可視上下文中顯示數(shù)據(jù)來(lái)發(fā)現(xiàn)變量或趨勢(shì)之間的任何隱藏相關(guān)性,而這些相關(guān)性*初可能并不明顯。與Matplotlib的低級(jí)接口相比,Seaborn具有*接口。

二、為什么應(yīng)該使用Seaborn而不是matplotlib?

我一直在談?wù)揝eaborn是多么的棒,所以你可能想知道我為什么這么大驚小怪。

當(dāng)我們使用seaborn生成圖時(shí),我將以實(shí)際的方式全面地回答這個(gè)問題?,F(xiàn)在,讓我們快速討論一下seaborn為什么在matplotlib之上。

Seaborn使我們的圖表和繪圖看起來(lái)很吸引人,并支持一些常見的數(shù)據(jù)可視化需求(比如將顏色映射到變量或使用分面(faceting))。從根本上說(shuō),它使數(shù)據(jù)可視化和探索變得很容易。相信我,這在數(shù)據(jù)科學(xué)中不是一件容易的事。

在matplotlib中有幾個(gè)(很大的)限制是Seaborn已經(jīng)修復(fù)的:

Seaborn提供了大量的*接口和自定義主題,而matplotlib沒有這些接口,因?yàn)楹茈y確定哪些設(shè)置使圖表更吸引人

Matplotlib函數(shù)不能很好地處理數(shù)據(jù)流,而seaborn可以

這第二點(diǎn)在數(shù)據(jù)科學(xué)中很突出,因?yàn)槲覀兘?jīng)常使用數(shù)據(jù)模型。

三、搭建環(huán)境

seaborn庫(kù)具有四個(gè)必需的必需依賴項(xiàng):

1、NumPy (>= 1.9.3)

2、SciPy (>= 0.14.0)

3、matplotlib (>= 1.4.3)

4、Pandas (>= 0.15.2)

要安裝Seaborn并有效地使用它,首先需要安裝前面提到的依賴項(xiàng)。一旦這一步完成,我們都準(zhǔn)備安裝Seaborn和享受其迷人的繪圖。要安裝Seaborn,可以使用以下代碼

要安裝*版本的seaborn,你可以使用pip:

pip install seaborn

或者其他版本,這里不再作詳細(xì)介紹。

四、用于數(shù)據(jù)可視化的數(shù)據(jù)集

我們將主要處理兩個(gè)數(shù)據(jù)集:

人力資源分析

(https://datahack.analyticsvidhya.com/contest/wns-analytics-hackathon-2018-1/)

預(yù)測(cè)投票數(shù)

(https://datahack.analyticsvidhya.com/contest/enigma-codefest-machine-learning-1/)

之所以選擇這兩個(gè),是因?yàn)樗鼈儼鄠€(gè)變量,因此我們有很多選擇可以使用。這兩個(gè)數(shù)據(jù)集還可以模擬現(xiàn)實(shí)情況,因此你將了解數(shù)據(jù)可視化和了解業(yè)內(nèi)的數(shù)據(jù)可視化方式。

你可以在DataHack平臺(tái)上查看這個(gè)和其他高質(zhì)量的數(shù)據(jù)集。因此,請(qǐng)?jiān)诶^續(xù)之前下載上述兩個(gè)數(shù)據(jù)集。我們將一起使用它們。