2021-03-02 分類: 網(wǎng)站建設(shè)
數(shù)據(jù)科學(xué)有一個(gè)很大的優(yōu)點(diǎn)是,數(shù)據(jù)科學(xué)家使用的許多先進(jìn)的工具都是免費(fèi)的。事實(shí)上,業(yè)內(nèi)免費(fèi)工具的數(shù)量已經(jīng)非常之大,有時(shí)甚至?xí)屓祟^疼,不知該如何選擇。為了幫助大家確定自己該選擇哪些工具,這里列出了用于數(shù)據(jù)處理的五個(gè)值得了解的免費(fèi)軟件工具。
Photo by rawpixel.com from Pexels
Anaconda Distribution
Python之所以成為數(shù)據(jù)科學(xué)領(lǐng)域的一個(gè)偉大工具,是因?yàn)橛写罅块_發(fā)人員構(gòu)建了基于Python的數(shù)據(jù)科學(xué)庫(kù)。對(duì)于使用Python完成工作的數(shù)據(jù)科學(xué)家來說,諸如NumPy、SciPy、panda、scikit-learn等庫(kù)是必不可少的。不幸的是,即使對(duì)于經(jīng)驗(yàn)最豐富的開發(fā)者來說,處理所有這些Python庫(kù)也是一個(gè)挑戰(zhàn)。它們可能很難安裝,而且許多都依賴于Python之外的某個(gè)軟件。
Anaconda是一個(gè)免費(fèi)的Python發(fā)行版和包管理器,它解決了這個(gè)問題。Anaconda Python發(fā)行版預(yù)先安裝了超過200個(gè)最流行的數(shù)據(jù)科學(xué)Python庫(kù),并且它的包管理器提供了一種簡(jiǎn)單的方式來安裝超過2000個(gè)額外的包,且無需擔(dān)心軟件依賴關(guān)系。Anaconda還附帶許多其他流行的工具,包括Jupyter Notebook——它使數(shù)據(jù)科學(xué)家能夠在基于瀏覽器的環(huán)境中交互工作。
RStudio & RStudio Server
RStudio是一個(gè)集成開發(fā)環(huán)境(IDE),是為在R語言中執(zhí)行交互式數(shù)據(jù)分析和更正式的編程而定制的。RStudio為交互式工作環(huán)境提供了一個(gè)好的平衡,它支持R控制臺(tái)和數(shù)據(jù)可視化面板,以及功能齊全的文本編輯器,該文本編輯器可以實(shí)現(xiàn)語法高亮顯示和代碼補(bǔ)全。
一個(gè)不太為人所知的工具是RStudio Server,它是RStudio IDE的一個(gè)功能完整的版本,運(yùn)行在服務(wù)器上,可以通過瀏覽器訪問。這意味著您可以通過網(wǎng)絡(luò)連接從任何地方訪問RStudio IDE,并將計(jì)算轉(zhuǎn)移到專用資源上。這使得數(shù)據(jù)科學(xué)家可以處理潛在的敏感數(shù)據(jù),而不必將其下載到個(gè)人設(shè)備上,也可以在任何設(shè)備上用R執(zhí)行復(fù)雜且計(jì)算量大的工作。
OpenRefine
OpenRefine最初由谷歌的工程師開發(fā),是一種用于數(shù)據(jù)清理的開源工具。它允許從業(yè)者讀取混亂或損壞的數(shù)據(jù),執(zhí)行批量轉(zhuǎn)換以修復(fù)錯(cuò)誤,并生成干凈的數(shù)據(jù),并以一系列有用的格式導(dǎo)出結(jié)果。
OpenRefine的好特性之一是,它能夠跟蹤在數(shù)據(jù)集上執(zhí)行的每個(gè)操作,使步驟跟蹤和工作流的重新創(chuàng)建變得非常容易。當(dāng)您有許多文件都具有相同的數(shù)據(jù)完整性問題,并且需要相同的轉(zhuǎn)換時(shí),這尤其有用。OpenRefine允許導(dǎo)出對(duì)第一個(gè)數(shù)據(jù)文件所做的更改序列,并將其應(yīng)用于第二個(gè)數(shù)據(jù)文件,從而節(jié)省重復(fù)工作的時(shí)間并降低人為操作出現(xiàn)錯(cuò)誤的可能性。
OpenRefine還提供了非常強(qiáng)大的工具來處理凌亂的文本字段。例如,如果數(shù)據(jù)集中有一列的條目是“Vancouver, BC”。、“VANCOUVER BC”和“vancouver b.c.”, OpenRefine的文本聚類工具就會(huì)識(shí)別出它們可能是相同的,并執(zhí)行批量轉(zhuǎn)換,以便對(duì)每個(gè)事件應(yīng)用單個(gè)標(biāo)簽。
Apache Airflow
在大多數(shù)組織中,數(shù)據(jù)并不是存留在一個(gè)地方,也不是只使用一種方法訪問的。通常有多個(gè)數(shù)據(jù)庫(kù)、數(shù)據(jù)存儲(chǔ)系統(tǒng)、API和其他進(jìn)程,來跟蹤整個(gè)組織中的數(shù)據(jù)。數(shù)據(jù)團(tuán)隊(duì)的主要工作是將數(shù)據(jù)從存留的位置移動(dòng)到需要進(jìn)行分析的位置,并根據(jù)需要進(jìn)行轉(zhuǎn)換。理想情況下,這項(xiàng)工作應(yīng)該盡可能自動(dòng)化,Apache Airflow可以完成此事。
Airflow是Airbnb的工程師為內(nèi)部使用開發(fā)的,2015年開源。它是一個(gè)映射、自動(dòng)化和調(diào)度復(fù)雜工作流的工具,這些工作流涉及了許多具有相互依賴關(guān)系的不同系統(tǒng)。它可以監(jiān)控這些流程是否成功,并在出現(xiàn)問題時(shí)提醒工程師。Airflow還有一個(gè)基于Web的用戶界面,它將工作流表示為一個(gè)小作業(yè)網(wǎng)絡(luò),這樣依賴關(guān)系就可以很容易地實(shí)現(xiàn)可視化。
H2O
隨著機(jī)器學(xué)習(xí)技術(shù)的成熟,一些基本算法得到了廣泛的應(yīng)用。廣義線性模型、基于樹的模型和神經(jīng)網(wǎng)絡(luò)都已成為機(jī)器學(xué)習(xí)工具包中的基本元素。然而,盡管R和Python中那些算法的許多實(shí)現(xiàn)對(duì)于原型設(shè)計(jì)和概念驗(yàn)證非常有用,但它們并不能很好地?cái)U(kuò)展到生產(chǎn)環(huán)境中。
H2O是一個(gè)開源工具,它提供了最流行的統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法的高效和可擴(kuò)展實(shí)現(xiàn)。它可以連接到許多不同類型的數(shù)據(jù)存儲(chǔ)系統(tǒng),可以在包括從筆記本電腦到大型計(jì)算集群的任何設(shè)備上運(yùn)行。它擁有強(qiáng)大和靈活的工具,來構(gòu)建模型原型并進(jìn)行微調(diào),而且在H2O中構(gòu)建的模型非常易于部署到生產(chǎn)環(huán)境中。最重要的是,H2O有Python和R的API,因此數(shù)據(jù)科學(xué)家可以無縫地將其與現(xiàn)有環(huán)境集成。
目前數(shù)據(jù)科學(xué)領(lǐng)域的軟件工具數(shù)不勝數(shù),在項(xiàng)目啟動(dòng)時(shí),選擇足夠優(yōu)秀的免費(fèi)工具來加速和優(yōu)化數(shù)據(jù)流程是一個(gè)不錯(cuò)的選擇。
網(wǎng)站標(biāo)題:5個(gè)免費(fèi)工具,讓數(shù)據(jù)科學(xué)更加簡(jiǎn)單
當(dāng)前URL:http://muchs.cn/news27/103827.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供全網(wǎng)營(yíng)銷推廣、外貿(mào)建站、網(wǎng)頁設(shè)計(jì)公司、軟件開發(fā)、服務(wù)器托管、網(wǎng)站建設(shè)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來源: 創(chuàng)新互聯(lián)
猜你還喜歡下面的內(nèi)容