使機器學習更容易采用的6種工具

2021-02-23    分類: 網(wǎng)站建設(shè)

如今,很多供應(yīng)商通過提供自動化數(shù)據(jù)準備和算法選擇的層次,可以使數(shù)據(jù)智能業(yè)務(wù)用戶采用人工智能技術(shù),從而消除了機器學習的神秘感。

“機器學習”這個術(shù)語賦予了神奇的光環(huán)。普通人通常不會采用機器學習,而數(shù)據(jù)科學家才是高度專業(yè)化的煉金術(shù)士,他們在研究部門和實驗室中將數(shù)據(jù)轉(zhuǎn)化為“黃金”,而只是簡單地說機器學習是一門科學,在此之外幾乎沒有提供解釋。

當然,這可能是一個鮮為人知的事實,但多年來機器學習工具已經(jīng)發(fā)展到這樣一個地步:幾乎任何人都可以按下按鈕,并啟動一些機器來學習有價值的東西。這并不是一件容易的事,但將數(shù)據(jù)整合并將其轉(zhuǎn)化為可操作見解的工作已經(jīng)實現(xiàn)自動化,很多具有這種動機的組織可以做到這一點。

這種緩慢的復(fù)興是由商業(yè)世界中許多非程序員已經(jīng)相當精通數(shù)據(jù)的現(xiàn)實所推動的。加載數(shù)字的電子表格是各級業(yè)務(wù)決策者的通用語言,機器學習算法也像表格中數(shù)據(jù)清晰定義的行和列一樣。機器學習的新工具基本上只是另一組策略和選項,用于將表格數(shù)據(jù)轉(zhuǎn)換為有用的答案。這些工具的優(yōu)勢在于能夠處理收集數(shù)據(jù)、添加結(jié)構(gòu),并保持一致性,然后開始繁重的計算工作。它們簡化了數(shù)據(jù)收集過程,簡化了將信息保存在行和列中的工作。

這些工具還不夠智能,無法為用戶完成所有這些學習。用戶必須提出正確的問題并找到合適的地方。但是這些工具加速了對答案的搜索,因此可以覆蓋更多的范圍,并在進行更多的搜索。

AutoML:機器學習的民主化

最近,新的流行術(shù)語“AutoML”開始出現(xiàn),表示機器學習算法附帶了一個額外的自動化元層。標準算法一直被設(shè)計用于自行查找模式和規(guī)則,但傳統(tǒng)算法帶有許多選項和參數(shù)。數(shù)據(jù)科學家經(jīng)?;ㄙM80%到99%的時間致力于找到很具預(yù)測性的規(guī)則。

AutoML通過嘗試一系列選項,測試它們?nèi)缓髧L試更多來自動化這個階段。它不是采用機器學習算法運行一次,而是運行N次,進行一些調(diào)整,再次運行N次,如此反復(fù),直到用戶的預(yù)算、時間、耐心耗盡。

AutoML工具非常適合云計算,因為它們在云中可以啟動足夠的機器并行運行,然后在完成后將它們返回池中。用戶只需在峰值計算時間支付費用。

一般來說,AutoML算法是人們開始自己探索機器學習的一個良好選擇。自動化通過處理一些設(shè)置參數(shù)和選項的基本工作來簡化工作,然后再為用戶測試結(jié)果。隨著用戶變得更加復(fù)雜,并開始理解結(jié)果,他們可以承擔更多這些工作,并自行設(shè)置價值。

新的系統(tǒng)還可以讓用戶更輕松地了解機器的學習方式。如果經(jīng)典編程將規(guī)則和數(shù)據(jù)轉(zhuǎn)化為答案,那么機器學習算法將會反向工作,并將答案和數(shù)據(jù)轉(zhuǎn)換為規(guī)則。這些規(guī)則可能會告訴用戶業(yè)務(wù)發(fā)生的事情。這些簡化工具的開發(fā)人員還創(chuàng)建了解釋算法發(fā)現(xiàn)的規(guī)則的接口,更重要的是如何復(fù)制結(jié)果。他們想打開黑盒以促進理解。

使機器學習更容易的6種工具

所有這些功能都為那些使用數(shù)字、電子表格和數(shù)據(jù)的人們開啟了機器學習的世界,消除了對編程和數(shù)據(jù)科學的巨大需求。下面的六個選項簡化了用戶使用機器學習算法在數(shù)字海洋中找到答案。

1.Splunk

Splunk的原始版本最初是作為一種工具,通過現(xiàn)代Web應(yīng)用程序創(chuàng)建的大量日志文件進行搜索或“窺探”。它已經(jīng)發(fā)展成為可以分析所有形式的數(shù)據(jù),特別是時間序列和其他按順序生成的數(shù)據(jù)。該工具將結(jié)果顯示在具有復(fù)雜可視化例程的儀表板中。

新版本包括將數(shù)據(jù)源與TensorFlow等機器學習工具和一些優(yōu)質(zhì)Python開源工具集成的應(yīng)用程序。它們提供快速解決方案,用于檢測異常值、標記異常,并生成對未來值的預(yù)測。它們經(jīng)過優(yōu)化,可以在非常大的數(shù)據(jù)集中搜索文件。

2.DataRobot

DataRobot內(nèi)部的堆棧是一些用R、Python或其他幾個平臺編寫的開源機器庫的集合。用戶將只處理一個Web界面,該界面顯示用于設(shè)置管道的類似流程圖的工具。DataRobot連接到主要數(shù)據(jù)源,其中包括本地數(shù)據(jù)庫、云數(shù)據(jù)存儲和下載的文件或電子表格。用戶構(gòu)建的管道可以清理數(shù)據(jù),填充缺失值,然后生成標記異常值,并預(yù)測未來值的模型。

DataRobot還可以嘗試提供關(guān)于為什么進行某些預(yù)測的“人性化解釋”, 這對于理解人工智能的應(yīng)用非常有用。

它可以部署在云端和內(nèi)部部署解決方案的混合體中。云計算可以通過共享資源提供大的并行性和吞吐量,而本地安裝可以提供更多的隱私和控制能力。

3.H2O

H2O喜歡用“無驅(qū)動的人工智能”來描述其探索各種機器學習解決方案的自動化堆棧。它將數(shù)據(jù)源(數(shù)據(jù)庫、Hadoop、Spark等)聯(lián)系在一起,并將它們輸入到具有廣泛參數(shù)的各種算法中。用戶可以控制用于該問題的時間和計算資源,并測試各種參數(shù)組合,直到完成預(yù)算。其結(jié)果可以通過儀表板或Jupyter筆記本進行瀏覽和審核。

H2O的核心機器學習算法以及與Spark等工具的集成是開源的,但所謂的“無驅(qū)動” 選項是銷售給企業(yè)客戶的專有包之一。

4.RapidMiner

RapidMiner生態(tài)系統(tǒng)的核心是一個用于從可視圖標創(chuàng)建數(shù)據(jù)分析的工作室。它將清理用戶的數(shù)據(jù),然后通過各種統(tǒng)計算法運行它。如果用戶想使用機器學習而不是更傳統(tǒng)的數(shù)據(jù)科學,自動模型將從多種分類算法中進行選擇,并搜索各種參數(shù),直到找到合適的匹配。該工具的目標是生成數(shù)百個模型,然后確定優(yōu)質(zhì)模型。

創(chuàng)建模型后,該工具可以部署它們,同時測試它們的成功率,并解釋模型如何做出決策??梢允褂每梢暬ぷ髁骶庉嬈鳒y試和調(diào)整對不同數(shù)據(jù)字段的敏感度。

最近的改進包括更好的文本分析、用于構(gòu)建可視化儀表板的各種圖表以及用于分析時間序列數(shù)據(jù)的更復(fù)雜算法。

5.BigML

BigML儀表板提供了數(shù)據(jù)科學的基本工具,用于識別可以構(gòu)成機器學習更復(fù)雜工作基礎(chǔ)的相關(guān)性。例如,他們的創(chuàng)新互聯(lián)絡(luò)提供了用于測試和優(yōu)化更精細的神經(jīng)網(wǎng)絡(luò)的復(fù)雜機制。可以將模型的質(zhì)量與其他算法進行比較,并使用標準化的比較框架,幫助用戶在經(jīng)典數(shù)據(jù)科學和更復(fù)雜的機器學習之間進行選擇。

BigML的儀表板在瀏覽器中運行,其分析可以在BigML云平臺中運行,也可以在服務(wù)器機房中運行。其云計算版本的價格較低,以鼓勵早期應(yīng)用,甚至還有一個免費套餐。其成本主要取決于數(shù)據(jù)集大小的限制以及可以調(diào)用的計算資源量。免費套餐將使用不超過兩個并行運行的進程分析最多16MB的數(shù)據(jù)。規(guī)模較小的付費賬戶的定價非常合理,每月賬單只需30美元,但隨著資源需求的增加,其價格會上升。

6.R Studio

對于非程序員來說,R并不是一種容易使用的語言,但它仍然是進行復(fù)雜統(tǒng)計分析的最基本工具之一,因為它深受核心數(shù)據(jù)科學家的歡迎。R Studio是一個工具,為用戶提供一組菜單和點擊選項,使其更容易與深入內(nèi)部運行的R層進行交互。

能夠處理電子表格的高級管理人員可以使用最簡單的選項來運行基本分析,甚至是一些復(fù)雜的分析。但有些部分會讓一些用戶感到困惑,但它正處于開放的邊緣,每個對其感興趣的人員都可以訪問。雖然仍然會有一些困惑,但對于想要探索前沿工具的人來說,這是值得的。

標題名稱:使機器學習更容易采用的6種工具
網(wǎng)頁網(wǎng)址:http://muchs.cn/news/102481.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)網(wǎng)站建設(shè)、虛擬主機做網(wǎng)站、企業(yè)建站、品牌網(wǎng)站制作ChatGPT

廣告

聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時需注明來源: 創(chuàng)新互聯(lián)

成都網(wǎng)站建設(shè)