數(shù)據(jù)科學(xué)家易犯的十大編碼錯(cuò)誤，你中招了嗎？

2021-02-05 分類：網(wǎng)站建設(shè)

數(shù)據(jù)科學(xué)家比軟件工程師擅長(zhǎng)統(tǒng)計(jì)，又比統(tǒng)計(jì)學(xué)家擅長(zhǎng)軟件工程。聽(tīng)起來(lái)牛逼轟轟，事實(shí)卻是，許多數(shù)據(jù)科學(xué)家有統(tǒng)計(jì)學(xué)背景，卻沒(méi)有什么軟件工程方面的經(jīng)驗(yàn)，因此在編碼時(shí)容易犯一些簡(jiǎn)單的錯(cuò)誤。作為一名高級(jí)數(shù)據(jù)科學(xué)家，本文作者總結(jié)了他在工作中常見(jiàn)數(shù)據(jù)科學(xué)家犯的十大錯(cuò)誤。

數(shù)據(jù)科學(xué)

我是一名高級(jí)數(shù)據(jù)科學(xué)家，在 Stackoverflow 的 python 編碼中排前 1%，而且還與眾多(初級(jí))數(shù)據(jù)科學(xué)家一起工作。下文列出了我常見(jiàn)到的 10 個(gè)錯(cuò)誤。

1. 沒(méi)有共享代碼中引用的數(shù)據(jù)

數(shù)據(jù)科學(xué)需要代碼和數(shù)據(jù)。所以為了讓其他人能夠復(fù)現(xiàn)自己做出來(lái)的結(jié)果，你需要提供代碼中涉及的數(shù)據(jù)。這看起來(lái)很簡(jiǎn)單，但許多人會(huì)忘記共享代碼中需要的數(shù)據(jù)。

import?pandas?as?pd?
df1?=?pd.read_csv('file-i-dont-have.csv')?#?fails?
do_stuff(df)?

解決方案：用 d6tpipe 共享代碼中的數(shù)據(jù)文件，或者將數(shù)據(jù)文件上傳到 S3/網(wǎng)頁(yè)/Google 云等，還可以將數(shù)據(jù)文件保存到數(shù)據(jù)庫(kù)中，以便收件人檢索文件(但不要將數(shù)據(jù)添加到 git 中，這一點(diǎn)后面的內(nèi)容會(huì)講到)。

2. 硬編碼其他人無(wú)法訪問(wèn)的路徑

和錯(cuò)誤 1 類似，如果硬編碼其他人無(wú)法訪問(wèn)的路徑，他們就沒(méi)法運(yùn)行你的代碼，而且在很多地方都必須要手動(dòng)修改路徑。Booo!

import?pandas?as?pd?
df?=?pd.read_csv('/path/i-dont/have/data.csv')?#?fails?
do_stuff(df)?
#?or??
impor?os?
os.chdir('c:\\Users\\yourname\\desktop\\python')?#?fails?

解決方案：使用相對(duì)路徑、全局路徑配置變量或 d6tpipe，這樣其他人就可以輕易訪問(wèn)你的數(shù)據(jù)了。

3. 將數(shù)據(jù)和代碼混在一起

既然數(shù)據(jù)科學(xué)代碼需要數(shù)據(jù)，為什么不將代碼和數(shù)據(jù)存儲(chǔ)在同一個(gè)目錄中呢?但你運(yùn)行代碼時(shí)，這個(gè)目錄中還會(huì)存儲(chǔ)圖像、報(bào)告以及其他垃圾文件。亂成一團(tuán)!

├──?data.csv?
├──?ingest.py?
├──?other-data.csv?
├──?output.png?
├──?report.html?
└──?run.py?

解決方案：對(duì)目錄進(jìn)行分類，比如數(shù)據(jù)、報(bào)告、代碼等。參閱 Cookiecutter Data Science 或 d6tflow 項(xiàng)目模板，并用問(wèn)題 1 中提到的工具存儲(chǔ)以及共享數(shù)據(jù)。

Cookiecutter Data Science：https://drivendata.github.io/cookiecutter-data-science/#directory-structure
d6tflow 項(xiàng)目模板：https://github.com/d6t/d6tflow-template

4. 用 Git 提交數(shù)據(jù)

大多數(shù)人現(xiàn)在都會(huì)版本控制他們的代碼(如果你沒(méi)有這么做那就是另一個(gè)問(wèn)題了!)。在共享數(shù)據(jù)時(shí)，可能很容易將數(shù)據(jù)文件添加到版本控制中。對(duì)一些小文件來(lái)說(shuō)這沒(méi)什么問(wèn)題。但 git 無(wú)法優(yōu)化數(shù)據(jù)，尤其是對(duì)大型文件而言。

git?add?data.csv?

解決方案：使用問(wèn)題 1 中提到的工具來(lái)存儲(chǔ)和共享數(shù)據(jù)。如果你真的需要對(duì)數(shù)據(jù)進(jìn)行版本控制，請(qǐng)參閱 d6tpipe、DVC 和 Git Large File Storage。

DVC：https://dvc.org/
Git Large File Storage：https://git-lfs.github.com/

5. 寫函數(shù)而不是 DAG

數(shù)據(jù)已經(jīng)討論得夠多了，接下來(lái)我們談?wù)剬?shí)際的代碼。你在學(xué)編程時(shí)，首先學(xué)的就是函數(shù)，數(shù)據(jù)科學(xué)代碼主要由一系列線性運(yùn)行的函數(shù)組成。這會(huì)引發(fā)一些問(wèn)題，詳情請(qǐng)參閱「4 Reasons Why Your Machine Learning Code is Probably Bad?！?/p>

地址：

https://towardsdatascience.com/4-reasons-why-your-machine-learning-code-is-probably-bad-c291752e4953

def?process_data(data,?parameter):?
????data?=?do_stuff(data)?
????data.to_pickle('data.pkl')?
data?=?pd.read_csv('data.csv')?
process_data(data)?
df_train?=?pd.read_pickle(df_train)?
model?=?sklearn.svm.SVC()?
model.fit(df_train.iloc[:,:-1],?df_train['y'])?

解決方案：與其用線性鏈接函數(shù)，不如寫一組有依賴關(guān)系的任務(wù)?？梢杂?d6tflow 或者 airflow。

6. 寫 for 循環(huán)

和函數(shù)一樣，for 循環(huán)也是你在學(xué)代碼時(shí)最先學(xué)的。這種語(yǔ)句易于理解，但運(yùn)行很慢且過(guò)于冗長(zhǎng)，這種情況通常表示你不知道用什么替代向量化。

x?=?range(10)?
avg?=?sum(x)/len(x);?std?=?math.sqrt(sum((i-avg)**2?for?i?in?x)/len(x));?
zscore?=?[(i-avg)/std?for?x]?
#?should?be:?scipy.stats.zscore(x)?
#?or?
groupavg?=?[]?
for?i?in?df['g'].unique():?
????dfdfg?=?df[df[g']==i]?
????groupavg.append(dfg['g'].mean())?
#?should?be:?df.groupby('g').mean()?

解決方案：NumPy、SciPy 和 pandas 都有向量化函數(shù)，它們可以處理大部分你覺(jué)得需要用 for 循環(huán)解決的問(wèn)題。

7. 沒(méi)有寫單元測(cè)試

隨著數(shù)據(jù)、參數(shù)或者用戶輸入的改變，你的代碼可能會(huì)中斷，而你有時(shí)候可能沒(méi)注意到這一點(diǎn)。這就會(huì)導(dǎo)致錯(cuò)誤的輸出，如果有人根據(jù)你的輸出做決策的話，那么錯(cuò)誤的數(shù)據(jù)就會(huì)導(dǎo)致錯(cuò)誤的決策!

解決方案：用 assert 語(yǔ)句檢查數(shù)據(jù)質(zhì)量。Pandas 也有相同的測(cè)試，d6tstack 可以檢查數(shù)據(jù)的獲取，d6tjoin 可以檢查數(shù)據(jù)的連接。檢查數(shù)據(jù)的示例代碼如下：

d6tstack：https://github.com/d6t/d6tstack
d6tjoin：https://github.com/d6t/d6tjoin/blob/master/examples-prejoin.ipynb

assert?df['id'].unique().shape[0]?==?len(ids)?#?have?data?for?all?ids??
assert?df.isna().sum()
<0.9?#?catch?missing?values?assert?df.groupby(['g','date']).size().max()?==1?#?no?duplicate?values/date??
assert?d6tjoin.utils.PreJoin([df1,df2],['id','date']).is_all_matched()?#?all?ids?matched??

8. 沒(méi)有注釋代碼

我明白你急著做分析。于是你把代碼拼湊起來(lái)得到結(jié)果，把結(jié)果交給你的客戶或者老板。一周之后他們找到你，問(wèn)你「你能改掉 xyz 嗎?」或「你能更新一下結(jié)果嗎?」。然后你和自己的代碼大眼瞪小眼，既不記得你為什么要這么做，也不記得你做過(guò)什么?，F(xiàn)在想象一下其他人運(yùn)行這段代碼時(shí)的心情。

def?some_complicated_function(data):?
????datadata?=?data[data['column']!='wrong']?
????datadata?=?data.groupby('date').apply(lambda?x:?complicated_stuff(x))?
????datadata?=?data[data['value']
<0.9]?????return?data?

解決方案：即便你已經(jīng)完成了分析，也要花時(shí)間注釋一下你做過(guò)什么。你會(huì)感謝自己的，當(dāng)然其他人會(huì)更加感謝你!這樣你看起來(lái)會(huì)更專業(yè)!

9. 把數(shù)據(jù)存成 csv 或 pickle

說(shuō)回?cái)?shù)據(jù)，畢竟我們討論的是數(shù)據(jù)科學(xué)。就像函數(shù)和 for 循環(huán)一樣，CSV 和 pickle 文件也很常用，但它們其實(shí)并沒(méi)有那么好。CSV 不包含模式(schema)，所以每個(gè)人都必須重新解析數(shù)字和日期。Pickle 可以解決這一點(diǎn)，但只能用在 Python 中，而且不能壓縮。這兩種格式都不適合存儲(chǔ)大型數(shù)據(jù)集。

def?process_data(data,?parameter):?
????data?=?do_stuff(data)?
????data.to_pickle('data.pkl')?
data?=?pd.read_csv('data.csv')?
process_data(data)?
df_train?=?pd.read_pickle(df_train)?

解決方案：用 parquet 或者其他帶有數(shù)據(jù)模式的二進(jìn)制數(shù)據(jù)格式，最好還能壓縮數(shù)據(jù)。d6tflow 可以自動(dòng)將數(shù)據(jù)輸出存儲(chǔ)為 parquet，這樣你就不用解決這個(gè)問(wèn)題了。

parquet：https://github.com/dask/fastparquet

10. 使用 Jupyter notebook

這個(gè)結(jié)論還有一些爭(zhēng)議——Jupyter notebook 就像 CSV 一樣常用。很多人都會(huì)用到它們。但這并不能讓它們變得更好。Jupyter notebook 助長(zhǎng)了上面提到的許多不好的軟件工程習(xí)慣，特別是：

你會(huì)把所有文件存在一個(gè)目錄中;
你寫的代碼是自上而下運(yùn)行的，而不是 DAG;
你不會(huì)模塊化你的代碼;
代碼難以調(diào)試;
代碼和輸出會(huì)混合在一個(gè)文件中;
不能很好地進(jìn)行版本控制。

Jupyter notebook 很容易上手，但規(guī)模太小。

解決方案：用 pycharm 和/或 spyder。

本文題目：數(shù)據(jù)科學(xué)家易犯的十大編碼錯(cuò)誤，你中招了嗎？
轉(zhuǎn)載來(lái)于：http://www.muchs.cn/news22/99322.html

成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián)，為您提供網(wǎng)站營(yíng)銷、網(wǎng)站維護(hù)、商城網(wǎng)站、定制開(kāi)發(fā)、建站公司、外貿(mào)網(wǎng)站建設(shè)

聲明：本網(wǎng)站發(fā)布的內(nèi)容（圖片、視頻和文字）以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主，如果涉及侵權(quán)請(qǐng)盡快告知，我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng)，如需處理請(qǐng)聯(lián)系客服。電話：028-86922220；郵箱：631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載，或轉(zhuǎn)載時(shí)需注明來(lái)源：創(chuàng)新互聯(lián)

猜你還喜歡下面的內(nèi)容

圖文講解，如何使用 Nginx 反向代理、負(fù)載均衡 2021-02-05
什么專業(yè)畢業(yè)能成為程序員 2021-02-05
百度：其實(shí)一直都在關(guān)注你的網(wǎng)站 2021-02-05
全球676枚兩字母.com域名，378個(gè)已上線 2021-02-05
企業(yè)網(wǎng)絡(luò)營(yíng)銷推廣究竟該怎么做？ 2021-02-05
小程序+新零售開(kāi)啟零售5.0局面 2021-02-05

數(shù)據(jù)科學(xué)家易犯的十大編碼錯(cuò)誤，你中招了嗎？

數(shù)據(jù)科學(xué)家易犯的十大編碼錯(cuò)誤，你中招了嗎？