到底要不要參加Kaggle競賽

【編者按】數(shù)據(jù)科學家Reshama Shaikh分享了參加Kaggle的理由,并簡要介紹了如何入門Kaggle。

關于Kaggle

Kaggle是最著名的預測建模分析競賽平臺。Kaggle公司于2010年在澳大利亞的墨爾本成立,在收到硅谷的投資之后遷往舊金山。2017年被Google收購。如果想了解更多關于Kaggle的歷史和未來,可以看AMA with Anthony Goldbloom(Kaggle CEO的訪談)。

在過去十年來,英文語境中的“數(shù)據(jù)科學”(data science)一詞的含義逐漸發(fā)生了變化。同樣,“數(shù)據(jù)科學”和“kaggle”也逐漸變得密不可分,與此同時,數(shù)據(jù)科學社區(qū)中的很多人在探究和爭辯這一平臺的用途:

Kaggle……有用嗎?

我對Kaggle最初的想法

和很多人一樣,我對Kaggle競賽抱有一些成見。我聽說Kaggle有好幾年了,也從數(shù)據(jù)科學領域的其他人那里獲得了一些對Kaggle的認識:

  • 我聽說過擁有數(shù)十年經(jīng)驗的退休博士成為Kaggle競賽贏家的傳奇(我過去常常好奇這些天才是在沙灘上參賽的,享受著碧水藍天和流暢的wifi,還是呆在昏暗、滿是灰塵的、亂糟糟的辦公室里參賽的……)
  • 我獲勝的概率為零。
  • 我真的能學到有價值的東西嗎?
  • 投入時間提升精確度0.01有何意義?
  • 這真的是使用我的時間的最好方式嗎?還是說我應該花時間學習另一項更有價值的數(shù)據(jù)科學技能?
  • 贏家需要使用復雜的集成方法。
  • 數(shù)據(jù)很干凈,人為地干凈,一點也不現(xiàn)實。
  • 參加一項Kaggle競賽并不能讓我成為一個合格的數(shù)據(jù)科學家,所以何必呢?
  • 我不知道從何開始……

我的第一項Kaggle競賽

在抗拒了幾年之后,我最近第一次參加了Kaggle競賽,Is it a Ship or Iceberg。我寫了一篇文章,分享了初次參加Kaggle競賽的體驗。

到底要不要參加Kaggle競賽

Kaggle競賽和紐約馬拉松

我發(fā)現(xiàn)Kaggle競賽和紐約馬拉松很像。大部分參賽者是為了享受過程,而不是贏得第一。

結(jié)論:參加吧

要不要參加Kaggle?我的答案:“是”。不管是數(shù)據(jù)科學的初學者,還是資深的數(shù)據(jù)科學家,參加Kaggle競賽都是有價值的。下面是一些理由。

評測

獲取你自己的數(shù)據(jù)集或從網(wǎng)站抓取數(shù)據(jù)能讓你學到很多,但這么做的缺點是沒有評測標準,無法比較你的發(fā)現(xiàn)。有可能你犯了大錯,但無人知曉,因為沒有經(jīng)過驗證。Kaggle競賽則提供了一個“檢查你的作品”的平臺。

不同水平的人都能從中學到東西

初學者有很多可以學的:

  • 熟悉Kaggle平臺
  • 如何使用命令行或API從Kaggle獲取數(shù)據(jù)
  • 結(jié)構(gòu)化的生態(tài)系統(tǒng)讓高級統(tǒng)計學技能不足的人集中全力解決問題
  • 理解評估指標
  • 開發(fā)、運維技能:Git、云計算
  • 練習
  • Kaggle提供了一些免費的交互式教程

有經(jīng)驗的從業(yè)人員,仍有許多東西可以學習:

  • 結(jié)構(gòu)化的生態(tài)系統(tǒng)讓具備高級統(tǒng)計學技能的人集中全力解決問題
  • 更深入地探索超參數(shù)
  • 聚焦當前最先進的新方法
  • 賽后分析贏家的做法
  • 管理大規(guī)模數(shù)據(jù)集(超過一百萬項記錄)
  • 配置GPU機器進行深度學習
  • 使用深度學習并與傳統(tǒng)算法比較結(jié)果

數(shù)據(jù)

整個數(shù)據(jù)科學社區(qū)都在談論論數(shù)據(jù)集。你能在Kaggle上熟悉其他學習平臺以及會議發(fā)言人提到的流行的數(shù)據(jù)集。

盡管Kaggle提供了數(shù)據(jù)集,你仍然需要理解數(shù)據(jù)和評估指標。和流行的觀點不同,仍有需要進一步檢查的“臟數(shù)據(jù)”。深入分析錯誤標記項將帶來算法方面的調(diào)整。

作品集的組成部分

沒錯,參加Kaggle競賽并不能證明你勝任數(shù)據(jù)科學家的工作。參加一門課程、出席一次會議、分析一個數(shù)據(jù)集、閱讀一本數(shù)據(jù)科學的書也不能。參加競賽增加了你的經(jīng)驗,增強了你的作品集。它是你其他項目的補充,而不是數(shù)據(jù)科學技能集的唯一證明。

獲得樂趣

人們經(jīng)常不確定是否要追尋一個數(shù)據(jù)科學的職位。參加競賽是一種測量你的能力和興奮點的非正式方法。如果你確實很享受參加Kaggle的過程,那說明你的方向沒錯。如果你選擇把時間花在其他事情上面,那也很好;這是一種找到答案的方法。

Kaggle入門

入門指南

EliteDataScience上的The Beginner’s Guide to Kaggle提供了關于Kaggle的詳盡信息,以及上手Kaggle的一些技巧。

核(kernel)是Kaggle用戶分享的代碼(Jupyter Notebook形式,R或Python)。參加競賽時,你可以復制、使用這些代碼。

討論區(qū)

每項競賽都有一個討論區(qū),可以交流問題,給核、主題投票。

Slack

Kaggle有一個Slack小組:KaggleNoobs,擁有近四千成員,另外還有一個AMA(Ask Me Anything,問我任何事)頻道,經(jīng)常訪談Kaggle參賽者和贏家。

選擇

  • 你可以參加已經(jīng)結(jié)束的競賽。記住,參加Kaggle是為了學習,而不是最終結(jié)果。
  • 有各種各樣的主題(隨機森林、多元分類、神經(jīng)網(wǎng)絡、NLP)和各種各樣的數(shù)據(jù)集(圖像、結(jié)構(gòu)化數(shù)據(jù)、文本、大數(shù)據(jù))

組隊

  • 不管你是初學者還是有經(jīng)驗的數(shù)據(jù)科學家,都可以組隊。
  • 剛開始可以作為獨立的小組參賽,以最大化每日的結(jié)果提交數(shù)量,在競賽快結(jié)束時再合并小組。

結(jié)論

我覺得很有必要參加至少一次競賽。對沒試過的東西的看法,和已經(jīng)嘗試過的東西的看法,是不一樣的。和一切事物一樣,Kaggle在不斷演化,特別是Google收購以后。過段時間可以回去看看,有沒有什么新東西。

不必局限于Kaggle

盡管Kaggle是最出名的平臺,參加競賽的機會還有很多:

  • 許多大學的數(shù)據(jù)分析部門舉辦年度競賽
  • 會議經(jīng)常會辦一些競賽(有時稱為“任務”)
  • 私營公司會贊助自己的競賽

相關新聞

聯(lián)系我們
聯(lián)系我們
公眾號
公眾號
在線咨詢
分享本頁
返回頂部