您現在的位置是:首頁 > 運動

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

由 大資料文摘 發表于 運動2021-12-11
簡介Kaggle在和一位經常參加Kaggle比賽的同學討論private sharing時,他表示這個現象在國內很常見,中國的Kaggle圈子集中在北上廣等一線城市,許多人都相互認識,私底下也會對於某場比賽分享思路和模型

代練一個金牌多少錢

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

大資料文摘出品

作者:曹培信

對於機器學習愛好者來說,在一個大型比賽中摘金奪銀或許是證明自己實力的好方法。每一年,國內外各種競賽雲集,參與者也涵蓋了高校學霸、行業大佬等各路精英,競賽平臺已然成為了資料高手雲集的“

戰場

”。

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

這全球眾多比賽中,Kaggle可以說是全球認可度最高的資料科學競賽平臺了。目前Kaggle已經舉辦了356場比賽,有些競賽的獎金甚至高達百萬美元。各路英豪在這個平臺上實戰練習、膜拜大神、打怪升級,簡而言之,

Kaggle 是玩資料、機器學習的開發者們展示功力、揚名立萬的江湖。

而最近,Kaggle成績在業內的認可度正在被質疑。

一個關於“

簡歷中附上Kaggle成績,對找工作會有幫助嗎?

”的帖子登上了Reddit熱搜;同時在知乎上,“

Kaggle競賽私下有償分享程式碼

”、“

買‘大腿’打比賽

”、“

獎牌明碼標價

”的話題也引發了國內競賽圈的熱議。

的確,國內競賽圈在付費社群(微信、QQ、知識星球等)小範圍討論程式碼和“

帶人上比賽

”的現象在已經持續了一段時間,並被不少競賽選手認為是“約定俗成”的現象。但是,這種行為真的符合Kaggle的規則嗎?更進一步,這樣的行為會否被Kaggle發現並且影響最終成績呢?

就此,我們也聯絡到了Kaggle合規委員會,就相關問題跟他們聊了聊。

含金量與含“金”量,參賽選手看中什麼?

無論是參加國內的比賽還是參加Kaggle比賽和國際選手同場PK,不同的參賽選手參加比賽的目的有這樣兩類:

一種是以獎金和排名為目的,包括靠獎金為生的職業選手。

這些人是有著豐富的資料分析、機器學習工作經驗的業內人士或者學術大佬。

另一種是以提升相關技能和背景為目的業餘愛好者

。一般是在校學生或者剛入職場的新“碼農”,他們有一定技術能力,但專案經驗欠缺,想在比賽中提升自己的能力和經驗。

對於第一種選手來說,自己在機器學習領域的實力已經不需要證明了,進入比賽就是為了摘金奪銀,贏取大額獎金,更重視的是比賽的

含“金”量

;而對於第二類選手來說,成敗不重要,重要的是在比賽中獲得了什麼,更注重的是比賽本身的

含金量

但是,相比穩定的獎金,Kaggle獎牌自身的價值正在受到越來越多的爭議。

根據知乎使用者@幻雲羽音的資料,2015年以來參加Kaggle比賽的人數暴增,去年已經達到了68010人次,手握Kaggle獎牌的人數也越來越多了。

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

據統計,在參加了比賽的30多萬人次中,共計有 148284 位不同的使用者。獲得過獎牌的使用者有 27226 位(佔總人數的 18。36%),其中:

獲得過金牌的使用者有

3681

位 (佔總人數的 2。48%)

獲得過銀牌的使用者有

13450

位 (佔總人數的 9。07%)

獲得過銅牌的使用者有

16475

位 (佔總人數的 11。11%)

統計資料來源:

https://zhuanlan。zhihu。com/p/29421791

之前也有網友表示自己在招聘時將Kaggle獲獎作為一個標準,但是這三年

該標準已經連調兩級

了。

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

連結:

https://www。zhihu。com/question/32032932/answer/58810196

培訓還是帶打?被明碼標價的獎牌

近幾年,中國人參加Kaggle比賽的熱情日益高漲,今年也誕生了中國首個高中生Master。

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

然而並不是所有人像這位同學一樣可以透過看書、看網課自學就能打到Kaggle Master。於是,針對Kaggle比賽的培訓班開始出現。這也印證了一句話:

只要有比賽,在中國就能找到相應的培訓班。

其實在Kaggle獎牌成為一個提升自身背景的有力條件後,就有許多從事資料科學的求職者和準備出國留學需要加強自身簡歷的學生都將目光投向了Kaggle比賽,然而自身的能力又不足以獨自參賽取得成績。

這些培訓班針對的就是這類人群。我們在百度上搜索“

Kaggle 培訓班

”,可以看到排在搜尋第一位的搜尋結果就是一家培訓機構。

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

在網頁的介紹中,我們可以看到,該機構宣稱在比賽中可以接受大咖的指導,並承諾獲得獎牌。

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

而相比於培訓,更讓人詫異的是

Kaggle獎牌被明碼標價掛在網上賣

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

我們也向參加過Kaggle比賽的一位大佬進行了求證,這位受訪人明確表示,目前市面上Kaggle獎牌確實可以透過組隊帶打的方式獲得,自己也曾經收到過“有償代打比賽”的邀請,市價在“

銀牌8000左右,金牌20000左右

”,但是金牌不能保證肯定拿到。

針對這個問題,我們也向Kaggle官方進行了諮詢,Kaggle明確回覆

不支援這樣的行為,但是這種情況是存在的。

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

我們不支援買賣Kaggle獎牌,但是可以認為這種情況是可能的。

Kaggle

Kaggle困境:難以制定的規則

2010年,安東尼·高德布盧姆(Anthony Goldbloom)在墨爾本創立Kaggle時,也不會想到短短9年,Kaggle的註冊使用者就超過了250萬。

有人的地方就有江湖,更何況一個聚集了如此多人的大社群。

Kaggle本身是鼓勵分享和開源的,Kaggle官網上也有一個討論的社群,但是為了保證比賽的公平性,Kaggle又不得不制定很嚴格的規則。

比如為了防止刷榜,Kaggle限制了每個隊伍每天允許的最大提交次數,一般是5次,假如一個比賽持續時間是三個月,那麼總提交次數差不多就是 5×90=450次。

然而,要限制這群“最聰明的腦袋”談何容易

。很多人為了躲過提交次數的限制或者“節省提交次數”,專門註冊了小號,這被稱為multiple accounts,是會被Kaggle的反作弊系統偵察出來的。

而很多人關心的private sharing,是指Kaggle禁止隊伍之間私下分享程式碼,要分享只能透過公開的kernel或discussion區分享,保證每個參加比賽的隊伍都看見。

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

Kaggle針對private sharing的明確條例

但是對Kaggle來說,判斷誰私底下分享了程式碼依然是一個大難題。

我們也針對這個條款,向Kaggle徵求了更詳細的的解釋。Kaggle表示,

如果是一個已經完成的比賽,那麼無論在付費加入或者免費進入的group,怎麼討論都可以,而如果是針對一個正在進行的比賽,那麼分享的程式碼就要所有的參賽選手都可以看到,如果只在一個封閉的group中分享,就算private sharing。

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

(Kaggle)不允許在團隊之外私下共享程式碼或資料。只要所討論的資訊不是關於一場正在進行的比賽,使用Kaggle進行小規模分享(無論付費還是免費)是可以的。如果資訊是關於一個正在進行的比賽,那它必須透過相關論壇向所有Kaggle參與者公開。

Kaggle

這樣部分回答了之前在競賽圈引發了軒然大波的“IEEE-CIS Fraud Detection”比賽事件,名為YB(Orange)和AIR所在的隊伍、以及寧缺(廣工第一關羽)所在的隊伍被取消成績一事。事後,相關方也向我們說明了原因:

兩個隊伍有隊友互相認識,想對模型做個融合,但是提交了相同的Sub導致被Kaggle取消成績。

在我們向Kaggle求證這兩支隊伍被取消的原因時,Kaggle表示

不能向我們透露特定隊伍被取消成績的原因,但是可以肯定的是他們違反了規則,並且最常見的原因是使用了相同的賬戶或者private sharing。

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

我們不會公佈特定競賽參與者的資訊,也不會公佈他們被取消成績的情況,也不會公佈我們檢查參賽者作弊的過程。然而,可以告知的是,我們只有在有充分的理由判定參賽者違反了競爭規則的情況下才會取消成績,並且被取消成績最常見原因是使用多個帳戶或在Kaggle團隊之外私下共享程式碼。

Kaggle

在和一位經常參加Kaggle比賽的同學討論private sharing時,他表示

這個現象在國內很常見

,中國的Kaggle圈子集中在北上廣等一線城市,許多人都相互認識,私底下也會對於某場比賽分享思路和模型。

而這一現象不止存在於國內競賽圈,包括俄羅斯和日本也有公司組織幾個隊伍團體參賽,互相借鑑模型進行整體提升。

而這也正是Kaggle禁止private sharing的原因,因為這樣不僅會影響比賽的公平性,還會形成使比賽失去懸念,畢竟團體的力量是大於個人的,尤其是一群“

高手

”組成的團體,這會讓比賽變成不同組織之間的對抗,

大大影響其他參賽選手的積極性。

參加Kaggle比賽正確態度?

最近Reddit也有人開始提出疑問:

Kaggle上取得好成績真的會對求職有幫助嗎?

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

其中有個答案是這麼說的:

“在 Kaggle 上做得好不代表就是一名好的 ML 工程師,Kaggle 太過關注純資料科學,尋找創意集合體,然後花費大量時間(或者你還要花很多錢)進行實驗,同時儘可能減少過擬合。對於競賽而言,最好的模型就是能夠供整個社群使用,你的主要任務也是做到這點。”

Pranay Dave也在Medium上寫過一篇名為“為什麼Kaggle不會讓你成為一名出色的資料科學家”的文章,他指出了幾點原因:

資料科學不僅僅是預測

無法提高圖演算法方面的技能

無法提高演算法可解釋性

缺少投資回報率的分析環節

不會涉及到模擬和最佳化問題

無法體驗模型部署和操作

原文連結:

https://towardsdatascience。com/why-kaggle-will-not-make-you-a-great-data-scientist-a2c2f506a23f

所以說,Kaggle作為一場比賽,可以體現你在資料科學方面的實力,然而打贏Kaggle和成為一個好的資料科學家並不能劃等號,對任何人來說,資料科學的這條路一定是越走越深入,Kaggle也許只是一個證明自己的過程。

而對於那些花錢“買大腿”混獎牌的人來說,背景的提升、簡歷的充實更是空中樓閣,除了把Kaggle圈子搞亂,於人於己都沒有任何好處。

那麼什麼才是參加比賽的正確姿勢呢?

我們不妨來看看在洛杉磯金融城(City of LA)與 Kaggle合作的那場比賽的優勝者Shivam Bansal,在Kaggle官網進行的

優勝者訪談

中描述自己選擇這場比賽的原因。

文章連結:

http://blog。kaggle。com/2019/07/15/winner-interview-with-shivam-bansal-data-science-for-good-challenge-city-of-los-angeles/

花錢買大腿?獎牌明碼標價?我們找Kaggle合規會聊了聊規則

Q: 是什麼讓你決定參加這個比賽?

A

:這次比賽中提出的問題非常具有挑戰性和趣味性。問題的更大部分是自然界中的非結構化知識,都需要創造性和創新性的方法。這個挑戰要求在所有方面都有一個完整的解決方案——程式碼、文件、工作流、流水線、講故事、模組化、可重用性、視覺化和自然語言處理的使用。在閱讀了更多關於這個問題的文章之後,我意識到這是一個很好的機會去嘗試、實踐和測試資料科學、工程和演示技能。

搞清楚為什麼做一件事,比做這件事本身更重要。

參加Kaggle比賽也是如此。

推薦文章

  • 對於北方人來說,芥藍是一種令人迷惑的蔬菜

    圖0 菜心和紫菜薹芥藍是甘藍的薹用型變種,以“花薹”為主要食用部位,“薹”即是開花前急速伸長的莖,連同莖上的嫩葉花苞都可以吃掉...

  • 網友用紅米K20開瓶蓋,悠著點!

    其實對於千元機來說用塑膠、玻璃作為攝像頭邊緣材料是很正常的,對比高階手機來說它們的售價和成本本身就有很大差別,所以大家對於普通手機升降攝像頭的硬度不能太過於自信,今天開飲料瓶明天開啤酒瓶,畢竟他們是手機,專業的事還是交給專業工具去做,用手機...

  • 十二生肖選擇考研原因大解析,你是屬什麼呢?

    08 羊:現實壓力屬羊的小夥伴會選擇考研,有很大一部分原因是因為在現實中碰壁了,他們在找工作的過程中發現了學歷的重要性,而自己作為本科生會有很多的侷限性,為了更大的上升空間就會選擇考研...