【我們為什麼挑選這篇文章】過去幾年,中國有許多文章形容數據科學工作是未來「最性感」的職位,再加上 AI 、大數據應用風潮正夯,讓市場上初級人才的數量大大提升,但數據科學家工作真有想像中前途似錦嗎?(責任編輯:戴慈慧)
本文的作者就是一位數據科學家,做了這麼久,他覺得有必要將這個行業的苦惱公之於眾,為那些想進入這個行業的人們做個參考。
話不多說,來和文摘菌一起看看吧~
是的,我是一名數據科學家,你也沒看錯標題,總得有人來說這件事。我們都讀過很多文章,說數據科學是 21 世紀「最性感」的工作,數據科學家可以賺得盆滿鉢滿,以至於數據科學看起來是完全夢幻般的美妙工作。考慮到這個領域裡有大量高技術人才在沈迷於解決複雜的問題,這份工作值得熱愛。
但事實是,數據科學家們通常「每周花 1-2 個小時尋找新工作」,這是《金融時報》的一篇文章中提到的。此外,這篇文章還指出,「表示自己正在尋找新工作的開發者中,機器學習專家位居榜首,佔 14.3 %。數據科學家緊隨其後,佔 13.2%。」這些數據是 Stack Overflow 在一次基於 64000 名開發者的調查中得到的。
我也曾處於這個狀態,我自己最近也換了另一份數據科學的工作。
那麼,為什麼這麼多的數據科學家要找新工作呢?
在我回答這個問題之前,我應該澄清一下,我現在仍然是數據科學家。總體上,我熱愛這份工作,我也不想勸退那些有志成為數據科學家的人,因為這份工作充滿樂趣、令人振奮且回報豐厚。這篇文章是有意要唱唱反調,揭示一下這個職業裡存在的一些負面問題。
在我看來,很多數據科學家對工作的不滿意,可以歸結為四大原因。
理由 1:期望與現實不符
大數據就像是青少年口中的性:每個人都在談論它,沒人真的知道怎麼去做,但是每個人都認為別人在做,所以每個人都聲稱自己在做……——Dan Ariely
這句話太貼切了。我認識的許多資歷不深的數據科學家(包括我自己),想進入數據科學領域是為了用最新的很酷的機器學習算法來解決複雜問題,並且產生巨大的商業影響。這可能會讓我們覺得自己正做著的工作比先前做的任何事都更重要。但事實往往並非如此。
我認為,期望與現實不符是很多數據科學家離開的最終原因。原因有很多,我不可能列出一個詳盡的清單,但這篇帖子基本列舉了我遇到的一些原因。
每個公司的情況都不一樣,所以我講的並不能代表所有公司,但確實很多公司在雇傭數據科學家時並沒有配套的基礎設施,好開始從 AI 中獲取商業價值。這造成了 AI 系統的冷啓動問題。再加上這些公司在雇用資歷不深的數據科學家之前,沒有雇用資深或有足夠經驗的從業者,這就導致雙方都感到失望和不愉快。數據科學家很可能是來寫智能的機器學習算法以助力商業洞察的,但他們做不到這點,因為他們首先要做的是建立數據基礎設施和/或創建分析報告。相反,公司只想要一張圖表,好每天在董事會上展示。於是公司感到失望,因為他們沒能看到價值被迅速創造出來,這一切都會使數據科學家對自己扮演的角色感到不愉快。
在 Robert Chang 給新手數據科學家提建議的一篇文章中,有句話非常精辟:「評估我們的抱負與我們所處環境的前進軌道有多一致,這點很重要。找到與你自身的前進軌道最相符的項目、團隊和公司。」
這話強調了雇主和數據科學家之間的雙向關係。如果公司不合適,或者公司目標與數據科學家的目標不同,那麼數據科學家另尋出路只是時間問題。
如果有興趣,Samson Hu 有一系列精彩的文章,描述了 Wish 公司的分析團隊是如何建立的,我覺得也很有見地。
讓數據科學家感到失望的另一個原因與我自己對學術界的失望很相似:我一度以為自己能給世界各處的人帶來影響,而不只局限於公司內部。事實上,如果公司的核心業務不是機器學習(我的前雇主是一家媒體出版公司),那麼很可能你所做的數據科學只能帶來很小的增量收益。這些收益積累起來可能會變得可觀,或者你可能很幸運碰到一個「金礦」項目,但這些情況很少見。
理由 2:政治至上
關於政治的話題,已經有一篇出色的文章專門介紹了——《數據科學行業裡最困難的事:政治》。我強烈推薦你讀一下。這篇文章的前幾句話基本概括了我想說的內容:
當年我早上六點起床學習支持向量機的時候,我想:「這真是太難了! 不過,嘿嘿,至少對於未來的雇主我會變得非常有價值!」。如果現在能搞到時光機,我一定會回到過去,對自己大罵一聲「傻冒!」。
如果你當真以為瞭解很多機器學習算法會讓你成為最有價值的數據科學家,請回到上面我講的第一點:期望與現實不符。
事實是,你需要讓公司裡最有權力的人對你有個不錯的看法。而這可能意味著,你必須經常做一些臨時安排的工作,比如從數據庫中獲取數字,以便在適當的時候呈給適當的人,或者做一些簡單的項目,只是為了讓某些人對你有個恰當的瞭解。在我的前公司,我不得不做很多這樣的事。儘管讓人覺得沮喪,但這是工作中必不可少的部分。
理由 3:有任何關於數據的事,公司都會來找你
在你盡一切努力取悅合適的人之後,那些大權在握的人卻常常不理解「數據科學家」的含義。這意味著你將既是分析專家又是彙報員,還有別忘了你也將是數據庫專家。
不只有非技術型的主管會對你的技能做出過多假設。別的技術型的同事會假設你瞭解跟數據相關的一切:你懂得 Spark、Hadoop、Hive、Pig、SQL、Neo4J、MySQL、Python、R、Scala、Tensorflow、A/B 測試、NLP、一切跟機器學習有關的事(還有任何你能想到的與數據有關的事——順便說一下,如果你看到一個職位描述上寫了所有這些東西,請保持清醒。這份職位描述顯然來自一個並不知道自己的數據戰略是啥的公司,他們會雇任何人,因為他們認為雇任何一個數據人員都能解決他們所有的數據問題)。
事情還不止於此。因為你懂得這一切,而且你顯然可以拿到所有的數據,所以你應該能回答一切問題,而且是在……好吧,在五分鐘之內就把答案發送到相關人員的收件箱里。
對你來說,嘗試去告訴大家你實際知道和掌握的東西,可能很困難。不是因為有任何人會真的看不起你,而是因為作為一個沒有什麼行業經驗的新手數據科學家,你會擔心別人看不起你。這樣的處境可能相當艱難。
理由 4:在一個孤立團隊中工作
當我們去看成功的數據產品時,我們往往會看到精心設計的用戶界面、智能的功能,而最重要的是具備有用的輸出結果,最起碼能讓用戶感覺到解決了一個相關的問題。如果數據科學家只把時間花在學習如何編寫和執行機器學習算法上,那麼對於推動項目成功並產生價值的整個團隊而言,他們只是這個團隊的一小部分(儘管是必不可少的)。這意味著一個孤立工作的數據科學團隊將很難提供價值!
儘管如此,許多公司的數據科學團隊仍然在執行團隊自身的項目,編寫代碼來嘗試解決一個問題。在某些情況下這就足夠了。例如,如果公司需要的只是一份靜態電子錶格,每季度生成一次,那麼這足以提供一些價值。與此相反,如果目標是要優化一個預訂網站的智能建議功能,那麼這將需要許多不同的技能,對於絕大多數的數據科學家,不能期望他們有這個能力(這種事只有那些數據科學家中的獨角獸能搞定)。因此,如果是一個孤立的數據科學團隊在承擔這個項目,項目很可能會失敗(或者要花很長時間,因為在大型公司裡組織幾個孤立團隊進行項目協作並不容易)。
因此,要在行業裡成為一個卓有成效的數據科學家,僅僅玩轉 Kaggle 競賽、完成一些在線課程是不夠的。很不幸(或幸運,取決於你從什麼角度去看),你需要懂得公司裡的等級制度和政治是怎麼運作的。去找一家與你的前進軌道一致的公司,這應是你在尋找一份數據科學工作時的關鍵目標。但是,你仍可能需要重新調整你對行業的期待。
有任何評論、問題或者異議,請自由發表意見。建設性的討論是非常必要的,能夠幫助胸懷抱負的數據科學家在職業規劃上做出明智決策。
感謝你的閱讀,希望我沒有把你勸退。
你可能感興趣
- 從工程師轉行數據科學家後需要做什麼?前輩建議:趕快把 SQL 練熟吧
- 數據科學家技能趨勢解析:PyTorch 職缺大漲 108%,SQL 將成為需求第二大的程式語言
- 2019 科技預言:社會將出現首批「數據科學背景」的客服職缺
全方位掌握消費者數位軌跡
AI 如何有效提升電商業績、降低導入成本?