【我們為什麼挑選這篇文章】「數據科學家」聽起來很流行的名詞,究竟可以為公司帶來多大的幫助?本文參考 Airbnb 內部的「數據科學家圖隊」,點破公司任用人才的迷思,組織各路人才發揮互補效用,教你如何打造一個貨真價實的數據科學的團隊,從組織架構、內容到如何運作,不讓公司暈頭撞向,實際解決空有資源沒有人才的窘境。(責任編輯:鄧天心)
「數據科學家」這一職位的說法或許性感,但發展到現在,多種項目(機器學習、統計分析等)已經遠不能囊括一家大規模公司,在數據科學領域需要的人員及其工作內容了。
本文作者 Elena Grewal 是 Airbnb 數據團隊的主管,下面她以在 Airbnb 的工作經驗為例子,自述了為滿足業務需求,公司如何將數據科學的工作重新定義為 分析、推理和算法 三個方向,以及這三個方向是如何發揮作用的。
數據科學家的「其他名字」
Airbnb 一直將數據視為用戶的聲音。起初,我們的團隊叫做「A 團隊」,即分析團隊,因為最早我們雇了一名「分析專家」。
2012 年,我以「數據科學家」受聘。隨後,我們聘請了一名「數據架構師」來處理數據質量問題,「數據分析專家」解決數據訪問和數據工具的缺失。
此後,我們存在額外的機器學習需求,於是我們聘請了「機器學習方向數據科學家」。這些頭銜都是伴隨著團隊需求和競爭發展更新得出。
到 2015 年,我們成立了「數據科學」部門,但我們依舊使用「A 團隊」的名字,因為這個名字聽著有趣,還能傳達我們所珍視的這段歷史。
2017 年中,我成為了數據科學部門的領導者,那時我們已經有約 80 名數據科學家,他們分散在不同的團隊中。他們中的一部分人在構建項目儀表板,一部分人在創建 NLP(自然語言處理)模型,其他人在構建決策建模和設計實驗。呈現一種極具多樣化的景象。
快速增長的新興學科
這種多樣化並非是意料之外的。數據科學相對較新,而且發展迅速。我們從數據中就發現了這點。首先,從內部來看,應聘 Airbnb 數據科學職位的人數在 2015 到 2018 年裡增長了 4 倍之多。
應聘 Airbnb 數據科學職位
此外,根據谷歌趨勢數據顯示數據科學的查詢量在此期間也出現了快速增漲:
從 2012 年開始出現增長,在過去了 6 年已經翻了 4 倍。
不僅因為數據科學是一個新的領域,而且人們對“數據科學”的理解也各有千秋。有時候,他們認為數據科學有時僅僅是機器學習。有時候,它在技術公司被視為商業智能。數據科學還很新,它會不斷演進。
認識多樣化的數據科學技能
我們發現無法預期數據科學能夠發揮什麼樣的作用。
在公司內,多樣化的負面影響會導致組織陷入迷失或混亂狀態,因為合作團隊不知道數據科學家可以幫上什麼,並且數據科學家也不明白自己的角色定位。
那些來自數據科學建模公司的人,不會想著使用數據科學去做簡單的分析。那些來自數據科學分析公司的人會認為,建模是工程師的工作。
我們還面臨另一種挑戰:團隊中做數據分析工作的人員感到自己的工作沒有做機器學習工作的有價值,即便他們的工作對業務起到了關鍵作用。
商業夥伴渴望更多具有實操性的建議幫助他們做決策,並擴展可使用的工具去理解自己的數據。
我們投資了數據教育,成立了非常有名的數據大學,但還是需要專家。我們發現一個原因是當團隊成員承擔了「數據科學」職責的時候,我們仍舊使用「數據分析專員」的頭銜。同時,從我們如何談論「數據科學工作」來看,這會給人一種「分析工作並非同等重要」的印象。
我和同行公司的領導者討論過他們團隊如何處理這類問題——我曾經創建了一個不同組織架構的共享電子表格。聽到過有的公司是從頭開始建立新的分析團隊,有的團隊將機器學習獨立拆分,有的將工具團隊併入數據科學等等。
顯然,不存在一種通用方法,但關鍵是如何有意識、有策略地定義我們是誰,我們如何創造價值。我們深知我們的目標是「任務支持」,例如,做公司最需要的工作。因此,我們的角色不僅兼顧個體化和闡明期望,更需要與公司當前的需求相匹配。
解決方案:數據科學工作的三種風格
我們決定根據這三個方向來重新定義數據科學職位。我們需要正確描述我們要尋找的東西,這樣才能吸引來自相關領域的人才。
分析追踪(Analytics track) 非常適合那些擅長提出問題的數據科學家,他們能夠正確地對數據進行提取、探索,然後用儀錶盤和可視化工具進行自動分析,能夠通過給出合理建議來推動商業決策。
算法追踪(Algorithms track) 則是為機器學習專家準備的,他們熱衷於在產品設計和運營流程中加入數據思維,然後為商業行為創造價值。
推理追踪(Inference track) 則是針對統計學家、經濟學家和社會學家的,他們能夠利用統計學知識來提高決策效率,並正確衡量我們工作造成的影響。
團隊中的每位數據科學家都應至少具備以上提到的一個領域的專業知識,並根據業務需求和自身興趣獲取其他領域的技能。每個步驟都可以進一步專業化,但每個人都有“數據科學家”的頭銜,下面我們給出更加清晰的描述。
讓我們先來看另一門學科,比如工程學。工程學裡面有一個簡便的劃分:「前端」和「後端」,這可以幫助我們來了解一個人的技能或專長。
我知道這並不是一個完美的劃分,但是它的確比單純地描述為做「工程」要更加容易理解。在數據科學中我們還做不到這樣簡單的描述,但是這將是我們的發展方向。
未來展望
我們也對績效評估標准進行了調整,來反映崗位的結構。我們有不同層次的數據科學家和經理。我們通過考察他們在業務上的影響來評價是否成功。
對於技術方面的數據科學家,我們的評價體系包括以下主要方面:
技術層面
分析-定義並監控指標,進行數據的描述性分析,並構建工具來推動決策
算法-為數據產品構建算法,並能夠進行解釋
推理-採用統計學知識來建立因果關係
基礎-每個數據科學家都要為數據質量和代碼質量負責任(對於所有方向都適用)
商業層面(對於所有方向都適用)
所有權-能夠推動項目取得成功,並為其他人創造影響力
影響力-溝通清晰,有團隊精神,能夠建立良好關係
豐富性-通過指導、招聘、創建企業文化和其他多樣性的行動來為團隊建設做出貢獻
我們還可以寫很多的內容,但是最重要的是我們明確地改變了數據科學家的評價體係來闡明對他們的期望。
什麼時候需要專業化
Airbnb 企業比較大,因此需要對這些問題進行區別對待然後細分。如果是一些小公司,還在考慮是否需要組建專家團隊的時候,我的建議是先面向綜合性的問題。
能夠在早期解決一些迫切問題是非常有幫助的,我們不應該一開始就深入到嚴格專業化中。隨著時間的推移,後面自然會進行專業化,但是一開始還是綜合性的團隊比較好,除非你已經提前看到了商機。
直到 2015 年我們都沒有進行專業化團隊的建設,那時候我們部門只有 30 個人。
而且,隨著業務需求的變化,我們還需要隨時改變團隊的角色,提供不同的功能。
收穫利潤
哪怕是在專業程度較高的今天,在不同方向上的數據科學家依然需要從事其他類型的工作,而且我們也鼓勵團隊成員成為全才。
總的來說,我們這樣做之後能夠減少混淆。我已經聽到合作夥伴說「我們需要具有邏輯推理和專業算法知識的人才」。因此語言對於溝通業務需求非常有用。
這有助於我們找出差距。我最近與一位產品經理聯繫,她非常擔心團隊中沒有人能夠提出創新的方法來在挑戰性的領域中進行試驗。
我立即診斷出其中的問題:在那個特定的數據科學團隊中,沒有一位具有專業推理知識。這樣我們就可以通過下一次招聘來精準引進,或鼓勵團隊成員向其他推理專家學習。
我們很高興聽到從事分析工作的團隊成員不再感到疏遠或低級。分析專家知道如果他們再嘗試將機器學習應用於正在處理的業務問題,影響工作的因素將減小。
希望這次分享能夠為你提供一些想法!
如果求職者都用模糊的「數據科學」頭銜來應聘,招聘是非常困難的,因為這可能有多重含義。如果所有的公司都用相似的框架招人,那麼對於整個數據科學界來說,傳遞價值更加便捷了。
__
(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈Airbnb 数据团队主管:如何将数据科学家的工作一分为三?〉 圖片來源:YouTube。)
延伸閱讀
給工程師的投資入門手冊:Python、R 哪個才是你最適合用來理財的程式語言?
【給工程師的頂級乾貨】如何為一個回歸問題找出最好的機器學習演算法?
CIO 雲端資料管理必殺技
– 全自動化雲端資料庫升級 know how
– 利用機器學習提升資料庫管理效率
– 美國電信商 AT&T IT 管理秘技,優化企業 IT 管理的生產力!
領取 資料庫升級 COMBO 包