Quantcast
Channel: 工程師 – TechOrange
Viewing all articles
Browse latest Browse all 585

大數據人工智慧人才晉級指南:從菜鳥到高手,四大階段必學資料庫

$
0
0

【我們為什麼挑選這篇文章】在資源、訊息爆炸的時代,應該要如何解讀並利用數據,把數據變成增加資產的好工具!這篇文章把「如何養成數據力」分成四個階段,分享給大家實用的學習資源。不只手把手教你如何養成數據力,更是分享了超有用的學習思維,讓你不至挫折放棄!(責任編輯:劉庭瑋)

我們身處一個「技術爆炸」  和「共享、開源」  的時代,先進技術的更新迭代速率超過了歷史上任何一個時期,而且這些技術也不再閉塞,人人都可以接觸並學習。終身學習已經是我們每個人不得不面對的問題,這一點在大數據/人工智能領域體現的尤為明顯:層出不窮的新技術,一方面為我們帶來了便利,但同時也使我們面臨難以高效學習和選擇的窘境。因此,在這樣的時代背景下學習大數據知識,需要有相適應的邏輯和方法。

本文試圖幫助各位讀者用好各類「共享、開源」的學習工具以及學習渠道,躲過各類新手容易誤入的「深坑」,以最小時間成本和經濟成本,優質地完成目標技術的學習和掌握。

本文首先分析了時代背景,繼而對目前大數據領域的人才梯隊進行了劃分,最後給出了大數據/人工智能人才從菜鳥到高手的進階指南。

背景

「技術爆炸」以及「共享開源」是這個時代最有特色的標籤,筆者認為二者是互為因果且緊密聯繫的,首先在「技術爆炸」的時代,對於走在技術發展最前沿的研究團隊來說,技術變現」的最好手段就是「共享開源」。反觀互聯網、移動互聯發展成熟之前,訊息是十分閉塞的,某項技術創新一旦出現就需要第一時間註冊專利,技術需要靠政府來保護,而技術變現的唯一途徑就是出賣專利或者組織生產形成產品。

現如今互聯網及移動互聯已經發展的十分成熟,新的信息會以極低的成本在極短的時間內傳遍世界的每個角落,所以處在技術前沿的研究團隊僅需要在第一時間將自己的工作成果上傳到「arxiv」或者「github」之類中立的共享、開源網站,便會立即得到 全球輿論的共同保護 ,這樣的力度要遠遠強於某個國家的專利保護。

隨後,只要新技術確有應用價值或者學術價值,那麼各類資本巨頭、科技大鱷以及相關的各類組織便會排著隊上門送出豐厚的 offer,對於前沿團隊來說, 技術變現的時間點要遠遠早於技術產品化的時間點

其次,因為「技術爆炸」總有新的技術等待著前沿團隊去研究發現,所以前沿團隊保持領先的最好方法不是捂著現有成果不放,而是盡快「共享開源」實現變現,然後投入到新的研究工作中。

最後, 共享開源」也在很大程度上促進了「技術爆 炸」,無論任何技術、科技的長足發展都需要一個龐大人才體係來支撐,反觀歷史上的各個時期,分享知識、培養人才的渠道主要是「學校」,這一渠道不但形式單一而且往往具備相當的門檻,會將相當一部分「有志青年」擋在門外。

而在如今這個時代,知識傳播最快速的渠道是互聯網,由於「共享開源」,世界上最優質的教育資源以及最先進的學術、技術理念忽然間沒有了任何門檻,面向全部個體無差別開放,結果就是只要某一技術、科技領域有了很大的突破並具備廣闊的應用前景(如大數據、人工智能),那麼相應的人才梯隊會在短時間內自動補齊跟上。

站在大數據學術前沿的研究團隊只需要一往無前地開拓疆域,其後的人才梯隊隨即會自動開展「新技術論證」及「技術產品化」等「保障」工作,保障這一技術領域及相關行業的健康發展,來進一步促進資源向金字塔尖的前沿團隊匯聚,支撐其開拓工作。

我們將上文提到的人才梯隊劃分為:菜鳥築基、初入江湖、登堂入室以及華山論劍四個等級:

1、菜鳥築基: 本階段的人才以大數據基礎理論的學習為主,尚不能勝任真實的項目或者工作;

2、初入江湖: 本階段的人才已經具備了初步的大數據實踐的能力,建議通過實踐(做項目、打比賽等)來更好地帶動學習;

3、登堂入室: 本階段的人才需具備大數據科研論文的調研、閱讀和理解能力,能夠成功地將論文中的算法進行複現;

4、華山論劍: 本階段的人才能夠獨立地開展大數據新技術的研究工作,具有發表原創性論文的能力。

下文將針對處於不同階段的大數據人才,給出不同的修煉、升級建議。

菜鳥築基

TO 編按:「築基」的意思是奠定基礎。

1. 最好的資源往往是公開的

讀過背景鋪墊後相信已經不需筆者再解釋為什麼最好的資源往往是公開的,在此直接給出一些獲取高質量資源的渠道。首先推薦國外的三個網站,分別是「Coursera」、「Arxiv」以及「Github」。

Coursera 是全球頂尖的在線學習網站,由業內極具學術造詣及分享精神的大咖創辦。Coursera 上的課程相對比較基礎,應該是「初學者」起飛最好的平台,在這裡推薦吳恩達(Andrew Ng)開設的「機器學習」以及「深度學習」。對於國內學生來說最大的問題可能就是英語了,在這裡需要明確一點,如果各位想要成為真正的高手,那麼英語是永遠繞不過去的坎,業內最新、最好的資料無一例外都是英文,即便是來自國內的頂尖高手在發論文時都不會選擇用中文。

其實對於絕大多數人, 英語並不應該被當作一門「學科」來學習,而應該被當作「工具」來用 具體的做法也沒有捷徑,就是看到不懂的單詞立即查,單詞不用刻意去記憶,下次遇到不會就再查一次,一切以快速弄懂句子含義為目標。

Arxiv 以及 Github  是各位讀者未來會特別常用的兩個網站/工具,Arxiv 上有最新最全的共享論文,論文中會對各類算法進行詳盡的闡釋,Github 上有最新最好的開源代碼,這些代碼往往是對某種算法的實現,具體的使用方法網上有許多教程,在此不做展開。

讀者可以簡單的理解為 Arxiv 是修煉內功的地方,而 Github 是修煉外功的地方。只練內功不練外功是無法解決實際問題的,但只練外功不練內功又往往毫無威力,一定要內外兼修。最後再向大家介紹一個神奇的網站名叫「gitxiv」,會幫助各位找到論文與代碼的對應關係。

2、不要看書、不要看書、不要看書

一門學科怎麼入門呢?菜鳥在面對這個問題時,最容易踩入的「深坑」就是找一本權威的書來從頭學起,一旦踏入此坑,輕則荒廢自己數週時間,重則對某一門學科徹底失望終生。首先好書本來就不多,往往可遇不可求。其次即便遇到好書,為了保證學術性,書中用語往往「嚴謹」但難懂,且會從學科的早期歷史為讀者打下「堅實基礎」,講到最近的技術手段時又戛然而止。最後,就算讀者傾盡數月之功力,堅持讀完了,筆者可以用血淋林的親身實踐告訴你,書中前半部分的內容一般人肯定會忘的。

當然也有特殊情況,如果各位已經確定了自己的研究方向,並且有高人/導師指點,給出了相應領域內必讀好書的名錄,這一類書還是值得一看的。不過在看的時候也要注意, 不要糾結於某些細節問題 ,看不懂的地方可以先記下來,這類細節往往會在各位後面實踐過程中的具體場景下恍然大悟。

正確的做法一句話就可以概括, 好書是用來查的而不是用來啃的 ,什麼時候來查呢?下文會逐步解答。

3、找對好基友,連滾帶爬往前走

現在已經不是一個單打獨鬥,憑著跌落斷崖後找到一本秘籍閉關幾年就能橫掃天下的時代了,無論是像 Hinton(推翻了 BP 算法的 BP 算法之父)這樣的泰斗,還是像何凱明(發 best paper 像一般人發 paper 一樣容易的神奇學霸)這樣的新秀,都處在各自非常靠譜的團隊中與小伙伴們共同探索。好基友不需要多,有一兩個真正靠譜的就已經足夠,至於隊友的重要性後文會慢慢闡釋。

菜鳥築基這部分最後要給出的建議就是,千萬不要在這個階段停留太久,不要等「準備好了」再去著手實踐,因為這裡的「準備好了」往往包含菜鳥的不自信,不去進一步提升自己是永遠準備不「好」的。一般情況下,想做「計算機視覺」或者「自然語言處理」等偏 AI 方向的同學在完成吳恩達的《深度學習》課程後,想做「數據挖掘」的同學在完成吳恩達的《機器學習》課程後,就可以選擇相應的實踐項目準備進入下一階段了。

那麼我們該選擇什麼實踐手段呢? 最佳的情況是有大神帶隊做真實項目,但是這樣的機會往往可遇而不可求,在此不展開討論。普羅大眾型的辦法是參加一個大數據比賽項目,現在國內的「阿里天池」以及國外的「Kaggle」都是開放式的大數據比賽平台,平台上會有各種組織發布的各類真實項目供大家實踐、比賽。讀到這裡各位心裡可能還存有很大的疑問:「就算學會了基本課程,在沒有人帶的情況下能上手實踐嗎?」,下文將陸續回答如何「連滾帶爬」的進行實踐。

初入江湖

1、找到一個最高的 baseline

這裡的「baseline」可以理解為前人已經做出成果,當自己恰好需要去做相同工作時的參照。對於上文提到的情況,如果有大神帶隊進行實踐的話,那麼帶隊大神此前的實踐經驗就成為了全體小隊成員的「baseline」。那對於沒有「大神」資源的廣大讀者是否有更通用的解決辦法呢?答案是肯定的。如果讀者目前對於一類問題無從下手,例如剛剛學完「深度學習」的課程,但是不知道如何去做「自然語言處理」類的項目,最好的辦法是 利用好國內的「萬方」以及「知網」這樣的論文查詢平台 ,去查詢相關領域國內普通高校的學位論文,這樣的論文絕大部分都是中文並且會在論文中介紹大量的基礎背景知識,正好滿足了我們的需求。

如果是對某一技術方的特定知識點不明所以,例如在做「自然語言處理」方向的項目,但卻不太了解「LSTM」,則可以 利用好中國國內的諸如「知乎」、「簡書」以及「CSDN」這類的知識分享網站 ,只要不是太新的理論,都可以找到相應的博文或者解答。使用上述兩類渠道的共同技巧是,多搜幾篇文章對比著看。同一個概念或者技術,一篇文章很難全面描述清楚,並且由於文章作者不同,解釋問題的出發點也不盡相同,所以如果各位遇到看不懂某篇文章的情況時,不用急躁,接著看下一篇文章就好。另外,前文提到的「好書」在這裡就可以用來查了,讀者會發現原來想記都記不住的知識點,只要「查」完並且「用」過,就會想忘都忘不掉。

這裡對 baseline 所謂「高」的定義是,越接近學術前沿,實踐效果越好,就認為越「高」。一般情況下,可參照的成果越「高」,中文文獻就越少。

文章寫到這裡不知是否回答了上一章節提出的疑問,上一章節提到的“連滾帶爬”指的就是我們在選定某一實踐方向後,根據實踐的最終成果再回過頭來對我們的相關知識進行「查漏補缺」的過程。這樣的學習過程,目標性更強,參與者完全有針對性的去學習,學到的東西可以立即實踐,從而避免「學過就忘」的尷尬。

2、合理追求 quick win,讓你能堅持持續學習和進步

筆者曾經仔細地研究過為什麼女生逛街會「不知疲倦」,得到的答案是,女生每逛一家店鋪,看看店鋪中的鞋子/衣服/包包就能得到一定的興奮點,在得到一個興奮點後就想著直奔下一個興奮點。類比到我們做項目/打比賽的過程中,我們需要為自己的團隊設置這樣的「興奮點」,讓團隊成員都能夠享受到「quick win」的快感,來支持大家繼續推進。

而取得「quick win」的關鍵是 要將手中的工作/任務合理劃分成若干「稍微努力一下就能達到」的子任務 ,這中間的細節過於復雜,在此就不展開討論。一個 teamleader 需要做的最重要的事,就是幫助團隊合理劃分任務而不斷取得「quick win」,一個人只要具備這樣的能力,無論技術高低都能夠團結一批志同道合的小伙伴。

3、你最大的動力往往來自 Deadline

有那麼一句成功學的佳句是「每天叫醒我的不是鬧鐘而是夢想 」,這句話聽起來很勵志,但對於 90% 的人來說就是胡扯,我們回首望去發現每天叫醒我們的往往是「上班遲到後被扣的工資」或者是「晚到實驗室後老闆的殺氣」,這就是現實,聽起來很殘酷但是我們完全可以利用好它。具體到我們的升級以及項目推進中,能讓我們不斷向前的最大動力往往是「在 Deadline 前無法完成任務後小伙伴們的鄙視」以及「完成 quick win 後帶來的成就感」。

做好這一點除了上一小節提到的要合理劃分任務之外,最重要的就是有一個靠譜的 teamleader 不斷的進行推進(push),每到既定節點後雷打不動的推進。最後要囉嗦一句,根據馬斯洛需求層次理論,夢想應該屬於模型頂層的「自我實現需求」,如果一個人可以被「夢想」叫醒,那麼這個人的其他需求應該已經被很好的滿足了,所以我在這裡真誠的祝福大家終有一天可以在早晨被自己的「夢想」叫醒。

登堂入室及華山論劍

如果有一天各位發現自己在工作實踐中,需要不斷地關注最新的論文,並且需要不斷地嘗試複習論文中的算法來用於實踐,那麼要恭喜各位已經跨入了大數據/人工智能領域高手的行列了。登堂入室與華山論劍兩個階段的區分不是特別明顯,因為論文讀得多了,總會有些自己的新想法,這些想法經過實驗驗證後就可以去發論文。反過來,即便你發表過最新論文也還是需要繼續跟進其他論文。

1、朋友圈決定了你人生的高度

在這一小節的開始,筆者首先要端出一碗毒雞湯,即便是在這個「開源、共享」的時代,學術/技術資源的分佈還是極度不平均的,並且這樣的不平均會越來越明顯。究其原因有兩個,第一個原因可以援引在清華 17 級研究生開學典禮上某校領導的一句話來闡釋—-「最有效果的研究手段就是與相當水平的同行當面交流 」,翻譯一下就是高手越多的地方就越容易產生高手,這會導致高端人才分佈的越發不平均。

另外, 做學術前沿研究的經濟成本是很高的 ,國內某頂尖 AI 公司全球研發工作一個月的電費開銷就能達到千萬級別。即使是普通的 AI 項目,服務器、GPU 的成本也會導致普通的研究人員根本無法找到充足的經費來支持自己的研究。

喝完毒雞湯也要來一些正能量,雖然資源分佈不平均了,但人才通道仍然是開放的,只不過門檻越來越高而已,我身邊就有畢業四五年後,也能夠一邊工作一邊複習考上清華研究生,最終接觸到前沿科學研究的例子。

2、選擇永遠比努力更重要

這個標題聽起來又像是一碗「毒雞湯」,但這就是血淋林的生活帶給筆者的經驗。筆者見過某個算法團隊自己悶頭搞了幾個月研究毫無進展,經過大神點播後一個月內完工的情況。

下面舉一個更戲劇性的例子,自然語言處理曾經在 20 世紀 70 年代左右有過界限分明的兩個學派之間的激烈交鋒,一撥是希望透過語法規則來做語音識別的「規則派」,另一撥是基於統計方法的「統計派」,這兩撥從事相同領域研究的學者竟然分別召開自己的學術會議,即便出席同一大會竟然也要分場開小會。

到了 20 世紀 90 年代「統計派」的識別率已經達到了 90 %以上,而「規則派」僅有不到 70 %,勝負已分(吳軍老師的《數學之美》一書中對這段歷史進行了詳盡有趣的闡述)。但試問如果有一名博士生在 20 世紀 70 年代將自己學術方向定為「規則派」,到了 20 世紀 90 年代的時候他該做何感想?

到了「登堂入室」這個階段之後,做好選擇顯得尤為重要 ,這樣的選擇不僅僅限於學術方向,也涵蓋例如「做學術」還是「做產業」等等更廣義的範圍。一個可以參考的經驗是,如果人生的重大決策失誤,基本要用五年來挽回,大家要考慮清楚自己有幾個這樣的五年。

3、唯一的限制往往是自己的妥協

看看本小節的標題,讀者可能會覺得本文這下要以「毒雞湯」收尾了。但其實在這裡「妥協」並不是一個貶義詞,筆者認為它起碼是個中性詞。從某種意義上講,每個人最終都會達到某種「妥協」,而不妥協就意味著背後存在與現狀不匹配的野心或者慾望,什麼時候野心和慾望跟現實匹配了,也就一定會「妥協」。這就是華山論劍的秘密, 每個能站在頂峰的人都必定抱著某種超乎常人的野心或者慾望 ,當然這裡的野心或者慾望是廣義的,也同樣指對於學術的追求。

最後,「毒雞湯」不負眾望的要出現了,根據筆者的觀察,每個人的「妥協點」並不是自己設定的,一般情況下自己也無法影響,所以每個人最終要走到的高度往往是確定的。

但從筆者的角度看來,並不覺得站在華山之巔就一定是好的,真正的「好」是能夠坦然接受自己的「妥協點」,並且能夠在自己的「妥協點」安安心心、高高興興的工作和生活下去,這才是最具智慧的選擇。

(本文經合作夥伴  大數據文摘    授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈 大數據人工智能領域從菜鳥到高手晉級指南 〉。)

延伸閱讀

想成為一名戰鬥力超強數據分析師?讓公司程式白痴聽懂程式碼在幹嘛,保證你立刻成為最強人才
打敗 R 語言,Python 是如何登基成為史上最熱門數據分析語言?
數據分析也能預測美劇劇情?博士生神預測《冰與火之歌》龍媽要領飯盒了
數據分析正夯!Airbnb 嫌學校教育不實用,自己開設數據課程培育員工


321 倒數 ,2020 只剩 3 年,區塊鏈、5G、AI 技術將成熟到位。
從產業到社會,台灣沒剩多少時間準備。

12/9 TechOrange、BuzzOrange「CONNECT 2020」年度產業論壇,連結未來改革能量


Viewing all articles
Browse latest Browse all 585

Trending Articles