【為什麼我們要挑選這篇文章】數據分析是 AI、大數據時代的關鍵技能,不管是專業工程師還是沒 coding 基礎的文科人,都想培養自己的數據分析技能,然而線上課程百百種,哪些課最適合自己?課程進度又該如何安排?
以下,是 Coursera 上的 10 堂精選數據科學課,一步步幫你提升數據分析技能。(責任編輯:郭家宏)
疫情在家太無聊,線上課程自然是打發時間又能自我提升的不二之選。在眾多學科中,數據科學又可說是有趣又實用的典範了。
可是,光光 Coursera 上能找到的數據科學課程就要數以百計。我們要如何選擇合適的課程?又應該選擇怎樣的學習順序呢?
今天,文摘菌(本文作者)就為你帶來了十大資源,更為你安排好了學習順序。
從小白起步級,到大師進階級,涵蓋十分廣泛。即便你已有了一定的數據科學基礎,也能找到合適的學習資源。
一起來看吧!
Python 3 程式專業課程
和 Python 2.7 說再見!
首先,你需要一門程式語言。密西根大學的這門專業課是有關學習如何使用 Python,並建立自己的內容。
課程 傳送門
你將學習程式基礎,如變數、條件、循環;並逐步接觸一些中間素材,如關鍵字變數、列表理解、lambda 表達式和類繼承。
借助 Python 應用數據科學,先學習後理解
在充分理解機器學習之前,我們需要先體驗一番。
這門《借助 Python 應用數據科學》(Applied Data Science with Python)介紹了許多你應當瞭解的現代機器學習方法。無需理解太多,你就可以獲得建構自己模型的工具。
課程 傳送門
這門進階的專業課程是給具有相關基礎的學習者。學習者需要具有基本的 Python 或其他程式語言背景,希望透過使用流行的 Python 工具包(如:pandas、matplotlib、scikit-learn、nltk 和 networkx),應用統計、機器學習、資訊圖像化、文本分析和社交網絡分析技術,從而對他們手頭的數據能夠有所瞭解。
機器學習理論與基礎
學完上述課程,你就已經入門了。
恭喜!你學到了不少東西,也知道了如何去實現。
但是,你還不完全理解隱含在這些模型背後的數學原理。
你需要理解 clf.fit 背後的東西。是時候面對現實了。除非你瞭解模型背後的數學原理,否則沒人會拿你當回事。
你不理解它,你就不可能改進它。
因此,我想你重磅推薦吳恩達老師的《機器學習》。它包含了許多機器學習演算法背後的數學原理。
課程 傳送門
我認為這門課是你的「必修課程」,因為是這門課激勵我進入這個領域,而且吳恩達老師(Andrew Ng)是一位偉大的老師。另外,這也是我剛轉入數據科學領域自學的第一門課。
這門課程什麼都有:迴歸、分類、異常檢測、推薦系統、神經網絡等等,還有很多很棒的建議。
學習統計推斷
「事實是不變的,統計數據則是易變的。」——馬克.吐溫
《推斷統計導論》(Inferential Statistics Intro)由 Mine Çetinkaya-Rundel 授課,沒有比她這門課更簡要的了。
課程 傳送門
她是一位好老師,清晰簡潔地講解了統計推斷的基礎內容。當然了,這也是一門必修課程。
你將會學到假設檢驗、信賴區間、以及數值數據和分類數據的統計推斷方法。
學習數據科學的 SQL 基礎知識
SQL 是所有數據 ETL 流程的核心。
雖然我們覺得建立模型和提出不同的假設更有成就感,但也不可輕視數據轉換的作用。
而且,由於 SQL 在數據 ETL 流程和準備任務中無處不在,因此每個人都應該了解一點 SQL,至少是有用的。
SQL 也已成為使用 Apache Spark 等大數據工具的實際標準。加州大學戴維斯分校(UC Davis)的《SQL specialization》課程會講解有關 SQL 的基礎知識以及如何使用 SQL 進行分散式運算。
課程 傳送門
課程簡介:
透過具有數據科學應用程式的 4 個難度遞增的 SQL 項目,你將學習諸如 SQL 基礎知識、數據整理、SQL 分析、AB 測試,使用 Apache Spark 進行分散式運算等主題。
高級機器學習
在更大的舞台上,填鴨式教育一無所用。
你可能不同意這一點,但到目前為止,我們所做的一切都是填鴨式學習。數據是結構化的,數學原理是簡單的。但之前的努力並沒有白費,它為我們的下一步發展奠定了基礎。由 Kaggle 機器學習的頂尖高手和歐洲核子研究組織(法語為 Conseil Européenn pour la Recherche Nucléaire,通常簡稱為 CERN)的科學家們共同開發的《高級機器學習 專項課程》(Advanced Machine Learning specialization),採用另一種學習方法,幫助你學習許多難懂的概念並瞭解機器學習的前世今生。
課程 傳送門
課程簡介:
該專項課程介紹了深度學習、強化學習、自然語言理解、電腦視覺和貝葉斯方法。Kaggle 機器學習的頂尖高手和 CERN 的科學家們將分享他們在解決現實問題中所獲得的寶貴經驗,從而更好地幫助你從理論過渡到現實。
深度學習
深度學習是大勢所趨
吳恩達老師帶著新課《深度學習 專項課程》(Deep Learning Specialization)回來了,乾貨滿滿,待君細品。
課程 傳送門
吳恩達老師擅長化繁為簡,能夠以簡潔易懂的方式來解釋晦澀複雜的概念。他的方法不同於網上的其他課程,對於理解基礎概念大有裨益,因此我希望它能夠逐漸流行開來。
課程簡介:
你將學習深度學習的基礎知識,了解如何建構神經網絡,學習如何領導成功的機器學習專案。你還會學習卷積神經網絡(CNN)、循環神經網絡(RNN)、長短期記憶網絡(LSTM)、Adam 優化演算法、Dropout 原理、批規範化(BN)、Xavier/He 初始化等。你將要研究的案例包括醫療保健、自動駕駛、手語閲讀、音樂生成,和自然語言處理等領域。
Pytorch,讓 Python 火力全開
我通常從不提倡學習一種工具,但是,Pytorch 真香!瞭解 Pytorch,就意味著你可以閲讀許多當今論文中的程式碼部分,你說它香不香?對於深度學習的研究人員來說,Pytorch 已經成為默認的程式語言,更何況它還是開源免費的呢。
你可以透過《利用 Pytorch 建構深度神經網絡》(Deep Neural Networks with Pytorch)這門課程系統地學習 Pytorch。
課程 傳送門
課程簡介:
該課程將從 Pytorch 的張量和自動微分包講起。其次,每個部分將涵蓋不同的模型,這些模型依賴於諸如線性迴歸、邏輯迴歸或 softmax 迴歸等基礎知識。然後是前饋深度神經網絡,包含不同的激勵函數,歸一化和 dropout 層。接著將介紹卷積神經網絡和遷移學習。最後,還將介紹其他幾種深度學習方法。
AWS 機器學習入門
建構出色的機器學習系統時需要考慮很多因素。但是通常而言,作為數據科學家,我們只需擔心專案的特定部分即可。
但是,我們是否曾經考慮過擁有模型後將如何部署模型?
我見過很多機器學習專案,但其中許多注定要失敗,因為它們從一開始就沒有一個固定的生產計劃。
擁有一個良好的平台並瞭解該平台如何部署機器學習應用程式,將對現實生產大有幫助。 這門《AWS 機器學習入門》(Getting Started with AWS Machine Learning)課程就可以幫你實現這個想法。
課程 傳送門
本課程將教會你:
如何使用帶有內置演算法,和 Jupyter Notebook 實例的 Amazon SageMaker 建構、訓練和部署模型。
如何使用 Amazon AI 服務(如 Amazon Comprehend、Amazon Rekognition、Amazon Translate 等)構建智慧應用程式。
數據結構和演算法
演算法。沒錯,你需要它們。
演算法和數據結構是數據科學不可或缺的一部分。儘管我們大多數數據科學家在學習時都沒有學習正確的演算法課程,但它們是必不可少的。
許多公司在聘用數據科學家的面試過程中都會詢問數據結構和演算法。
數據結構與演算法需要你付出相當多的時間與精力進行研究,因此切不可輕視,這畢竟是工程師的內功!
我發現學習演算法的最佳資源之一,是加州大學聖地亞哥分校的《數據結構與演算法 專項課程》
課程 傳送門
課程簡介:
你將學習解決各種運算問題的演算法技術,並將以你選擇的程式語言實現大約 100 種演算法編碼問題。沒有其他任何一門在線演算法課程可以為你提供如此豐富的編程實踐,這些東西你可能會在下次面試中遇到。
原文報導 傳送門
(本文經合作夥伴 大數據文摘 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈疫情期间自我提升指南:十大资源,为你铺平数据科学家之路!〉。首圖來源:Footage CC Licensed)
工程師還需要知道這些事
工程師該去大公司還是小公司?答:大公司可深化功夫,小公司可拓展技能樹
在家從零自學沒問題!22 歲數據工程師大推 3 本必看的機器學習入門書
工程師別惹怒數學家!25 年前,「布朗常數」讓英特爾賠 145 億台幣
一針見血點破工廠轉型癥結點
智慧製造業界常見迷思有哪些?
《即刻揭秘》