【為什麼我們要挑選這篇文章】大數據時代下,AI 工程師的地位水漲船高。 你是否聽到 AI 兩個字就覺得門檻高?別怕,GitHub 神人幫你推薦了 AI 菜鳥工程師的學習菜單。(責任編輯:陳伯安)
「《科技報橘》徵才中!跟我們一起定位台灣產業創新力 >> 詳細職缺訊息
快將你的履歷自傳寄至 jobs@fusionmedium.com」
本文經 AI 新媒體量子位(公眾號 ID:QbitAI)授權轉載,轉載請聯繫出處
作者:量子位/魚羊
自從有了強化學習(RL),AI 上能星海爭霸,下能雅達利(Atari)稱王,讓內行人沈醉,讓外行人驚奇。
這裡恰有一份標星過萬的強化學習資源,既有教程推薦,又有配套練習,網友學了都說好,並且還在實時更新。
入學要求並不高,只需要一些基礎的數學和機器學習知識。
紮實學習 AI 強化學習,大神推薦這兩個資源
想要入門強化學習,一份優質的課程必不可少。
強化學習資源千千萬,項目作者 Denny Britz 大力推薦這兩個:
以及 Richard Sutton 和 Andrew Barto 的《強化學習:簡介(第二版)》
Denny Britz 表示,這兩本書幾乎涵蓋了入門強化學習需要瞭解的大部分研究論文,基礎決定高度,理論知識還是要扎扎實實學起來。
理論有了,可書裡並沒有演算法練習。
別擔心,幫人幫到底,送佛送到西,Denny Britz 親自動手,用 Python,OpenAI Gym 和 Tensorflow 實現了大多數標準強化演算法,並把它們都共享了出來,方便大家配合教材使用。
在這份萬星資源里,每個文件夾都對應著教材的一個或多個章節。除了練習和解決方案之外,每個文件夾下還包含了一系列學習目標,基礎概念摘要,以及相關連結。
以基於模型的強化學習:使用動態規劃的策略迭代和值迭代這一章為例。
這一章配套的是 David Silver RL 課程的第三講,動態編程規劃。
首先是學習目標:
瞭解策略評估和策略改進之間的區別,以及這些流程如何相互作用
理解策略迭代演算法
理解值迭代演算法
瞭解動態規劃方法的局限性
設定好學習目標,這份教程還替你划了重點概念。
最後,奉上實戰演練。
大框架已經搭好,只需專注重點思考如何填空:
文後附標準答案:
循序漸進的學習課綱,新手老手都適合
這份教程現在涵蓋了以下演算法實現。
動態規劃策略評估
動態規劃策略迭代
動態規劃值迭代
蒙特卡洛預測
Epslion-Greedy 策略的蒙特卡洛控制
具有重要性抽樣的蒙特卡洛非策略控制
SARSA(策略 TD 學習)
Q 學習(非策略 TD 學習)
線性函數逼近的 Q 學習
雅達利遊戲的深度 Q 學習
雅達利遊戲的雙重深度 Q 學習
優先經驗回放的深度 Q 學習(施工中)
策略梯度:基線強化
策略梯度:基線 Actor-Critic 演算法
策略梯度:具有連續動作空間的基線 Actor-Critic 演算法
連續動作空間的確定性策略梯度(施工中)
DDPG(施工中)
異步優勢 Actor-Critic 演算法(A3C)
學習路徑如此清晰,這樣的優質資源,不存起來嗎?
(本文經 AI 新媒體 量子位 授權轉載,並同意 TechOrange 編寫導讀與修訂標題,原文標題為 〈GitHub 万星资源:强化学习算法实现,教程代码样样全,还有详细学习规划 〉,首圖來源:Unsplash, CC Licensed。)
延伸閱讀
工程師殺手級工具!一秒自動補齊後續程式碼,還支援 23 種程式語言
給自學機器學習的工程師:沒有學歷光環卻想找到工作,千萬注意履歷十大雷區!
工程師好用資源來了!超完整 Python 查詢表,程式碼複製貼上不用自己寫