定價: | ||||
售價: | 702元 | |||
庫存: | 已售完 | |||
LINE US! | 詢問這本書 團購優惠、書籍資訊 等 | |||
此書籍已售完,調書籍需2-5工作日。建議與有庫存書籍分開下單 | ||||
付款方式: | 超商取貨付款 |
![]() |
|
信用卡 |
![]() |
||
線上轉帳 |
![]() |
||
物流方式: | 超商取貨 | ||
宅配 | |||
門市自取 |
為您推薦
類似書籍推薦給您
本暢銷系列作品的第4本書,這次的主題是強化學習。書中延續此系列的一貫風格,顯示實際的程式碼,讓讀者邊執行邊學習,不依賴外部程式庫,從零開始建置、學習支撐強化學習的基本技術與概念。 從「理論」與「實踐」兩方面著手,仔細解說強化學習這個複雜主題的構成要素,讓讀者確實掌握強化學習的獨特理論。有別於只用公式說明理論的書籍,讀者可以從書中的程式碼,獲得許多意想不到的領悟。 回頁首 斎藤康毅 1984年生於長崎縣對馬,畢業於東京工業大學工學院,東京大學研究所學際情報學府學士課程修畢。現在於企業內從事與電腦視覺、機器學習有關的研究開發工作。1984年生於長崎縣對馬,畢業於東京工業大學工學院,東京大學研究所學際情報學府學士課程修畢。現在於企業內從事與電腦視覺、機器學習有關的研究開發工作。 目錄 第 1 章 吃角子老虎機問題 第 2 章 馬可夫決策過程 第 3 章 貝爾曼方程式 第 4 章 動態規劃法 第 5 章 蒙地卡羅法 第 6 章 TD 法 第 7 章 類神經網路與 Q 學習 第 8 章 DQN 第 9 章 策略梯度法 第 10 章 進階內容 附錄 A 離線策略蒙地卡羅法 附錄 B n 步 TD 法 附錄 C 理解 Double DQN 附錄 D 驗證策略梯度法
類似書籍推薦給您
商品描述 本書特色 1.本書從假設與理論開始討論,再進入演算法與範例,讓讀者了解整體架構的來龍去脈。 2.每章的開始先綜述該章的主要內容,讓讀者有大方向的了解,再進入細節的討論。 3.相關概念以圖示方式呈現,讀者較易理解與統整。 4.每章搭配範例與程式碼,徹底了解演算法特性。 5.每章結尾作重點回顧,條列該章裡重要概念,方便讀者確認學習重點。 6.本書適用於自學、大學或科大課程教科書與實作專題的輔助教材,以及業界工程師快速奠定強化學習基礎概念與實作能力的教學書籍。 內容簡介 近年來因人工智慧興起,帶起許多學生、工程師與學者開始投入相關技術的學習、研究和開發。早期談到人工智慧,大部分會聯想到機器學習中的監督式學習和非監督式學習。然而監督或非監督式學習較難處理動態系統,機器學習技術的另一個分支─強化學習,剛好補足此缺口。強化學習的應用相當廣,最有名的兩個例子為AlphaGo透過資料學習在圍棋比賽上屢獲佳績,以及Google利用強化學習技術,優化資料中心的運作,進而減少40%的冷卻花費。本書以奠定基本功為目的,一步步帶領讀者建構完整的強化學習知識,介紹的相關概念包含:動態規劃、蒙地卡羅法、1步時間差分法、n步時間差分法、近似解法、規劃與學習、資格跡與學習、策略梯度法。 目錄大綱 第1章 強化學習框架 1-1 強化學習主要元素與馬可夫決策過程 1-2 範例1.1 1-3 策略和價值函數 1-4 範例1.2 1-5 最佳策略和最佳價值函數 重點回顧 章末練習 第2章 動態規劃 2-1 策略評估 2-2 策略改進 2-3 範例2.1與程式碼 2-4 策略疊代和價值疊代 2-5 動態規劃的優缺點與異步更新 2-6 範例2.2與程式碼 2-7 廣義策略疊代 重點回顧 章末練習 第3章 蒙地卡羅法 3-1 蒙地卡羅預測 3-2 同策略與異策略法 3-3 同策略蒙地卡羅控制 3-4 範例3.1與程式碼 3-5 異策略與重要性抽樣 3-6 異策略蒙地卡羅預測 3-7 異策略蒙地卡羅控制 重點回顧 章末練習 第4章 1步時間差分法 4-1 時間差分法 4-2 Sarsa和Q學習 4-3 範例4.1與程式碼 4-4 期望Sarsa 重點回顧 章末練習 第5章 5-1 n步時間差分預測 5-2 n步Sarsa與n步期望Sarsa 5-3 範例5.1與程式碼 5-4 異策略n步時間差分控制 重點回顧 章末練習 第6章 近似解法 6-1 函數近似與隨機梯度下降 6-2 同策略梯度與半梯度預測 6-3 同策略回合式半梯度控制 6-4 範例6.1與程式碼 6-5 異策略深度Q網路 6-6 同策略差分半梯度控制 重點回顧 章末練習 第7章 規劃與學習 7-1 規劃 7-2 範例7.1與程式碼 7-3 優先掃掠 7-4 內在動機 7-5 範例7.2與程式碼 重點回顧 章末練習 第8章 資格跡與學習 8-1 資格跡和λ報酬 8-2 半梯度TD(λ)和回合式半梯度Sarsa(λ) 8-3 資格跡和表格解法 8-4 範例8.1與程式碼 重點回顧 章末練習 第9章 策略梯度法 9-1 策略梯度與策略參數更新 9-2 簡樸策略梯度演算法 9-3 增強演算法 9-4 行動者評論家演算法 9-5 範例9.1與程式碼 重點回顧 章末練習 參考文獻 名詞索引