◆深度強化學習(Deep Reinforcement Learning)簡介 ˙人工智慧環境(Environment)與智慧代理人(Agent) ˙策略與規劃(Policy and Planning) ˙價值函數(Value Function) ˙運作模型(Model) ˙酬勞與懲罰(Reward) ˙最優價值函數(Optimal Value Function) ˙馬可夫決策問題(MDP)◆圖表化及逼近式 (Tabular and Approximation)解決方案 ˙有限馬可夫決策處理(FMDP) ˙動態規劃(Dynamic Programming) ˙蒙地卡羅方法(Monte Carlo Method) ˙時間差分學習(Time-Difference Learning) ˙Q學習(Q-Learning) ˙策略梯度法(Policy Gradient Method) ◆類神經深度強化學習 ˙深度Q學習網路(Deep Q-Learning Network) ˙TensorFlow DQN ˙OpenAI Gym ˙Actor Critic ˙Deep Deterministic Policy Gradients(DDPG) ˙Asynchronous Advantage Actor-Critic (A3C) ˙Distributed Proximal Policy Optimization (DPPO) ◆人工智慧深度強化學習個案研究 ˙AlphaGo設計理念與方法 ˙問答系統強化學習 ˙汽車避撞系統模擬 ˙自駕車強化學習 ˙Q-learning Gridworld Player ˙Atari Ping Pong Player
詳細課程內容請參考以下網址:http://www.iiiedu.org.tw/ites/REF.htm
- 新聞稿有效日期,至2019/04/27為止
聯絡人 :張先生 聯絡電話:(02)6631-6539 電子郵件:alanchang@iii.org.tw
上一篇:安森美半導體-馬達驅動器模組方案套件圖形使用者介面(GUI)培訓教材
下一篇:人工智慧工業自動檢測(AOI)與視覺辨識設計 (台北6/20)
|
■ 我在中國工作的日子(十四)阿里巴巴敢給股票 - 2023/07/02 ■ 我在中國工作的日子(十三)上億會員怎麼管理 - 2023/06/25 ■ 我在中國工作的日子(十二)最好的公司支付寶 - 2023/06/18 ■ 我在中國工作的日子(十一)兩個女人一個男人 - 2023/06/11 ■ 我在中國工作的日子(十)千團大戰影音帶貨 - 2023/06/04 ■ 我在中國工作的日子(九)電視購物轉型電商 - 2023/05/28 ■ 我在中國工作的日子(八)那些從台灣來的人 - 2023/05/21 ■ 我在中國工作的日子(七)嘉丰資本擦身而過 - 2023/05/14 ■ 我在中國工作的日子(六)跟阿福有關的人們 - 2023/05/07
|