【Live配信セミナー 11/11】強化学習の基礎・発展と機械・ロボット制御への応用

セミナー情報 / 2025年09月01日 / ロボット IT・情報通信建設・プラント

イベント名	強化学習の基礎・発展と機械・ロボット制御への応用
開催期間	2025年11月11日（火）１０：３０～１６：３０
会場名	ZOOMを利用したLive配信　※会場での講義は行いません
会場の住所	東京都
お申し込み期限日	2025年11月10日（月）15時
お申し込み

＜セミナー　No.511413＞
【Live配信 or アーカイブ配信】

強化学習の基礎・発展と

機械・ロボット制御への応用

★強化学習法の基礎、応用に向けた報酬の設計指針や対処法について解説

■　講師
国立情報学研究所　情報学プリンシプル研究系　助教　博士（工学）　小林泰介氏

■　聴講料： 1名につき５５，０００円（消費税込・資料付き）

〔１社２名以上同時申込の場合１名につき４９，５００円（税込）〕
〔大学、公的機関、医療機関の方には割引制度があります。詳しくはお問い合わせください〕

■　プログラム

【講演ポイント】
　これまでのAIは用意された膨大なデータセットからデータ間に潜む関係性を見出すことが中心的な役割でした．これに対して，最近はロボットやゲームAIなどのエージェントが自ら試行錯誤して得た経験データに基づいて学習して，目的を達成できる行動のルール（方策）を獲得する強化学習への注目が高まっています．
　これは明示的な正解データを用意せずとも，望ましい結果を定量的に表すことでユーザーが思いもしない優れた方策を見出す事例が数多く報告され，家電からロボットまで幅広い分野で期待が高まっています．
　本講座では，このような期待の技術である強化学習について，これまでのAIとは異なる学習方法が何故必要なのか？という根幹から，学習法の基礎を概説します．また，ロボットなどの機械制御への応用が特に期待される最新の強化学習アルゴリズムについてや，応用の際に悩みの種となりやすい　報酬の設計指針や対処法についても実際の応用事例と合わせて紹介します．

【プログラム】
１．強化学習とは
　1.1 強化学習の目的
　1.2 マルコフ決定過程
　1.3 学習すべき要素
２．学習アルゴリズムの基礎
　2.1 価値関数の学習
　2.2 方策関数の学習
　2.3 深層強化学習でのテクニック
３．最新のActor-Criticアルゴリズム
　3.1 改善へのエッセンス
　3.2 方策更新の制限：TRPO/PPO
　3.3 直接的な方策勾配の計算：DDPG/TD3
　3.4 方策エントロピーの最大化：SQL/SAC
４．モデルベース強化学習
　4.1 世界モデルの学習
　4.2 世界モデルの活用法
　4.3 既存モデルの活用法
５．報酬設計の課題と対策
　5.1 疎な報酬
　5.2 多目的性
　5.3 エキスパートの模倣
　5.4 学習難易度の調整

【質疑応答】

セミナーの詳細についてはお気軽にお問い合わせください。

このページに関するお問い合わせ

【前のページ】

【Live配信セミナー 11/7】ファインバブルの洗浄応用と計測、評価技術
HOME
【次のページ】

【Live配信セミナー 11/13】全固体電池の開発動向と電池特性改善に向けた界面設計技術

サイト内検索

セミナー・書籍新着情報

カテゴリー別

技術情報協会アーカイブ