報酬ハッキングのための強化学習エンジニア向け創造的問題解決入門
強化学習システムにおける報酬ハッキングを特定、診断、軽減し、創造的問題解決フレームワークと高度なRL技術を適用して堅牢なAIエージェントを構築するためのコース。
...
Share
報酬ハッキングの診断と問題解決フレームワーク
Unit 1: 報酬ハッキングの基礎
RLと報酬の基本
報酬ハッキングとは?
ハッキングの根本原因
Unit 2: 報酬ハッキングの診断
ハッキングシナリオ分析
診断ツールと手法
Unit 3: 創造的問題解決フレームワーク
デザイン思考で解決
TRIZで矛盾を解く
SCAMPERでアイデア出し
高度な報酬設計と堅牢性戦略
Unit 1: 報酬ハッキング対策の高度な報酬整形
報酬整形入門
ポテンシャルベース整形
逆強化学習
内発的動機付け
Unit 2: 堅牢な学習のための正則化戦略
エントロピー正則化
好奇心駆動型探索
敵対的学習
Unit 3: 報酬ハッキングの検出と理解
堅牢な評価指標
解釈可能性ツール