強化学習エンジニアのための非収束エージェントの体系的デバッグ入門
強化学習エージェントの非収束問題に体系的にアプローチし、診断から解決策の実装までを習得する実践的なコースです。
...
Share
非収束の根本原因特定と診断
Unit 1: 非収束の基礎と一般的な原因
非収束って何?
報酬設計の落とし穴
環境ダイナミクスの影響
ハイパーパラメータの罠
Unit 2: 体系的な診断アプローチ
デバッグの第一歩
ログを読み解く
TensorBoardで深掘り
エージェントの心を読む
非収束の緩和戦略とパフォーマンス評価
Unit 1: 報酬設計による緩和
報酬シェーピング入門
効果的な報酬設計
Unit 2: 学習プロセス最適化
カリキュラム学習の力
高度なカリキュラム戦略
Unit 3: ハイパーパラメータの最適化
ロバストなHPOの基礎
集団ベースの訓練
ベイズ最適化
Unit 4: パフォーマンス評価と分析
評価メトリクスと分析