生成AIアプリケーションエンジニアのためのvLLM、TensorRT-LLM、Hugging Face TGIによる推論最適化入門
生成AIアプリケーションのパフォーマンスとコスト効率を最大化するため、vLLM、TensorRT-LLM、Hugging Face TGIを用いたLLM推論の最適化技術と実践的なデプロイメント手法を習得します。
...
Share
LLM推論の基礎とvLLMによる効率的なサービス構築
Unit 1: LLM推論の課題と最適化の必要性
LLM推論の基本
推論のボトルネック
最適化の重要性
Unit 2: vLLMの基礎とアーキテクチャ
vLLMとは?
PagedAttentionの魔法
vLLMのアーキテクチャ
Unit 3: vLLMによる推論サービスの構築
vLLMで推論開始
高度な推論設定
パフォーマンス監視
TensorRT-LLMとHugging Face TGIによる高度な最適化とスケーラブルなデプロイ
Unit 1: TensorRT-LLMの基礎と最適化
TensorRT-LLMとは?
TensorRT-LLMの最適化
モデル変換とビルド
TensorRT-LLMで推論
Unit 2: Hugging Face TGIによるスケーラブルなデプロイ
Hugging Face TGI入門
TGIのDockerデプロイ
TGI推論エンドポイント
Unit 3: 推論ライブラリの比較と選択
最適化ライブラリの比較
最適なライブラリの選択