生成AIアプリケーションエンジニアのためのvLLM、TensorRT-LLM、Hugging Face TGIによる推論最適化入門

生成AIアプリケーションのパフォーマンスとコスト効率を最大化するため、vLLM、TensorRT-LLM、Hugging Face TGIを用いたLLM推論の最適化技術と実践的なデプロイメント手法を習得します。

LLM推論の基礎とvLLMによる効率的なサービス構築

Unit 1: LLM推論の課題と最適化の必要性

Unit 2: vLLMの基礎とアーキテクチャ

Unit 3: vLLMによる推論サービスの構築

TensorRT-LLMとHugging Face TGIによる高度な最適化とスケーラブルなデプロイ

Unit 1: TensorRT-LLMの基礎と最適化

Unit 2: Hugging Face TGIによるスケーラブルなデプロイ

Unit 3: 推論ライブラリの比較と選択