Multimodale KI für NLP-Ingenieure: Text- und Bildfusion von Grund auf

Meistern Sie die Grundlagen der multimodalen KI durch die Fusion von Text- und Bilddaten, um fortschrittliche NLP-Anwendungen zu entwickeln und reale Herausforderungen zu lösen.

Grundlagen der Multimodalen KI und Fusionsstrategien

Unit 1: Einführung in Multimodale KI

Unit 2: Fusionsstrategien für Text und Bild

Unit 3: Ausrichtung von Repräsentationen

Anwendung und Bewertung von Vision-Language Modellen

Unit 1: Einführung in vortrainierte VLMs

Unit 2: Praktische Anwendungen von VLMs

Unit 3: Bewertung und Ethik von VLMs