AIソリューションアーキテクト向けApache Sparkによる大規模データ処理入門
Apache Sparkの基礎から応用までを習得し、AI/MLワークロードのためのスケーラブルなデータ処理アーキテクチャを設計する能力を養います。
...
Share
Apache Sparkの基礎とデータ処理の基本
Unit 1: Sparkの基本概念とアーキテクチャ
Sparkとは?
Sparkの仕組み
Unit 2: Sparkのデータ抽象化
RDDsの基礎
DataFramesの力
Datasetsの活用
Unit 3: PySparkによるデータ操作
PySpark入門
変換とアクション
Spark SQLでデータ探索
Sparkによるデータ統合とパフォーマンス最適化
Unit 1: Sparkと外部データソースの連携
データソース接続の基本
クラウドストレージ連携
データウェアハウス連携
Unit 2: Sparkパフォーマンス最適化の基礎
Spark UIでジョブ分析
キャッシュ戦略
パーティショニングの力
Unit 3: 高度な最適化テクニック
シャッフル最適化
データスキュー対策