Materi 26 - Programming dan Data Science

Big Data dan Cloud

Skill yang dicari di era data eksplosif. Spark, BigQuery, distributed computing.

Durasi 28 Menit Level advanced Kurikulum 30 Materi

1. Kenapa Big Data

Data tumbuh exponensial. Single machine tidak cukup. Butuh distributed computing untuk proses TB atau PB data. Skill ini valuable di MNC dan unicorn.

2. Apache Spark

Engine distributed computing dominan. Bahasa: Python (PySpark), Scala, Java. DataFrame API mirip Pandas tapi distributed. RDD untuk low-level. Streaming untuk real-time.

3. Cloud Data Platform

BigQuery (Google). Snowflake (multi-cloud). Redshift (AWS). Synapse (Azure). Tools-as-a-Service: skip infrastruktur, fokus analitik. Pricing per query atau storage.

4. Data Lake vs Data Warehouse

Data Lake: raw data, structured plus unstructured, cheap storage. Data Warehouse: structured, optimized untuk analytics. Modern: data lakehouse (best of both).

5. Streaming Data

Real-time vs batch. Apache Kafka untuk message queue. Spark Streaming, Flink untuk processing. Use case: fraud detection, real-time dashboard, IoT analytics.

Tugas Praktik

  1. Setup PySpark di local atau Databricks
  2. Praktek DataFrame API dengan dataset besar
  3. Buat akun BigQuery (free tier) dan run query
  4. Bandingkan Spark vs Pandas untuk dataset 10 GB
  5. Eksplor architecture Lakehouse di Databricks atau Snowflake

Rangkuman