Skill yang dicari di era data eksplosif. Spark, BigQuery, distributed computing.
Data tumbuh exponensial. Single machine tidak cukup. Butuh distributed computing untuk proses TB atau PB data. Skill ini valuable di MNC dan unicorn.
Engine distributed computing dominan. Bahasa: Python (PySpark), Scala, Java. DataFrame API mirip Pandas tapi distributed. RDD untuk low-level. Streaming untuk real-time.
BigQuery (Google). Snowflake (multi-cloud). Redshift (AWS). Synapse (Azure). Tools-as-a-Service: skip infrastruktur, fokus analitik. Pricing per query atau storage.
Data Lake: raw data, structured plus unstructured, cheap storage. Data Warehouse: structured, optimized untuk analytics. Modern: data lakehouse (best of both).
Real-time vs batch. Apache Kafka untuk message queue. Spark Streaming, Flink untuk processing. Use case: fraud detection, real-time dashboard, IoT analytics.