Materi 19 - Programming dan Data Science

Data Cleaning dan EDA

80 persen pekerjaan data scientist. Cara handle missing, outlier, dan eksplor data.

Durasi 30 Menit Level intermediate Kurikulum 30 Materi

1. Data Quality Issues

Missing values. Duplicate rows. Outlier ekstrem. Inkonsisten format (uppercase vs lowercase, format tanggal beda). Wrong data type. Garbage data dari sensor atau input error. Wajib di-handle sebelum analisis.

2. Handle Missing Values

Drop (kalau sedikit dan random). Impute dengan mean atau median (numeric). Impute dengan mode (categorical). Forward atau backward fill (time series). Predictive imputation (advanced).

3. Outlier Detection

Visualization (boxplot). Statistical (z-score, IQR). Domain knowledge (umur 200 jelas salah). Treatment: remove, cap, transform (log), atau model robust.

4. Eksplor Distribusi

Histogram untuk numeric. Bar chart untuk categorical. Boxplot untuk perbandingan grup. Cari skewness, multimodal, outlier. Penting untuk pilih analytics yang tepat.

5. Korelasi

Hubungan antar 2 variabel. Pearson untuk linear. Spearman untuk monotonic. Heatmap untuk visualisasi korelasi banyak variabel sekaligus. Hati-hati: korelasi bukan kausalitas.

Tugas Praktik

  1. Load dataset kotor dan identifikasi 5 jenis masalah
  2. Praktek 4 cara handle missing values
  3. Deteksi outlier dengan boxplot dan IQR
  4. Plot distribusi 5 variabel utama
  5. Buat correlation heatmap dan interpretasikan

Rangkuman