80 persen pekerjaan data scientist. Cara handle missing, outlier, dan eksplor data.
Missing values. Duplicate rows. Outlier ekstrem. Inkonsisten format (uppercase vs lowercase, format tanggal beda). Wrong data type. Garbage data dari sensor atau input error. Wajib di-handle sebelum analisis.
Drop (kalau sedikit dan random). Impute dengan mean atau median (numeric). Impute dengan mode (categorical). Forward atau backward fill (time series). Predictive imputation (advanced).
Visualization (boxplot). Statistical (z-score, IQR). Domain knowledge (umur 200 jelas salah). Treatment: remove, cap, transform (log), atau model robust.
Histogram untuk numeric. Bar chart untuk categorical. Boxplot untuk perbandingan grup. Cari skewness, multimodal, outlier. Penting untuk pilih analytics yang tepat.
Hubungan antar 2 variabel. Pearson untuk linear. Spearman untuk monotonic. Heatmap untuk visualisasi korelasi banyak variabel sekaligus. Hati-hati: korelasi bukan kausalitas.