Materi 08 · Core ML

Model Evaluation & Validation

Akurasi 95% bisa menyesatkan. Pahami metric yang tepat untuk problem-mu, kapan pakai precision vs recall, ROC-AUC, cross-validation, dan cara mendeteksi overfitting sebelum produksi.

⏱ 30 Menit🎯 Intermediate📚 Module 8/15

1. Confusion Matrix — Pondasi Evaluasi

Tabel 2x2 (untuk binary klasifikasi) yang merinci tipe prediksi: benar atau salah, dan ke arah mana.

Predict Positive

Predict Negative

Actual Positive

True Positive

False Negative

Actual Negative

False Positive

True Negative

2. Metric Klasifikasi

Accuracy Accuracy = (TP + TN) / (TP + TN + FP + FN)
// Hati-hati di class imbalance

Precision Precision = TP / (TP + FP)
// Dari yang di-predict positif, berapa yang benar?

Recall (Sensitivity) Recall = TP / (TP + FN)
// Dari semua yang sebenarnya positif, berapa yang berhasil di-deteksi?

F1 Score F1 = 2 × (Precision × Recall) / (Precision + Recall)
// Harmonic mean — penalty kalau salah satu rendah

💡 Insight

Precision vs Recall — Pilih Berdasarkan Cost

Precision penting kalau false positive mahal — mis. spam filter (jangan blok email bisnis penting). Recall penting kalau false negative mahal — mis. medical diagnosis (jangan miss kanker), fraud detection.

3. ROC Curve & AUC

ROC = Receiver Operating Characteristic. Plot True Positive Rate vs False Positive Rate di berbagai threshold. AUC = area under curve, 0.5 (random) sampai 1.0 (perfect).

AUC 0.5: model tidak lebih baik dari coin flip — buang.
AUC 0.7-0.8: acceptable untuk sebagian besar problem bisnis.
AUC 0.8-0.9: excellent.
AUC >0.95: curiga data leakage — terlalu bagus untuk benar.

4. Metric Regresi

Metric	Rumus	Karakter
MAE	(1/n)·Σ\|y − ŷ\|	Mudah dibaca, robust ke outlier
MSE	(1/n)·Σ(y − ŷ)²	Penalize besar untuk error besar
RMSE	√MSE	Same unit as target, popular
R²	1 − SS_res/SS_tot	Variance dijelaskan model (0-1)
MAPE	(1/n)·Σ\|y−ŷ\|/y × 100%	Error sebagai persentase

5. Cross-Validation

1× train-test split bisa lucky/unlucky. Cross-validation = train multiple kali di subset berbeda, average hasilnya untuk estimasi generalisasi yang lebih reliabel.

K-Fold CV: bagi data jadi K bagian. Train K kali, tiap kali pakai 1 bagian sebagai validation.
Stratified K-Fold: jaga proporsi kelas di tiap fold. Wajib untuk imbalanced data.
Leave-One-Out: K = N. Mahal tapi unbiased — untuk dataset sangat kecil.
TimeSeriesSplit: untuk time-series — train pada masa lalu, validate masa depan.

6. Overfitting vs Underfitting

Diagnosa via Learning Curve

Underfit: training error tinggi + validation error tinggi. Solusi: model lebih kompleks, lebih banyak feature, train lebih lama.

Overfit: training error rendah + validation error tinggi (gap besar). Solusi: regularization, lebih banyak data, dropout, simpler model.

Just right: training error rendah + validation error rendah, gap kecil. Goal yang dicari.

7. Studi Kasus

🌟 Real World

Medical Diagnosis: Kenapa Recall Lebih Penting

Sebuah model deteksi kanker melaporkan accuracy 99%. Terdengar bagus? Tapi ternyata kanker hanya terjadi di 1% populasi — model "selalu predict bukan kanker" akan accuracy 99% juga.

Yang penting di medical: Recall (sensitivity) tinggi. Model harus deteksi sebanyak mungkin kasus kanker walau ada false alarm. False positive bisa di-konfirmasi dengan tes lanjut. False negative = nyawa hilang. Pilih metric sesuai dampak bisnis/sosial.

📝 Tugas

Evaluation Deep Dive

Pilih dataset klasifikasi imbalanced (mis. credit fraud detection di Kaggle).
Train 1 model. Hitung: accuracy, precision, recall, F1, ROC-AUC.
Plot confusion matrix dan ROC curve.
Lakukan 5-fold stratified CV. Bandingkan dengan single train-test split.
Tuliskan rekomendasi: jika ini fraud detection bank, threshold mana yang akan kamu pakai dan mengapa?

Rangkuman

Accuracy menyesatkan di class imbalance — gunakan precision, recall, F1, AUC.
Pilih metric berdasarkan cost asimetri (FP vs FN).
Cross-validation lebih reliabel dari single train-test split.
Diagnosa overfit/underfit via learning curve.
Untuk regresi: MAE robust, RMSE popular, R² untuk variance explained.