Akurasi 95% bisa menyesatkan. Pahami metric yang tepat untuk problem-mu, kapan pakai precision vs recall, ROC-AUC, cross-validation, dan cara mendeteksi overfitting sebelum produksi.
Tabel 2x2 (untuk binary klasifikasi) yang merinci tipe prediksi: benar atau salah, dan ke arah mana.
Accuracy = (TP + TN) / (TP + TN + FP + FN)Precision = TP / (TP + FP)Recall = TP / (TP + FN)F1 = 2 × (Precision × Recall) / (Precision + Recall)Precision penting kalau false positive mahal — mis. spam filter (jangan blok email bisnis penting). Recall penting kalau false negative mahal — mis. medical diagnosis (jangan miss kanker), fraud detection.
ROC = Receiver Operating Characteristic. Plot True Positive Rate vs False Positive Rate di berbagai threshold. AUC = area under curve, 0.5 (random) sampai 1.0 (perfect).
| Metric | Rumus | Karakter |
|---|---|---|
| MAE | (1/n)·Σ|y − ŷ| | Mudah dibaca, robust ke outlier |
| MSE | (1/n)·Σ(y − ŷ)² | Penalize besar untuk error besar |
| RMSE | √MSE | Same unit as target, popular |
| R² | 1 − SS_res/SS_tot | Variance dijelaskan model (0-1) |
| MAPE | (1/n)·Σ|y−ŷ|/y × 100% | Error sebagai persentase |
1× train-test split bisa lucky/unlucky. Cross-validation = train multiple kali di subset berbeda, average hasilnya untuk estimasi generalisasi yang lebih reliabel.
Underfit: training error tinggi + validation error tinggi. Solusi: model lebih kompleks, lebih banyak feature, train lebih lama.
Overfit: training error rendah + validation error tinggi (gap besar). Solusi: regularization, lebih banyak data, dropout, simpler model.
Just right: training error rendah + validation error rendah, gap kecil. Goal yang dicari.
Sebuah model deteksi kanker melaporkan accuracy 99%. Terdengar bagus? Tapi ternyata kanker hanya terjadi di 1% populasi — model "selalu predict bukan kanker" akan accuracy 99% juga.
Yang penting di medical: Recall (sensitivity) tinggi. Model harus deteksi sebanyak mungkin kasus kanker walau ada false alarm. False positive bisa di-konfirmasi dengan tes lanjut. False negative = nyawa hilang. Pilih metric sesuai dampak bisnis/sosial.