Sebelum neural network meledak, dunia ML didominasi algoritma klasik yang masih dipakai sampai hari ini: Decision Tree, Random Forest, SVM, KNN, dan Naive Bayes. Pelajari kapan masing-masing menang.
Pohon keputusan β di setiap node, split data berdasarkan feature & threshold yang memaksimalkan information gain (atau Gini impurity).
IG(parent, split) = Entropy(parent) β Ξ£ wα΅’ Γ Entropy(child_i)Sangat interpretable. Bisa visualisasi sebagai if-else.
Banyak decision tree (bagging) β voting jadi prediksi.
Tree learner sequential β tiap tree mengoreksi error tree sebelumnya. State-of-the-art untuk tabular data sampai sekarang.
XGBoost β original, dominan kompetisi Kaggle 2014-2018. LightGBM (Microsoft) β lebih cepat dengan histogram binning. CatBoost (Yandex) β handle categorical features otomatis. Kalau kamu kerja dengan data tabular di industri, salah satunya jadi default.
Cari hyperplane yang memisahkan kelas dengan margin maksimal. Powerful untuk dataset menengah dengan dimensi tinggi.
f(x) = wΒ·x + bpredict class 1 if f(x) β₯ 0, else class 0Algoritma "lazy learning" β tidak ada training fase. Saat predict: cari K data terdekat, voting (klasifikasi) atau average (regresi).
d(p, q) = βΞ£(pα΅’ β qα΅’)Β²KNN memburuk drastis di high-dimension space. Saat dimensi naik, "jarak" antar point jadi seragam β tidak ada yang benar-benar "dekat". Solusinya: dimensionality reduction (PCA) sebelum KNN, atau pilih algoritma lain.
Klasifikasi probabilistik berdasarkan Bayes' theorem dengan asumsi naif: feature saling independen. Sederhana tapi efektif untuk teks.
P(class | features) β P(class) Γ Ξ P(featureα΅’ | class)| Situasi | Algoritma Disarankan |
|---|---|
| Tabular data, butuh akurasi tinggi | XGBoost / LightGBM |
| Butuh interpretability | Decision Tree, Logistic Reg |
| Dataset kecil (<1000) | SVM, Random Forest |
| Text classification | Naive Bayes (baseline) β BERT |
| Recommendation | KNN, Matrix Factorization |
| High-dimension, small data | SVM dengan kernel |
| Image / sequence | Neural Network (lihat materi 7) |
Dari 2014-2018, hampir setiap kompetisi Kaggle dengan tabular data dimenangkan oleh tim yang pakai XGBoost (atau ensemble darinya). Bahkan deep learning sering kalah untuk tabular.
Pelajaran: tidak semua masalah butuh deep learning. Untuk credit scoring, churn prediction, demand forecasting β gradient boosting masih jadi king. Pilih tools sesuai problem, bukan sesuai hype.