Materi 06 · Core ML

Algoritma ML Klasik

Sebelum neural network meledak, dunia ML didominasi algoritma klasik yang masih dipakai sampai hari ini: Decision Tree, Random Forest, SVM, KNN, dan Naive Bayes. Pelajari kapan masing-masing menang.

⏱ 30 Menit🎯 Intermediate📚 Module 6/15

1. Decision Tree

Pohon keputusan — di setiap node, split data berdasarkan feature & threshold yang memaksimalkan information gain (atau Gini impurity).

Information Gain IG(parent, split) = Entropy(parent) − Σ wᵢ × Entropy(child_i)
// Pilih split yang memaksimalkan IG

🌳

Decision Tree

Sangat interpretable. Bisa visualisasi sebagai if-else.

✓ Mudah dijelaskan stakeholder

✗ Mudah overfitting

🌲

Random Forest

Banyak decision tree (bagging) — voting jadi prediksi.

✓ Robust, akurasi tinggi

✗ Slower, less interpretable

2. Gradient Boosting (XGBoost, LightGBM)

Tree learner sequential — tiap tree mengoreksi error tree sebelumnya. State-of-the-art untuk tabular data sampai sekarang.

Tools Industri

XGBoost — original, dominan kompetisi Kaggle 2014-2018. LightGBM (Microsoft) — lebih cepat dengan histogram binning. CatBoost (Yandex) — handle categorical features otomatis. Kalau kamu kerja dengan data tabular di industri, salah satunya jadi default.

3. Support Vector Machine (SVM)

Cari hyperplane yang memisahkan kelas dengan margin maksimal. Powerful untuk dataset menengah dengan dimensi tinggi.

SVM Decision f(x) = w·x + b
predict class 1 if f(x) ≥ 0, else class 0
// Goal: maximize margin antara hyperplane dan support vectors

Linear SVM: data linearly separable. Cepat, sederhana.
Kernel trick: mapping ke dimensi lebih tinggi tanpa eksplisit hitung. RBF kernel populer.
Pro: efektif di high-dimension, robust di small dataset.
Con: tidak scale bagus di dataset besar (>100K samples).

4. K-Nearest Neighbors (KNN)

Algoritma "lazy learning" — tidak ada training fase. Saat predict: cari K data terdekat, voting (klasifikasi) atau average (regresi).

Euclidean Distance d(p, q) = √Σ(pᵢ − qᵢ)²
// Pilihan jarak: Euclidean, Manhattan, Cosine, dll

⚠️ Catatan

Curse of Dimensionality

KNN memburuk drastis di high-dimension space. Saat dimensi naik, "jarak" antar point jadi seragam — tidak ada yang benar-benar "dekat". Solusinya: dimensionality reduction (PCA) sebelum KNN, atau pilih algoritma lain.

5. Naive Bayes

Klasifikasi probabilistik berdasarkan Bayes' theorem dengan asumsi naif: feature saling independen. Sederhana tapi efektif untuk teks.

Naive Bayes P(class | features) ∝ P(class) × Π P(featureᵢ | class)
// Pilih class dengan probability tertinggi

Use case klasik: spam filter email. Kata-kata di email = features.
Cepat training & predict — bahkan untuk dataset besar.
Asumsi independen sering tidak valid, tapi tetap perform baik dalam praktik.
Variants: Multinomial NB (text), Gaussian NB (continuous), Bernoulli NB (binary).

6. Cara Memilih Algoritma

Situasi	Algoritma Disarankan
Tabular data, butuh akurasi tinggi	XGBoost / LightGBM
Butuh interpretability	Decision Tree, Logistic Reg
Dataset kecil (<1000)	SVM, Random Forest
Text classification	Naive Bayes (baseline) → BERT
Recommendation	KNN, Matrix Factorization
High-dimension, small data	SVM dengan kernel
Image / sequence	Neural Network (lihat materi 7)

7. Studi Kasus

🌟 Real World

Kompetisi Kaggle: XGBoost Era

Dari 2014-2018, hampir setiap kompetisi Kaggle dengan tabular data dimenangkan oleh tim yang pakai XGBoost (atau ensemble darinya). Bahkan deep learning sering kalah untuk tabular.

Pelajaran: tidak semua masalah butuh deep learning. Untuk credit scoring, churn prediction, demand forecasting — gradient boosting masih jadi king. Pilih tools sesuai problem, bukan sesuai hype.

📝 Tugas

Algorithm Comparison

Pilih dataset klasifikasi dari Kaggle (mis. Titanic, Wine Quality).
Train 5 algoritma: Logistic Regression, Decision Tree, Random Forest, XGBoost, SVM.
Bandingkan accuracy, training time, F1 score di test set.
Plot feature importance dari Random Forest dan XGBoost — apakah konsisten?
Tulis rekomendasi: algoritma mana yang akan kamu deploy & mengapa.

Rangkuman

Decision Tree = interpretable but overfit. Random Forest = ensemble untuk robust.
XGBoost / LightGBM = state-of-the-art untuk tabular data.
SVM = powerful di high-dimension, small data.
KNN = lazy learning, baik untuk recommendation tapi suffer di high-dim.
Naive Bayes = sederhana, cepat, baseline kuat untuk teks.
No free lunch theorem: tidak ada algoritma terbaik universal — tergantung data & problem.