Tipe ML paling banyak dipakai di industri. Belajar dari data berlabel untuk memprediksi nilai (regresi) atau kategori (klasifikasi). Pondasi yang harus kamu kuasai.
Pembelajaran dari pasangan (input, output) di mana output sudah dilabel manusia. Model belajar memetakan input ke output, lalu bisa prediksi output untuk input baru yang belum pernah dilihat.
Bayangkan mengajari anak membedakan kucing & anjing. Kamu tunjuk ratusan foto: "ini kucing", "ini anjing", "ini kucing lagi". Setelah cukup banyak contoh, anak bisa mengidentifikasi binatang baru. Itu supervised learning.
Prediksi nilai kontinu. Output: angka. Contoh: harga rumah, suhu besok, demand 30 hari ke depan.
Prediksi kategori. Output: kelas. Contoh: spam/bukan, sentimen positif/negatif, gambar kucing/anjing.
| Aspek | Regresi | Klasifikasi |
|---|---|---|
| Output | Bilangan kontinu | Label diskrit (kelas) |
| Loss Function | MSE, MAE, RMSE | Cross-entropy, log-loss |
| Metric | R², MAE, MAPE | Accuracy, F1, AUC |
| Algoritma | Linear Reg, Polynomial, Tree | Logistic, SVM, RF, NN |
| Contoh | Forecast revenue | Deteksi fraud |
Model paling sederhana — fit garis lurus melalui data. Tetap relevan karena interpretable dan jadi baseline.
ŷ = w·x + b// untuk multivariate:ŷ = w₁·x₁ + w₂·x₂ + ... + wₙ·xₙ + bMSE = (1/n) · Σ (yᵢ − ŷᵢ)²Walau namanya "regression", ini algoritma klasifikasi binary. Output di-pass ke fungsi sigmoid → probabilitas kelas (0-1).
σ(z) = 1 / (1 + e^(−z))if σ(z) ≥ 0.5: predict class 1else: predict class 01. Frame Problem — definisikan input, output, dan apakah regresi/klasifikasi.
2. Collect Data — kumpulkan dataset berlabel berkualitas (garbage in, garbage out).
3. Explore & Clean — EDA, handle missing, outlier, duplikat.
4. Feature Engineering — encoding, scaling, feature creation.
5. Split Data — train (70%), validation (15%), test (15%).
6. Train & Tune — pilih algoritma, hyperparameter tuning.
7. Evaluate & Deploy — metric pada test set, deploy ke production.
Jangan masukkan informasi yang tidak akan tersedia saat prediksi. Contoh: prediksi gagal bayar tapi feature-nya termasuk "tunggakan bulan terakhir" yang baru ada setelah event terjadi. Model akan terlihat "sangat akurat" di training tapi gagal total di production.
Fintech Kredivo memakai supervised learning untuk predict gagal bayar (klasifikasi) dan credit limit (regresi) berdasarkan ratusan feature: histori transaksi, demografi, behavior aplikasi, alternative data dari smartphone.
Model tradisional bank butuh slip gaji + agunan. Model ML Kredivo bisa setujui aplikasi dalam 2 menit dengan default rate kompetitif. Pelajaran: supervised learning + alternative data = financial inclusion untuk segmen unbanked.