Materi 05 · Core ML

Unsupervised Learning

Belajar tanpa label — biarkan algoritma menemukan struktur tersembunyi di data. Clustering, dimensionality reduction, dan anomaly detection adalah pintu ke insight yang tak terlihat sebelumnya.

⏱ 28 Menit🎯 Intermediate📚 Module 5/15

1. Konsep Dasar

Tidak ada "jawaban benar". Algoritma harus menemukan pola sendiri di data. Tujuan: mengelompokkan, menyederhanakan, atau mendeteksi anomali tanpa supervisi manusia.

Kapan Tidak Punya Label?

Lebih sering daripada yang kamu kira. Customer behavior data, log server, transaksi, dokumen teks mentah — semuanya tidak datang berlabel. Labeling manual butuh ribuan jam manusia. Unsupervised = jalan keluar.

2. Tiga Tugas Utama

🎨

Clustering

Grouping data point yang mirip. Customer segmentation, image grouping, document topics.

📉

Dimensionality Reduction

Kompresi data dari banyak feature ke sedikit. Visualisasi, noise reduction, speed.

🚨

Anomaly Detection

Deteksi data point yang berbeda dari kebanyakan. Fraud, server error, manufacturing defect.

3. K-Means Clustering

Algoritma clustering paling populer. Sederhana, cepat, efektif untuk banyak kasus.

K-Means Algorithm 1. Pilih K (jumlah cluster)
2. Random init K centroid
3. Assign tiap point ke centroid terdekat
4. Update centroid = mean dari point di cluster-nya
5. Repeat 3-4 sampai centroid tidak berubah

⚠️ Hati-hati

Pilih K dengan Elbow Method

K-means butuh K (jumlah cluster) di-tentukan upfront. Pakai Elbow Method: plot WCSS (within-cluster sum of squares) vs K. Cari titik di mana penurunan mulai melambat — itu K optimal.

Pro: sederhana, cepat, mudah dipahami stakeholder.
Con: butuh K upfront, sensitive terhadap initialization, asumsi cluster spherical.
Kapan jangan pakai: data dengan cluster non-convex (mis. setengah bulan), banyak outlier.

4. Algoritma Clustering Lainnya

Algoritma	Karakter	Cocok untuk
K-Means	Centroid-based, butuh K	Data balanced, cluster bulat
Hierarchical	Tree dendogram, no K needed	Eksplorasi, dataset kecil-medium
DBSCAN	Density-based, deteksi outlier	Cluster bentuk arbitrer, ada noise
GMM	Probabilistic, soft clustering	Cluster overlap, butuh probability
Mean Shift	Mode-seeking, no K needed	Image segmentation

5. PCA — Principal Component Analysis

Teknik dimensionality reduction paling klasik. Cari "axis baru" di mana data paling tersebar (variance tertinggi).

PCA Workflow 1. Standarisasi data (mean=0, std=1)
2. Hitung covariance matrix
3. Hitung eigenvalue & eigenvector
4. Urutkan eigenvalue dari besar ke kecil
5. Pilih top-K eigenvector → axis baru
6. Project data ke axis baru

Use case: visualisasi data 100D ke 2D/3D.
t-SNE & UMAP: alternatif modern untuk visualisasi non-linear, lebih bagus untuk cluster reveal.
Autoencoder: versi neural network — bisa capture non-linear patterns.

6. Anomaly Detection

Statistical: z-score, IQR. Cocok untuk univariate, distribusi normal.
Isolation Forest: isolasi anomali dengan random partition. Cepat, scalable.
One-Class SVM: belajar boundary "normal", apa pun di luar = anomali.
Autoencoder: train rekonstruksi data normal. High reconstruction error = anomali.

7. Studi Kasus

🌟 Real World

Tokopedia: Customer Segmentation 100 Juta User

Tokopedia memakai clustering untuk segmentasi 100+ juta user berdasarkan behavior: frequency, recency, average order value, kategori favorit, payment method, dst.

Hasilnya: 8 segmen utama dari "Bargain Hunters" sampai "Premium Loyalists". Setiap segmen dapat treatment marketing berbeda — push notification, email content, voucher value. Pelajaran: clustering bukan untuk academic — tapi action layer di marketing & product.

📝 Tugas

Customer Segmentation

Cari dataset retail (Kaggle: "Online Retail" atau "Mall Customer Segmentation").
Pakai K-Means dengan K dari Elbow Method untuk segment customer.
Visualisasi hasil dengan PCA 2D atau t-SNE.
Interpretasikan tiap cluster: apa karakteristiknya?
Rancang 1 strategi marketing berbeda untuk 3 cluster terbesar.

Rangkuman

Unsupervised = belajar pola tanpa label. Clustering, dim reduction, anomaly.
K-Means = clustering paling populer, butuh K upfront, pakai Elbow Method.
PCA = compress dimensi sambil pertahankan variance.
Anomaly detection = deteksi outlier untuk fraud, defect, intrusion.
Output unsupervised harus actionable — segmen tanpa marketing strategy = sia-sia.