Belajar tanpa label — biarkan algoritma menemukan struktur tersembunyi di data. Clustering, dimensionality reduction, dan anomaly detection adalah pintu ke insight yang tak terlihat sebelumnya.
Tidak ada "jawaban benar". Algoritma harus menemukan pola sendiri di data. Tujuan: mengelompokkan, menyederhanakan, atau mendeteksi anomali tanpa supervisi manusia.
Lebih sering daripada yang kamu kira. Customer behavior data, log server, transaksi, dokumen teks mentah — semuanya tidak datang berlabel. Labeling manual butuh ribuan jam manusia. Unsupervised = jalan keluar.
Grouping data point yang mirip. Customer segmentation, image grouping, document topics.
Kompresi data dari banyak feature ke sedikit. Visualisasi, noise reduction, speed.
Deteksi data point yang berbeda dari kebanyakan. Fraud, server error, manufacturing defect.
Algoritma clustering paling populer. Sederhana, cepat, efektif untuk banyak kasus.
1. Pilih K (jumlah cluster)2. Random init K centroid3. Assign tiap point ke centroid terdekat4. Update centroid = mean dari point di cluster-nya5. Repeat 3-4 sampai centroid tidak berubah
K-means butuh K (jumlah cluster) di-tentukan upfront. Pakai Elbow Method: plot WCSS (within-cluster sum of squares) vs K. Cari titik di mana penurunan mulai melambat — itu K optimal.
| Algoritma | Karakter | Cocok untuk |
|---|---|---|
| K-Means | Centroid-based, butuh K | Data balanced, cluster bulat |
| Hierarchical | Tree dendogram, no K needed | Eksplorasi, dataset kecil-medium |
| DBSCAN | Density-based, deteksi outlier | Cluster bentuk arbitrer, ada noise |
| GMM | Probabilistic, soft clustering | Cluster overlap, butuh probability |
| Mean Shift | Mode-seeking, no K needed | Image segmentation |
Teknik dimensionality reduction paling klasik. Cari "axis baru" di mana data paling tersebar (variance tertinggi).
1. Standarisasi data (mean=0, std=1)2. Hitung covariance matrix3. Hitung eigenvalue & eigenvector4. Urutkan eigenvalue dari besar ke kecil5. Pilih top-K eigenvector → axis baru6. Project data ke axis baru
Tokopedia memakai clustering untuk segmentasi 100+ juta user berdasarkan behavior: frequency, recency, average order value, kategori favorit, payment method, dst.
Hasilnya: 8 segmen utama dari "Bargain Hunters" sampai "Premium Loyalists". Setiap segmen dapat treatment marketing berbeda — push notification, email content, voucher value. Pelajaran: clustering bukan untuk academic — tapi action layer di marketing & product.