Materi 05 · Core ML

Unsupervised Learning

Belajar tanpa label — biarkan algoritma menemukan struktur tersembunyi di data. Clustering, dimensionality reduction, dan anomaly detection adalah pintu ke insight yang tak terlihat sebelumnya.

⏱ 28 Menit🎯 Intermediate📚 Module 5/15

1. Konsep Dasar

Tidak ada "jawaban benar". Algoritma harus menemukan pola sendiri di data. Tujuan: mengelompokkan, menyederhanakan, atau mendeteksi anomali tanpa supervisi manusia.

Kapan Tidak Punya Label?

Lebih sering daripada yang kamu kira. Customer behavior data, log server, transaksi, dokumen teks mentah — semuanya tidak datang berlabel. Labeling manual butuh ribuan jam manusia. Unsupervised = jalan keluar.

2. Tiga Tugas Utama

🎨

Clustering

Grouping data point yang mirip. Customer segmentation, image grouping, document topics.

📉

Dimensionality Reduction

Kompresi data dari banyak feature ke sedikit. Visualisasi, noise reduction, speed.

🚨

Anomaly Detection

Deteksi data point yang berbeda dari kebanyakan. Fraud, server error, manufacturing defect.

3. K-Means Clustering

Algoritma clustering paling populer. Sederhana, cepat, efektif untuk banyak kasus.

K-Means Algorithm 1. Pilih K (jumlah cluster)
2. Random init K centroid
3. Assign tiap point ke centroid terdekat
4. Update centroid = mean dari point di cluster-nya
5. Repeat 3-4 sampai centroid tidak berubah
⚠️ Hati-hati

Pilih K dengan Elbow Method

K-means butuh K (jumlah cluster) di-tentukan upfront. Pakai Elbow Method: plot WCSS (within-cluster sum of squares) vs K. Cari titik di mana penurunan mulai melambat — itu K optimal.

4. Algoritma Clustering Lainnya

AlgoritmaKarakterCocok untuk
K-MeansCentroid-based, butuh KData balanced, cluster bulat
HierarchicalTree dendogram, no K neededEksplorasi, dataset kecil-medium
DBSCANDensity-based, deteksi outlierCluster bentuk arbitrer, ada noise
GMMProbabilistic, soft clusteringCluster overlap, butuh probability
Mean ShiftMode-seeking, no K neededImage segmentation

5. PCA — Principal Component Analysis

Teknik dimensionality reduction paling klasik. Cari "axis baru" di mana data paling tersebar (variance tertinggi).

PCA Workflow 1. Standarisasi data (mean=0, std=1)
2. Hitung covariance matrix
3. Hitung eigenvalue & eigenvector
4. Urutkan eigenvalue dari besar ke kecil
5. Pilih top-K eigenvector → axis baru
6. Project data ke axis baru

6. Anomaly Detection

7. Studi Kasus

🌟 Real World

Tokopedia: Customer Segmentation 100 Juta User

Tokopedia memakai clustering untuk segmentasi 100+ juta user berdasarkan behavior: frequency, recency, average order value, kategori favorit, payment method, dst.

Hasilnya: 8 segmen utama dari "Bargain Hunters" sampai "Premium Loyalists". Setiap segmen dapat treatment marketing berbeda — push notification, email content, voucher value. Pelajaran: clustering bukan untuk academic — tapi action layer di marketing & product.

📝 Tugas

Customer Segmentation

  1. Cari dataset retail (Kaggle: "Online Retail" atau "Mall Customer Segmentation").
  2. Pakai K-Means dengan K dari Elbow Method untuk segment customer.
  3. Visualisasi hasil dengan PCA 2D atau t-SNE.
  4. Interpretasikan tiap cluster: apa karakteristiknya?
  5. Rancang 1 strategi marketing berbeda untuk 3 cluster terbesar.

Rangkuman