Materi 23 - Programming dan Data Science

Unsupervised Learning

Algoritma untuk data tanpa label. Clustering, dimensionality reduction, anomaly detection.

Durasi 28 Menit Level intermediate Kurikulum 30 Materi

1. Apa Itu Unsupervised

Algoritma tanpa label, cari pola sendiri di data. Use case: customer segmentation, anomaly detection, topic modeling, dimensionality reduction. Eksploratif, hasilnya butuh interpretasi.

2. K-Means Clustering

Algoritma clustering paling populer. Bagi data ke K cluster berdasarkan kemiripan. Tentukan K sebelumnya (elbow method bantu). Cepat, simple, tapi assume cluster bentuknya bulat.

3. Hierarchical Clustering

Build tree of clusters. Tidak perlu tentukan K dulu. Visualisasi dengan dendogram. Lambat untuk dataset besar tapi insightful untuk eksplorasi.

4. PCA

Principal Component Analysis. Reduce dimension data dengan tetap pertahankan variance. Visualisasi data high-dimensional di 2D atau 3D. Speed up training dan kurangi noise.

5. Anomaly Detection

Deteksi data point yang aneh. Use case: fraud, defect manufaktur, intrusion detection. Algoritma: Isolation Forest, One-Class SVM, Autoencoder.

Tugas Praktik

K-Means clustering di dataset customer
Visualisasi cluster dengan PCA 2D
Hierarchical clustering dengan dendogram
Implementasi anomaly detection sederhana
Interpretasi business meaning dari setiap cluster

Rangkuman

Unsupervised cari pola tanpa label
K-Means untuk clustering cepat
Hierarchical cocok untuk eksplorasi
PCA reduce dimension pertahankan variance
Anomaly detection untuk fraud dan defect