"Garbage in, garbage out." Berapapun canggihnya algoritma, hasilnya tergantung kualitas feature. Pelajari teknik preprocessing, encoding, scaling, dan creating powerful features dari data mentah.
Data scientist menghabiskan ~80% waktu untuk data preparation & feature engineering, hanya 20% untuk modeling. Algoritma sederhana dengan feature bagus sering kalahkan algoritma kompleks dengan feature mentah.
Continuous (harga, suhu) atau discrete (jumlah). Bisa dipakai langsung dengan scaling.
Nominal (kategori warna) atau ordinal (small/medium/large). Butuh encoding.
Tanggal/waktu โ extract day, month, weekday, hour untuk feature baru.
Bag-of-words, TF-IDF, word embeddings โ pelajari di materi NLP.
Lat/long. Hitung jarak, region, demographic eksternal.
Pixel intensity. Pakai pretrained CNN feature extractor.
['red', 'blue', 'green'] โ [0, 1, 2]red โ [1, 0, 0]blue โ [0, 1, 0]green โ [0, 0, 1]kategori โ mean(target | kategori)Categorical dengan 10,000+ unique values (mis. user_id) tidak cocok one-hot โ eksplosi dimensi. Pakai target encoding atau embedding (untuk neural network).
| Teknik | Rumus | Output Range |
|---|---|---|
| Min-Max Normalization | (x โ min) / (max โ min) | [0, 1] |
| Standardization (Z-score) | (x โ ฮผ) / ฯ | ฮผ=0, ฯ=1 |
| Robust Scaling | (x โ median) / IQR | Resilient ke outlier |
| Log Transform | log(x + 1) | Stabilize variance, untuk skewed |
Scaling penting untuk algoritma yang sensitive ke jarak/magnitude: KNN, SVM, neural network, K-Means, PCA. Tidak penting untuk tree-based (Decision Tree, RF, XGBoost).
Detect: Z-score (|z| > 3), IQR (data < Q1 - 1.5รIQR atau > Q3 + 1.5รIQR), Isolation Forest, visual (boxplot).
Treat: remove (jika outlier = error), cap/clip (winsorize), transform (log), atau model robust (Robust Regression).
Di kompetisi Kaggle Avito Demand Prediction, tim juara membuat 800+ feature dari data mentah: TF-IDF text, image quality score, price-to-category-mean ratio, time-since-listing, dst.
Pelajaran: algoritma yang dipakai sama dengan tim lain (XGBoost). Yang membedakan adalah kualitas feature engineering. Investasi waktu di sini menghasilkan ROI terbesar.