Materi 09 · Core ML

Feature Engineering

"Garbage in, garbage out." Berapapun canggihnya algoritma, hasilnya tergantung kualitas feature. Pelajari teknik preprocessing, encoding, scaling, dan creating powerful features dari data mentah.

⏱ 28 Menit🎯 Intermediate📚 Module 9/15

1. Mengapa Feature Engineering Penting?

The 80/20 Rule

Data scientist menghabiskan ~80% waktu untuk data preparation & feature engineering, hanya 20% untuk modeling. Algoritma sederhana dengan feature bagus sering kalahkan algoritma kompleks dengan feature mentah.

2. Tipe Feature

🔢

Numerical

Continuous (harga, suhu) atau discrete (jumlah). Bisa dipakai langsung dengan scaling.

🏷️

Categorical

Nominal (kategori warna) atau ordinal (small/medium/large). Butuh encoding.

📅

Datetime

Tanggal/waktu — extract day, month, weekday, hour untuk feature baru.

📝

Text

Bag-of-words, TF-IDF, word embeddings — pelajari di materi NLP.

🌍

Geospatial

Lat/long. Hitung jarak, region, demographic eksternal.

🖼️

Image

Pixel intensity. Pakai pretrained CNN feature extractor.

3. Handling Missing Data

Drop: hapus row jika missing <5% & random. Hapus column jika missing >50%.
Mean/Median Imputation: isi numeric dengan rata-rata/median. Median untuk yang skewed.
Mode Imputation: isi categorical dengan kategori paling sering.
Forward/Backward fill: untuk time-series, isi dengan nilai sebelumnya/sesudahnya.
Predictive imputation: train model kecil untuk prediksi missing value (KNN, regression).
Indicator variable: tambah kolom binary "is_missing" — kadang missing-ness itu sendiri informatif.

4. Encoding Categorical

Label Encoding ['red', 'blue', 'green'] → [0, 1, 2]
// Implies ordering — hanya untuk ordinal

One-Hot Encoding red → [1, 0, 0]
blue → [0, 1, 0]
green → [0, 0, 1]
// Default untuk nominal categorical

Target Encoding kategori → mean(target | kategori)
// Powerful untuk high-cardinality, hati-hati leakage

⚠️ Warning

High Cardinality Trap

Categorical dengan 10,000+ unique values (mis. user_id) tidak cocok one-hot — eksplosi dimensi. Pakai target encoding atau embedding (untuk neural network).

5. Feature Scaling

Teknik	Rumus	Output Range
Min-Max Normalization	(x − min) / (max − min)	[0, 1]
Standardization (Z-score)	(x − μ) / σ	μ=0, σ=1
Robust Scaling	(x − median) / IQR	Resilient ke outlier
Log Transform	log(x + 1)	Stabilize variance, untuk skewed

Scaling penting untuk algoritma yang sensitive ke jarak/magnitude: KNN, SVM, neural network, K-Means, PCA. Tidak penting untuk tree-based (Decision Tree, RF, XGBoost).

6. Feature Creation

Interaction features: kalikan/bagi 2 feature. Mis. price_per_sqm = price / area.
Polynomial features: x², x³ untuk capture non-linearity dengan model linear.
Binning: kelompokkan continuous jadi kategori. Mis. age → [child, teen, adult, senior].
Datetime extraction: dari timestamp → hour_of_day, day_of_week, is_weekend, is_holiday.
Aggregation: rata-rata transaksi customer dalam 30 hari, max purchase amount.
Lag features: untuk time-series — value t-1, t-7, moving average.
Domain knowledge: insight dari expert lebih powerful dari teknik generik.

7. Outlier Handling

Detect & Treat

Detect: Z-score (|z| > 3), IQR (data < Q1 - 1.5×IQR atau > Q3 + 1.5×IQR), Isolation Forest, visual (boxplot).

Treat: remove (jika outlier = error), cap/clip (winsorize), transform (log), atau model robust (Robust Regression).

8. Studi Kasus

🌟 Real World

Kompetisi Kaggle: Feature Engineering Wins

Di kompetisi Kaggle Avito Demand Prediction, tim juara membuat 800+ feature dari data mentah: TF-IDF text, image quality score, price-to-category-mean ratio, time-since-listing, dst.

Pelajaran: algoritma yang dipakai sama dengan tim lain (XGBoost). Yang membedakan adalah kualitas feature engineering. Investasi waktu di sini menghasilkan ROI terbesar.

📝 Tugas

Feature Pipeline Lengkap

Pilih dataset dengan campuran tipe feature (numeric, categorical, datetime).
Bangun pipeline preprocessing dengan sklearn ColumnTransformer.
Handle missing values, encode categorical, scale numeric.
Create minimum 3 feature baru via interaction/datetime/aggregation.
Bandingkan performance model dengan vs tanpa feature engineering.

Rangkuman

Feature engineering = 80% pekerjaan ML, ROI tertinggi.
Handle missing data sesuai konteks: drop, impute, atau jadikan signal.
Encoding categorical: label (ordinal), one-hot (nominal), target (high-cardinality).
Scaling penting untuk distance-based algorithms, tidak untuk tree-based.
Domain knowledge > teknik generik. Investasi memahami business context.