Convolutional Neural Network mengubah dunia 2012 dengan AlexNet. Pelajari cara kerja convolution, pooling, arsitektur klasik (ResNet, VGG, EfficientNet), dan aplikasi modern: classification, detection, segmentation.
Gambar 256Γ256Γ3 = 196,608 input nodes. Fully connected layer akan punya jutaan parameter β overfitting parah, tidak feasible.
1) Local connectivity: pixel berdekatan berkorelasi. 2) Parameter sharing: filter yang sama di-slide ke seluruh image. 3) Translation invariance: objek bisa di mana saja di gambar β CNN tetap deteksi.
Filter/kernel (3x3, 5x5) di-slide ke image, hitung dot product. Detect edge, texture, pattern.
Reduce spatial dimension. Max pooling ambil nilai terbesar di window β robust ke posisi.
Non-linearity. Tanpa ini, deep network = single linear transform.
Layer terakhir untuk klasifikasi. Flatten feature map β dense β softmax.
Normalize aktivasi tiap batch. Stabilize training, allow higher learning rate.
Random matikan neuron. Cegah overfitting di fully-connected layers.
output[i][j] = Ξ£ Ξ£ input[i+m][j+n] Γ filter[m][n] + boutput_size = (input_size β filter_size + 2Γpadding) / stride + 1| Arsitektur | Tahun | Inovasi |
|---|---|---|
| LeNet-5 | 1998 | CNN pertama yang sukses (digit recognition) |
| AlexNet | 2012 | ReLU + GPU + Dropout. Revolusi deep learning |
| VGG | 2014 | Sederhana β stack 3x3 conv layers |
| GoogLeNet/Inception | 2014 | Inception modules, parallel filters |
| ResNet | 2015 | Skip connection. Train 100+ layers tanpa vanishing |
| DenseNet | 2017 | Tiap layer connect ke semua layer berikutnya |
| EfficientNet | 2019 | Compound scaling β best accuracy/efficiency |
| Vision Transformer (ViT) | 2020 | Transformer untuk image β challenge CNN dominance |
Sebelum ResNet, training network >30 layer hampir mustahil β gradient vanishing. Skip connection (output = F(x) + x) memungkinkan gradient mengalir bypass layer, membuka era 100-1000 layer network.
Pretrained model (ResNet50, EfficientNet) sudah belajar feature umum dari ImageNet (1.4 juta gambar). Untuk task baru:
1. Feature extractor: freeze semua layer, train classifier head saja. Cocok untuk dataset kecil.
2. Fine-tuning: unfreeze beberapa layer akhir, train dengan learning rate kecil. Cocok untuk dataset menengah.
3. Full retraining: unfreeze semua. Hanya untuk dataset sangat besar yang berbeda dari ImageNet.
JD.ID Indonesia memakai visual search β user upload foto, sistem temukan produk serupa di marketplace. Pakai pretrained CNN sebagai feature extractor, similarity di latent space.
Hasil: conversion rate visual search 3Γ lebih tinggi dari text search untuk fashion category. User menemukan produk lebih cepat tanpa kesulitan deskripsikan style.