Materi 10 · Deep Learning

CNN & Computer Vision

Convolutional Neural Network mengubah dunia 2012 dengan AlexNet. Pelajari cara kerja convolution, pooling, arsitektur klasik (ResNet, VGG, EfficientNet), dan aplikasi modern: classification, detection, segmentation.

⏱ 30 Menit🎯 Intermediate-Advanced📚 Module 10/15

1. Mengapa CNN untuk Image?

Gambar 256×256×3 = 196,608 input nodes. Fully connected layer akan punya jutaan parameter — overfitting parah, tidak feasible.

Insight Utama CNN

1) Local connectivity: pixel berdekatan berkorelasi. 2) Parameter sharing: filter yang sama di-slide ke seluruh image. 3) Translation invariance: objek bisa di mana saja di gambar — CNN tetap deteksi.

2. Komponen CNN

🔍

Convolution Layer

Filter/kernel (3x3, 5x5) di-slide ke image, hitung dot product. Detect edge, texture, pattern.

📉

Pooling Layer

Reduce spatial dimension. Max pooling ambil nilai terbesar di window — robust ke posisi.

⚡

ReLU Activation

Non-linearity. Tanpa ini, deep network = single linear transform.

🎯

Fully Connected

Layer terakhir untuk klasifikasi. Flatten feature map → dense → softmax.

🛡️

Batch Normalization

Normalize aktivasi tiap batch. Stabilize training, allow higher learning rate.

💧

Dropout

Random matikan neuron. Cegah overfitting di fully-connected layers.

3. Convolution Operation

Convolution Math output[i][j] = Σ Σ input[i+m][j+n] × filter[m][n] + b
// Filter slides across image, dot product at each position

Output Size output_size = (input_size − filter_size + 2×padding) / stride + 1
// Tipikal: 3x3 filter, padding=1, stride=1 → output sama ukuran input

4. Arsitektur Klasik

Arsitektur	Tahun	Inovasi
LeNet-5	1998	CNN pertama yang sukses (digit recognition)
AlexNet	2012	ReLU + GPU + Dropout. Revolusi deep learning
VGG	2014	Sederhana — stack 3x3 conv layers
GoogLeNet/Inception	2014	Inception modules, parallel filters
ResNet	2015	Skip connection. Train 100+ layers tanpa vanishing
DenseNet	2017	Tiap layer connect ke semua layer berikutnya
EfficientNet	2019	Compound scaling — best accuracy/efficiency
Vision Transformer (ViT)	2020	Transformer untuk image — challenge CNN dominance

💡 Insight

ResNet's Skip Connection

Sebelum ResNet, training network >30 layer hampir mustahil — gradient vanishing. Skip connection (output = F(x) + x) memungkinkan gradient mengalir bypass layer, membuka era 100-1000 layer network.

5. Tugas Computer Vision

Image Classification: "ini gambar apa?" → label tunggal. CNN klasik.
Object Detection: "apa yang ada & di mana?" → bounding box. YOLO, Faster R-CNN.
Semantic Segmentation: setiap pixel di-label kelasnya. U-Net, DeepLab.
Instance Segmentation: bedakan individu objek dengan kelas sama. Mask R-CNN.
Face Recognition: identifikasi siapa. FaceNet, ArcFace.
Pose Estimation: deteksi posisi keypoint tubuh. OpenPose.
Image Generation: bikin image baru. GAN, Stable Diffusion (lihat materi 12).

6. Transfer Learning — Cara Cerdas

Jangan Train From Scratch

Pretrained model (ResNet50, EfficientNet) sudah belajar feature umum dari ImageNet (1.4 juta gambar). Untuk task baru:

1. Feature extractor: freeze semua layer, train classifier head saja. Cocok untuk dataset kecil.
2. Fine-tuning: unfreeze beberapa layer akhir, train dengan learning rate kecil. Cocok untuk dataset menengah.
3. Full retraining: unfreeze semua. Hanya untuk dataset sangat besar yang berbeda dari ImageNet.

7. Studi Kasus

🌟 Real World

JD.ID & Visual Search

JD.ID Indonesia memakai visual search — user upload foto, sistem temukan produk serupa di marketplace. Pakai pretrained CNN sebagai feature extractor, similarity di latent space.

Hasil: conversion rate visual search 3× lebih tinggi dari text search untuk fashion category. User menemukan produk lebih cepat tanpa kesulitan deskripsikan style.

📝 Tugas

Train Image Classifier

Pakai PyTorch + Google Colab (free GPU).
Load dataset CIFAR-10 (60K images, 10 classes).
Build CNN sederhana: 3 conv blocks + fully connected.
Train 20 epochs. Plot loss & accuracy curve.
Bandingkan dengan transfer learning dari ResNet18 pretrained.
Coba data augmentation (flip, rotate). Apakah accuracy naik?

Rangkuman

CNN = local connectivity + parameter sharing + translation invariance.
Komponen utama: Conv → ReLU → Pool, di-stack berkali-kali, ditutup FC layer.
ResNet's skip connection memungkinkan training network sangat deep.
Transfer learning dari pretrained >> train from scratch (kecuali dataset besar).
Tugas CV: classification, detection, segmentation, recognition — punya arsitektur khusus.