Era baru AI sejak ChatGPT 2022. Pelajari cara LLM bekerja, prompt engineering, RAG (Retrieval Augmented Generation), fine-tuning, dan diffusion models untuk image generation.
Generative AI = sistem yang membuat konten baru (text, image, audio, video, code) yang belum pernah ada sebelumnya. Berbeda dengan discriminative AI yang hanya mengklasifikasi/memprediksi label dari input.
Text: ChatGPT, Claude, Gemini, Llama. Image: DALL-E, Midjourney, Stable Diffusion. Audio: ElevenLabs, Suno. Video: Sora, Runway. Code: GitHub Copilot, Cursor, Claude Code. 3D: Meshy, Luma AI.
LLM = neural network besar (miliaran parameter) yang dilatih memprediksi token berikutnya dari konteks sebelumnya. Surprisingly simple objective, tapi muncul kemampuan emergent yang kompleks.
P(token_next | token_1, token_2, ..., token_n)greedy: pilih token dengan prob tertinggisampling: random sample dari distribusitop-k: sample dari top-k tokenstop-p: sample dari tokens yang akumulasi prob ≥ ptemperature: control "kreativitas" (0=deterministik, 1=normal, >1=kreatif)
Berikan task langsung tanpa contoh. Model harus paham dari instruksi.
Berikan 1-5 contoh input-output. Model belajar pola dari context.
Minta model "berpikir step-by-step". Hasil lebih akurat untuk reasoning.
LLM punya knowledge cutoff dan bisa "halusinasi". RAG = ambil dokumen relevan dari knowledge base sendiri, masukkan ke prompt sebagai context. Model menjawab berdasarkan context, bukan hanya training data.
1. Embedding documents → vector database2. User query → embed → similarity search top-K3. Append retrieved docs to prompt context4. LLM generate answer based on context
| Pendekatan | Pakai Saat | Cost |
|---|---|---|
| Prompt Engineering | Default. Coba dulu. | Murah, instant |
| Few-shot Prompting | Butuh format/style spesifik | Murah, sedang |
| RAG | Butuh knowledge eksternal/private | Sedang, infra cost |
| Fine-tuning | Butuh perilaku/style sangat khusus | Mahal, butuh data |
| Pre-training | Hampir tidak pernah | Sangat mahal (jutaan $) |
Agent = LLM dengan kemampuan execute tools (search web, call API, run code, file system) untuk multi-step task.
Forward process: tambahkan noise pada gambar bertahap sampai jadi pure noise.
Reverse process: train neural network untuk denoise — predict step demi step gambar asli.
Conditioning: pakai text encoder (CLIP) untuk guide generation berdasarkan prompt.
Klinik Pintar membangun AI medical assistant berbasis LLM Indonesia + RAG dari guidelines kedokteran lokal. Dokter bisa tanya diagnosis dan obat dengan konteks pasien.
Pelajaran: RAG + domain expertise > vanilla GPT untuk vertical use case. Investasi knowledge base lokal jadi competitive moat.