FILE: materi-14.module

AI Security dan Adversarial Attacks

Era baru ancaman: serangan terhadap AI. Prompt injection, data poisoning, model stealing.

RUNTIME: 30m LEVEL: advanced STATUS: ACTIVE
> AI SECURITY $ Adversarial attacks era [OK] Module loaded successfully [INFO] Ready for next stage

1. Era Baru Ancaman

AI di mana-mana berarti AI bisa diserang. Beda dengan traditional security. Vulnerability ada di training data, model, dan inference. Industri masih early, banyak yang belum dipahami.

2. Prompt Injection

Inject instruksi ke prompt LLM yang ubah behavior. Direct (user kirim). Indirect (lewat dokumen, web). Bisa bypass safety guardrails. Pertahanan: input validation, sandboxing, system prompt hardening.

3. Data Poisoning

Cemari training data sehingga model belajar bias atau backdoor. Attacker upload poisoned image ke web. Saat scrape untuk training, model jadi vulnerable. Pertahanan: data validation, anomaly detection.

4. Model Stealing

Query API model berkali-kali untuk replicate. Mahal latih model dari nol, lebih murah curi. Pertahanan: rate limiting, watermarking, query monitoring.

5. Adversarial Examples

Input yang sengaja dimodif untuk fool model. Tambah noise tak terlihat ke gambar, classifier salah identifikasi. Berbahaya untuk autonomous vehicle, face recognition. Riset aktif.

Practical Mission

  1. Coba prompt injection di chatbot
  2. Pelajari OWASP LLM Top 10
  3. Setup local LLM dan eksperimen
  4. Pelajari MITRE ATLAS framework
  5. Tulis security review untuk AI app

Recap Module