Era baru ancaman: serangan terhadap AI. Prompt injection, data poisoning, model stealing.
AI di mana-mana berarti AI bisa diserang. Beda dengan traditional security. Vulnerability ada di training data, model, dan inference. Industri masih early, banyak yang belum dipahami.
Inject instruksi ke prompt LLM yang ubah behavior. Direct (user kirim). Indirect (lewat dokumen, web). Bisa bypass safety guardrails. Pertahanan: input validation, sandboxing, system prompt hardening.
Cemari training data sehingga model belajar bias atau backdoor. Attacker upload poisoned image ke web. Saat scrape untuk training, model jadi vulnerable. Pertahanan: data validation, anomaly detection.
Query API model berkali-kali untuk replicate. Mahal latih model dari nol, lebih murah curi. Pertahanan: rate limiting, watermarking, query monitoring.
Input yang sengaja dimodif untuk fool model. Tambah noise tak terlihat ke gambar, classifier salah identifikasi. Berbahaya untuk autonomous vehicle, face recognition. Riset aktif.