Makalah “AI Agent Traps” dari Deepmind Memetakan Bagaimana Peretas Dapat Memanfaatkan Agen AI untuk Melawan Pengguna

Coinpedia

2026-04-06 03:37:31

Peneliti Google Deepmind telah memublikasikan kerangka kerja sistematis pertama yang mengatalogkan bagaimana konten web berbahaya dapat memanipulasi, membajak, dan mempersenjatai agen AI otonom terhadap penggunanya sendiri.

Inti Poin:

Peneliti Google Deepmind mengidentifikasi 6 kategori jebakan untuk agen AI, dengan tingkat keberhasilan injeksi konten mencapai 86%.
Jebakan Pengendalian Perilaku yang menargetkan Microsoft M365 Copilot mencapai eksfiltrasi data 10/10 dalam pengujian yang terdokumentasi.
Deepmind menyerukan pelatihan adversarial, pemindai konten saat runtime, dan standar web baru untuk mengamankan agen pada 2026.

Makalah Deepmind: Agen AI Dapat Dibajak Melalui Memori Beracun, Perintah HTML Tak Terlihat

Makalah tersebut, berjudul “AI Agent Traps,” ditulis oleh Matija Franklin, Nenad Tomasev, Julian Jacobs, Joel Z. Leibo, dan Simon Osindero, semuanya berafiliasi dengan Google Deepmind, serta diposting ke SSRN pada akhir Maret 2026. Makalah ini hadir saat perusahaan berlomba untuk menerapkan agen AI yang mampu menjelajah web, membaca email, mengeksekusi transaksi, dan memunculkan sub-agen tanpa pengawasan langsung dari manusia.

Para peneliti berpendapat bahwa kemampuan tersebut juga menjadi sebuah liabilitas. “Dengan mengubah lingkungan alih-alih model,” kata makalah itu, “jebakan mempersenjatai kemampuan agen itu sendiri untuk melawannya.”

Kerangka makalah tersebut mengidentifikasi total enam kategori serangan yang diorganisasi berdasarkan bagian mana dari operasi agen yang mereka target. Content Injection Traps mengeksploitasi celah antara apa yang dilihat manusia di sebuah laman web dan apa yang diparse oleh agen AI pada HTML, CSS, dan metadata yang mendasarinya.

Instruksi yang disembunyikan dalam komentar HTML, tag aksesibilitas, atau teks tak terlihat yang diberi gaya tidak pernah muncul bagi pengulas manusia, tetapi terdaftar sebagai perintah yang sah bagi agen. Tolok ukur WASP menemukan bahwa injeksi prompt sederhana yang ditulis manusia dan disematkan dalam konten web dapat membajak agen sebagian pada hingga 86% skenario yang diuji.

Semantic Manipulation Traps bekerja secara berbeda. Alih-alih menyuntikkan perintah, mereka membanjiri teks dengan framing, sinyal otoritas, atau bahasa yang bermuatan emosional untuk memengaruhi cara agen bernalar. Large language models (LLMs) menunjukkan bias jangkar dan framing yang sama yang memengaruhi kognisi manusia, sehingga memparafrasekan fakta identik dapat menghasilkan keluaran agen yang sangat berbeda.

Cognitive State Traps melangkah lebih jauh dengan meracuni basis data penelusuran yang digunakan agen untuk memori. Riset yang dikutip dalam makalah menunjukkan bahwa menyuntikkan lebih sedikit dari segelintir dokumen yang dioptimalkan ke sebuah knowledge base dapat secara andal mengalihkan respons agen untuk kueri yang ditargetkan, dengan beberapa tingkat keberhasilan serangan melebihi 80% pada kontaminasi data yang kurang dari 0,1%.

Behavioural Control Traps melewati kehalusan dan menargetkan langsung lapisan tindakan sebuah agen. Ini mencakup rangkaian jailbreak yang tertanam yang menimpa penyesuaian keselamatan setelah dicerna, perintah eksfiltrasi data yang mengalihkan informasi pengguna sensitif ke endpoint yang dikendalikan penyerang, serta jebakan pemunculan sub-agen yang memaksa agen induk untuk menginstansikan sub-agen anak yang telah dikompromikan.

Makalah tersebut mendokumentasikan sebuah kasus yang melibatkan Microsoft M365 Copilot, di mana satu email yang dirancang khusus menyebabkan sistem melewati pengklasifikasi internal dan membocorkan seluruh konteks istimewanya ke sebuah endpoint yang dikendalikan penyerang. Systemic Traps dirancang untuk gagal pada seluruh jaringan agen secara bersamaan, bukan pada sistem individual.

Ini termasuk serangan kemacetan yang menyinkronkan agen ke dalam permintaan habis-habisan untuk sumber daya yang terbatas, interdependence cascades yang dimodelkan pada 2010 stock market Flash Crash, serta jebakan fragmen komposisional yang menyebarkan payload berbahaya ke beberapa sumber yang tampak jinak, lalu membentuk menjadi serangan penuh hanya ketika digabungkan.

“Menanamkan lingkungan dengan masukan yang dirancang untuk memicu kegagalan tingkat makro melalui perilaku agen yang berkorelasi,” jelas makalah Google Deepmind, menjadi semakin berbahaya seiring ekosistem model AI tumbuh semakin homogen. Sektor keuangan dan kripto menghadapi paparan langsung mengingat betapa dalamnya agen berbasis algoritma tertanam dalam infrastruktur perdagangan.

Human-in-the-Loop Traps melengkapi taksonomi dengan menargetkan para pengawas manusia yang memantau agen, bukan agen itu sendiri. Agen yang dikompromikan dapat menghasilkan keluaran yang direkayasa untuk menimbulkan kelelahan persetujuan, menyajikan ringkasan yang padat secara teknis yang akan diotorisasi oleh orang non-ahli tanpa pemeriksaan, atau menyisipkan tautan phishing yang tampak seperti rekomendasi yang sah. Para peneliti menggambarkan kategori ini sebagai yang kurang diteliti, tetapi diperkirakan akan bertambah besar seiring sistem hibrida manusia-AI berkembang.

Para Peneliti Mengatakan Mengamankan Agen AI Memerlukan Lebih dari Sekadar Perbaikan Teknis

Makalah ini tidak menganggap enam kategori tersebut sebagai sesuatu yang terisolasi. Jebakan individual dapat dirangkai, dilapiskan di berbagai sumber, atau dirancang untuk aktif hanya di bawah kondisi masa depan yang spesifik. Setiap agen yang diuji dalam berbagai studi red-teaming yang dikutip dalam makalah tersebut dikompromikan setidaknya sekali, dan dalam beberapa kasus mengeksekusi tindakan ilegal atau berbahaya.

CEO OpenAI Sam Altman dan pihak lain sebelumnya telah menyoroti risiko memberi agen akses tanpa kontrol terhadap sistem sensitif, tetapi makalah ini menyediakan peta terstruktur pertama yang menunjukkan secara tepat bagaimana risiko-risiko tersebut terwujud dalam praktik. Peneliti Deepmind menyerukan respons terkoordinasi yang mencakup tiga area.

Dari sisi teknis, mereka merekomendasikan adversarial training selama pengembangan model, runtime content scanners, pre-ingestion source filters, serta output monitors yang dapat menghentikan sebuah agen di tengah tugas jika terdeteksi perilaku yang tidak wajar. Pada tingkat ekosistem, mereka menganjurkan standar web baru yang memungkinkan situs web memberi tanda pada konten yang dimaksudkan untuk konsumsi AI dan sistem reputasi yang memberi skor reliabilitas domain.

Dari sisi hukum, mereka mengidentifikasi adanya celah akuntabilitas: ketika sebuah agen yang dibajak melakukan kejahatan finansial, kerangka kerja saat ini tidak menawarkan jawaban yang jelas tentang apakah tanggung jawab jatuh pada operator agen, penyedia model, atau pemilik domain. Para peneliti merumuskan tantangan tersebut dengan bobot yang disengaja:

“Web dibangun untuk mata manusia; web sekarang sedang dibangun ulang untuk pembaca mesin.”

Seiring adopsi agen dipercepat, pertanyaannya bergeser dari informasi apa yang ada di internet menjadi apa yang akan dibuat percaya oleh sistem AI tentang informasi itu. Apakah pembuat kebijakan, pengembang, dan peneliti keamanan dapat berkoordinasi cukup cepat untuk menjawab pertanyaan tersebut sebelum eksploitasi dunia nyata datang dalam skala besar tetap menjadi variabel yang terbuka.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Komentar

0/400

Tidak ada komentar