Bahkan ketika OpenAI berupaya memperkuat browser Atlas AI-nya terhadap serangan siber, perusahaan tersebut mengakui bahwa injeksi cepat, yaitu jenis serangan yang memanipulasi agen AI untuk mengikuti instruksi jahat yang sering kali tersembunyi di halaman web atau email, merupakan risiko yang tidak akan hilang dalam waktu dekat — menimbulkan pertanyaan tentang seberapa aman agen AI dapat beroperasi di web terbuka.

“Injeksi yang cepat, seperti halnya penipuan dan rekayasa sosial di web, sepertinya tidak akan pernah ‘terselesaikan’ sepenuhnya,” tulis OpenAI pada hari Senin. postingan blog merinci bagaimana perusahaan tersebut meningkatkan pertahanan Atlas untuk melawan serangan yang tak henti-hentinya. Perusahaan mengakui bahwa ‘mode agen’ di ChatGPT Atlas “memperluas permukaan ancaman keamanan.”

OpenAI meluncurkan browser ChatGPT Atlas pada bulan Oktober, dan peneliti keamanan segera mempublikasikan demo mereka, menunjukkan bahwa ada kemungkinan untuk menulis beberapa kata di Google Docs yang mampu mengubah perilaku browser yang mendasarinya. Di hari yang sama, Berani menerbitkan postingan blog menjelaskan bahwa injeksi cepat tidak langsung merupakan tantangan sistematis untuk browser yang didukung AI, termasuk Perplexity’s Comet.

OpenAI bukan satu-satunya yang menyadari bahwa suntikan berbasis cepat tidak akan hilang. Itu Pusat Keamanan Siber Nasional Inggris awal bulan ini memperingatkan bahwa serangan injeksi langsung terhadap aplikasi AI generatif “mungkin tidak akan pernah dapat dimitigasi sepenuhnya,” sehingga menempatkan situs web pada risiko menjadi korban pelanggaran data. Badan pemerintah Inggris tersebut menyarankan para profesional dunia maya untuk mengurangi risiko dan dampak dari suntikan segera, daripada berpikir bahwa serangan tersebut dapat “dihentikan.”

Terkait dengan OpenAI, perusahaan tersebut mengatakan: “Kami memandang injeksi cepat sebagai tantangan keamanan AI jangka panjang, dan kami harus terus memperkuat pertahanan kami terhadap hal tersebut.”

Jawaban perusahaan terhadap tugas Sisyphean ini? Siklus proaktif dan respons cepat yang menurut perusahaan tersebut menunjukkan harapan awal dalam membantu menemukan strategi serangan baru secara internal sebelum strategi tersebut dieksploitasi “di alam liar.”

Hal ini tidak sepenuhnya berbeda dari apa yang dikatakan oleh pesaing seperti Anthropic dan Google: bahwa untuk melawan risiko serangan cepat yang terus-menerus, pertahanan harus berlapis dan terus diuji tekanannya. karya terbaru Googlemisalnya, berfokus pada kontrol tingkat arsitektur dan kebijakan untuk sistem agen.

Namun OpenAI mengambil taktik berbeda adalah dengan “penyerang otomatis berbasis LLM.” Penyerang ini pada dasarnya adalah bot yang dilatih OpenAI, menggunakan pembelajaran penguatan, untuk memainkan peran sebagai peretas yang mencari cara untuk menyelundupkan instruksi jahat ke agen AI.

Bot dapat menguji serangan dalam simulasi sebelum menggunakannya secara nyata, dan simulator menunjukkan bagaimana target AI akan berpikir dan tindakan apa yang akan diambil jika melihat serangan tersebut. Bot kemudian dapat mempelajari respons tersebut, mengubah serangan, dan mencoba lagi dan lagi. Wawasan terhadap alasan internal AI target adalah sesuatu yang tidak dapat diakses oleh pihak luar, jadi, secara teori, bot OpenAI seharusnya dapat menemukan kelemahan lebih cepat daripada penyerang di dunia nyata.

Ini adalah taktik umum dalam pengujian keamanan AI: membangun agen untuk menemukan kasus-kasus ekstrem dan mengujinya dengan cepat dalam simulasi.

“Penyerang kami yang terlatih (pembelajaran penguatan) dapat mengarahkan agen untuk mengeksekusi alur kerja berbahaya yang canggih dan berjangka panjang yang berlangsung dalam puluhan (atau bahkan ratusan) langkah,” tulis OpenAI. “Kami juga mengamati strategi serangan baru yang tidak muncul dalam kampanye tim merah atau laporan eksternal kami.”

Kredit Gambar:OpenAI

Dalam demo (gambar di atas), OpenAI menunjukkan bagaimana penyerang otomatisnya menyelipkan email berbahaya ke kotak masuk pengguna. Ketika agen AI kemudian memindai kotak masuk, ia mengikuti instruksi tersembunyi di email dan mengirimkan pesan pengunduran diri alih-alih membuat draf balasan di luar kantor. Namun setelah pembaruan keamanan, “mode agen” berhasil mendeteksi upaya injeksi cepat dan menandainya kepada pengguna, menurut perusahaan.

Perusahaan mengatakan bahwa meskipun injeksi cepat sulit untuk diamankan dengan cara yang sangat mudah, perusahaan ini mengandalkan pengujian skala besar dan siklus patch yang lebih cepat untuk memperkuat sistemnya sebelum muncul dalam serangan di dunia nyata.

Seorang juru bicara OpenAI menolak untuk menjelaskan apakah pembaruan pada keamanan Atlas telah menghasilkan pengurangan keberhasilan suntikan yang terukur, namun mengatakan bahwa perusahaan tersebut telah bekerja sama dengan pihak ketiga untuk memperkuat Atlas agar tidak melakukan suntikan segera sejak sebelum diluncurkan.

Rami McCarthy, peneliti keamanan utama di perusahaan keamanan siber Wiz, mengatakan bahwa pembelajaran penguatan adalah salah satu cara untuk terus beradaptasi terhadap perilaku penyerang, namun itu hanya sebagian saja.

“Cara yang berguna untuk mempertimbangkan risiko dalam sistem AI adalah otonomi yang dikalikan dengan akses,” kata McCarthy kepada TechCrunch.

“Browser agen cenderung berada di bagian yang menantang: otonomi moderat dikombinasikan dengan akses yang sangat tinggi,” kata McCarthy. “Banyak rekomendasi saat ini mencerminkan trade-off tersebut. Membatasi akses login terutama mengurangi paparan, sementara mewajibkan peninjauan terhadap permintaan konfirmasi akan membatasi otonomi.”

Itu adalah dua rekomendasi OpenAI bagi pengguna untuk mengurangi risiko mereka sendiri, dan juru bicaranya mengatakan Atlas juga dilatih untuk mendapatkan konfirmasi pengguna sebelum mengirim pesan atau melakukan pembayaran. OpenAI juga menyarankan agar pengguna memberikan instruksi spesifik kepada agen, daripada memberi mereka akses ke kotak masuk Anda dan menyuruh mereka “mengambil tindakan apa pun yang diperlukan.”

“Keleluasaan yang luas memudahkan konten tersembunyi atau berbahaya untuk memengaruhi agen, bahkan ketika perlindungan diterapkan,” menurut OpenAI.

Meskipun OpenAI mengatakan bahwa melindungi pengguna Atlas dari suntikan segera adalah prioritas utama, McCarthy mengundang beberapa skeptisisme mengenai laba atas investasi untuk browser yang rentan risiko.

“Untuk sebagian besar kasus penggunaan sehari-hari, browser agen belum memberikan nilai yang cukup untuk membenarkan profil risiko mereka saat ini,” kata McCarthy kepada TechCrunch. “Risikonya tinggi mengingat akses mereka terhadap data sensitif seperti email dan informasi pembayaran, meskipun akses tersebut juga yang membuat mereka kuat. Keseimbangan tersebut akan terus berkembang, namun saat ini dampaknya masih sangat nyata.”

Tautan Sumber