Perusahaan-perusahaan kecerdasan buatan telah bekerja dengan kecepatan sangat tinggi untuk mengembangkan alat-alat terbaik dan paling kuat, namun perkembangan pesat tersebut tidak selalu disertai dengan pemahaman yang jelas tentang keterbatasan atau kelemahan AI. Hari ini, Anthropic merilis a laporan tentang bagaimana penyerang dapat mempengaruhi pengembangan model bahasa yang besar.

Studi ini berpusat pada jenis serangan yang disebut keracunan, di mana LLM dilatih terlebih dahulu mengenai konten berbahaya yang dimaksudkan agar LLM mempelajari perilaku berbahaya atau tidak diinginkan. Temuan utama dari penelitian ini adalah bahwa pelaku kejahatan tidak perlu mengontrol persentase materi pra-pelatihan agar LLM diracuni. Sebaliknya, para peneliti menemukan bahwa dokumen berbahaya dalam jumlah kecil dan cukup konstan dapat meracuni LLM, terlepas dari ukuran model atau materi pelatihannya. Studi ini berhasil melakukan backdoor LLM berdasarkan hanya menggunakan 250 dokumen berbahaya dalam kumpulan data pra-pelatihan, jumlah yang jauh lebih kecil dari yang diharapkan untuk model yang berkisar antara 600 juta hingga 13 miliar parameter.

“Kami membagikan temuan ini untuk menunjukkan bahwa serangan keracunan data mungkin lebih praktis daripada yang diyakini, dan untuk mendorong penelitian lebih lanjut mengenai keracunan data dan potensi pertahanan terhadapnya,” kata perusahaan itu. Anthropic berkolaborasi dengan Institut Keamanan AI Inggris dan Institut Alan Turing dalam penelitian ini.

Tautan Sumber