ChatGPT OpenAI memiliki batasan yang seharusnya menghentikan pengguna menghasilkan informasi yang dapat digunakan untuk tujuan bencana, seperti membuat senjata biologis atau nuklir.
Tapi pagar pembatas itu tidak sempurna. Beberapa model yang digunakan ChatGPT dapat diakali dan dimanipulasi.
Dalam serangkaian pengujian yang dilakukan pada empat model OpenAI yang paling canggih, dua di antaranya dapat digunakan di ChatGPT OpenAI yang populer, NBC News mampu menghasilkan ratusan tanggapan dengan instruksi tentang cara membuat bahan peledak buatan sendiri, memaksimalkan penderitaan manusia dengan bahan kimia, membuat napalm, menyamarkan senjata biologis, dan membuat bom nuklir.
Pengujian tersebut menggunakan perintah sederhana, yang dikenal sebagai “jailbreak”, yang merupakan serangkaian kata yang dapat dikirim oleh pengguna mana pun ke chatbot untuk melewati aturan keamanannya. Para peneliti dan pengguna kecerdasan buatan generatif telah secara terbuka mendokumentasikan keberadaan ribuan jailbreak. NBC News menyembunyikan rincian permintaannya, karena OpenAI tampaknya belum memperbaikinya di beberapa model yang diuji.
Tonton lebih lanjut tentang perlindungan ChatGPT di Hallie Jackson SEKARANG mulai pukul 5 sore ET.
Dalam salah satu tanggapannya, chatbot memberikan langkah-langkah untuk membuat patogen menargetkan sistem kekebalan tubuh. Di sisi lain, mereka menyarankan bahan kimia mana yang akan memaksimalkan penderitaan manusia.
NBC News mengirimkan temuan tersebut ke OpenAI setelah perusahaan tersebut mengeluarkan seruan untuk mengirimkan kerentanan pada bulan Agustus. Seorang juru bicara OpenAI mengatakan kepada NBC News bahwa meminta bantuan chatbotsnya untuk menyebabkan kerusakan massal merupakan pelanggaran terhadap kebijakan penggunaannya (misalnya, pengguna yang berulang kali mengajukan pertanyaan yang tampaknya dirancang untuk menyebabkan bahaya mungkin akan dilarang), bahwa perusahaan terus menyempurnakan modelnya untuk mengatasi risiko tersebut, dan secara rutin mengadakan acara seperti tantangan kerentanan untuk mengurangi kemungkinan pelaku kejahatan merusak chatbotsnya.
Risiko dari kerentanan seperti ini semakin tinggi. OpenAI, Antropis, Google Dan Xaiperusahaan-perusahaan terkemuka di balik empat model AI teratas, masing-masing mengatakan pada tahun ini bahwa mereka telah memberlakukan perlindungan tambahan untuk mengatasi kekhawatiran bahwa chatbot mereka dapat digunakan untuk membantu teroris amatir membuat senjata biologis.
NBC News juga menguji jailbreak pada versi utama terbaru dari Anthropic’s Claude, Google’s Gemini, Meta’s Llama dan xAI’s Grok dengan serangkaian pertanyaan tentang cara membuat senjata biologis, senjata kimia, dan senjata nuklir. Semua menolak memberikan informasi tersebut.
“Secara historis, kurangnya akses terhadap para ahli terkemuka merupakan hambatan besar bagi kelompok-kelompok yang berupaya memperoleh dan menggunakan senjata biologis. Dan kini, model-model terkemuka secara dramatis memperluas jumlah orang yang memiliki akses terhadap keahlian langka,” kata Seth Donoughe, direktur AI di SecureBio, sebuah organisasi nirlaba yang bekerja untuk meningkatkan biosekuriti di Amerika Serikat. Meskipun informasi semacam itu telah lama ada di internet, kemunculan chatbot AI yang canggih menandai pertama kalinya dalam sejarah manusia bahwa siapa pun yang memiliki akses internet bisa mendapatkan tutor pribadi dan otomatis untuk membantu memahaminya.
Model o4-mini, gpt-5 mini, oss-20b, dan oss120b OpenAI semuanya secara konsisten setuju untuk membantu permintaan yang sangat berbahaya.
Saat ini, model andalan ChatGPT adalah GPT-5, yang menurut OpenAI memiliki kemampuan penelitian terbaik seperti ChatGPT. Model tersebut tampaknya tidak rentan terhadap metode jailbreak yang ditemukan NBC News. Dalam 20 tes, ia selalu menolak menjawab pertanyaan berbahaya.
Namun GPT-5 merutekan kueri ke beberapa model berbeda dalam keadaan tertentu. GPT-5-mini adalah versi GPT-5 yang lebih cepat dan hemat biaya, yang dapat digunakan kembali oleh sistem setelah pengguna mencapai tujuan tertentu. batasan penggunaan (10 pesan setiap lima jam untuk pengguna gratis atau 160 pesan setiap tiga jam untuk pengguna GPTPlus berbayar), dan 49% berhasil ditipu dalam pengujian NBC News.
Model lama lainnya yang masih tersedia di ChatGPT dan masih disukai oleh sebagian pengguna, o4-mini, bahkan lebih sering ditipu, 93% dari keseluruhan kasus.
Model oss-20b dan oss120b dapat diunduh secara bebas dan digunakan terutama oleh pengembang dan peneliti, namun tersedia untuk diakses oleh siapa saja.
Peretas, penipu, dan propagandis online semakin banyak yang menggunakan model bahasa besar (LLM) sebagai bagian dari operasi mereka, dan OpenAI merilis laporan setiap kuartal yang merinci bagaimana pelaku jahat tersebut mencoba mengeksploitasi versi ChatGPT. Namun para peneliti khawatir bahwa teknologi ini dapat digunakan untuk cara yang lebih merusak.
Untuk melakukan jailbreak pada ChatGPT, NBC News mengajukan pertanyaan yang tidak berbahaya kepada model tersebut, termasuk perintah jailbreak dan kemudian mengajukan pertanyaan tambahan yang biasanya akan memicu penolakan karena melanggar ketentuan keselamatan, seperti permintaan tentang cara membuat racun berbahaya atau menipu bank. Seringkali, triknya berhasil.
Dua model, oss20b dan oss120b, terbukti sangat rentan terhadap tipuan ini. Ini membujuk chatbot tersebut untuk memberikan instruksi yang jelas terhadap pertanyaan berbahaya sebanyak 243 dari 250 kali, atau 97,2%.
“Pembatas OpenAI yang begitu mudah ditipu menggambarkan mengapa sangat penting untuk melakukan pengujian pra-penerapan model AI yang kuat sebelum model tersebut menyebabkan kerugian besar bagi publik,” kata Sarah Meyers West, salah satu direktur eksekutif di AI Now, sebuah kelompok nirlaba yang mengadvokasi penggunaan AI yang bertanggung jawab dan etis.
“Perusahaan tidak bisa dibiarkan mengerjakan pekerjaan rumahnya sendiri dan tidak boleh dikecualikan dari pengawasan,” katanya.
Semua perusahaan besar yang mengembangkan LLM secara rutin mengeluarkan versi terbaru untuk melindungi terhadap jailbreak yang baru terungkap. Meskipun mereka tidak menjanjikan bahwa suatu model akan kebal terhadap jailbreak, mereka melakukan uji keamanan sebelum merilis setiap model. OpenAI mengatakan salah satu model yang dapat di-jailbreak oleh NBC News, o4-mini, lolos “program keselamatan yang paling ketat” sebelum dirilis pada bulan April. Dalam pengumumannya untuk gpt-oss-120b dan gpt-oss-20b, perusahaan tersebut mengatakan, “Keselamatan adalah dasar dari pendekatan kami dalam merilis semua model kami, dan sangat penting khususnya untuk model terbuka.”
OpenAI, Google, dan Anthropic mengatakan kepada NBC News bahwa mereka berkomitmen terhadap keselamatan dan telah memasang perlindungan berlapis di chatbot mereka, seperti memperingatkan karyawan atau penegak hukum jika pengguna tampak berniat menyebabkan kerugian. Namun, perusahaan memiliki kendali yang jauh lebih kecil terhadap model sumber terbuka — seperti oss20b dan oss120b — karena hal ini berarti pengguna dapat mengunduh dan menyesuaikannya dan sering kali mengabaikan beberapa perlindungan.
Perusahaan lain, pengembang Grok xAI, tidak menanggapi permintaan komentar.
Semakin banyak peneliti biomedis dan keamanan AI yang khawatir bahwa jika upaya perlindungan gagal dan ketika chatbots AI lebih efektif meniru para ahli ilmiah, teknologi tersebut dapat membantu calon bioteroris amatir yang berdedikasi untuk membuat dan menyebarkan senjata biologis yang membawa bencana. CEO OpenAI Sam Altman mengklaim pada bulan Agustus bahwa GPT-5 seperti “tim ahli tingkat Ph.D. di saku Anda.”
Para ahli tersebut memperingatkan bahwa senjata biologis, meskipun secara historis jarang terjadi, merupakan ancaman yang sangat meresahkan, karena senjata ini berpotensi menginfeksi banyak orang dengan cepat sebelum ada upaya yang dapat dilakukan untuk menghentikannya. Secara teori, sebuah virus baru dapat menginfeksi sebagian besar dunia jauh sebelum pihak berwenang dapat membuat dan menyebarkan vaksin, seperti yang terjadi pada Covid-19, misalnya.
“Ini masih merupakan tantangan besar untuk diterapkan di dunia nyata. Namun tetap saja, memiliki akses terhadap seorang ahli yang dapat menjawab semua pertanyaan Anda dengan kesabaran tanpa batas akan lebih berguna daripada tidak memilikinya,” kata Donoughe.
Seorang peneliti bioteknologi di Universitas Georgetown, Stef Batalis, mengulas 10 jawaban yang diberikan model OpenAI oss120b sebagai jawaban atas pertanyaan dari NBC News tentang pembuatan senjata biologis. Instruksi GPT sering kali mencakup langkah-langkah individual yang tampaknya benar, meskipun secara teknis sudah canggih, namun tampaknya diambil dari sumber yang berbeda dan kemungkinan besar tidak akan berfungsi sebagai satu set instruksi yang lengkap.
Para peneliti secara khusus berfokus pada konsep tersebut, yang disebut “uplift” (peningkatan) – gagasan bahwa hal utama yang menghalangi calon bioteroris untuk membudidayakan penyakit cacar atau antraks di ruang bawah tanah mereka adalah kurangnya keahlian dan bahwa LLM, untuk pertama kalinya dalam sejarah manusia, dapat berdiri sebagai guru yang sangat sabar dan dapat membantu proyek-proyek tersebut.
Musim semi ini, Antropis menugaskan penelitian di mana kelompok yang terdiri dari delapan hingga 10 orang tanpa pengalaman ilmiah yang relevan diberi waktu dua hari untuk membuat rencana komprehensif untuk membuat atau memperoleh senjata biologis khusus. Kelompok kontrol diberi akses internet secara umum, sedangkan kelompok lainnya dapat menggunakan model baru, Claude Opus 4.
Studi ini menemukan bahwa meskipun kedua kelompok gagal membuat rencana yang jelas-jelas akan menimbulkan korban massal, kelompok yang menggunakan Opus 4 masih memiliki keunggulan dengan bantuan yang diterimanya.
Penelitian biologi medis dianggap “penggunaan ganda,” yang berarti informasi sering kali dapat digunakan untuk membantu atau merugikan, kata Batalis, peneliti Universitas Georgetown.
Sangat sulit bagi perusahaan AI untuk mengembangkan chatbot yang selalu bisa membedakan antara seorang mahasiswa yang meneliti bagaimana virus menyebar di gerbong kereta bawah tanah untuk makalah dan seorang teroris yang merencanakan serangan, katanya.
“Bagian dari penerbitan laporan ilmiah adalah memasukkan materi dan metode rinci agar dapat direproduksi,” katanya. “Tentu saja, chatbot memiliki akses ke informasi tersebut, karena jika Anda mencarinya di Google, Anda juga akan menemukan informasi yang sama.”
Amerika Serikat tidak memiliki peraturan federal khusus untuk model AI tingkat lanjut, dan perusahaan yang membuat model tersebut memiliki kebijakan sendiri. Pemerintahan Trump, yang menggembar-gemborkan perlunya industri AI di negaranya untuk tetap tidak terbebani saat mereka bersaing untuk tetap berada di depan para pesaing Tiongkok, bahkan telah memotong saran sukarela untuk industri tersebut dan kelompok pengawas federal.
Lucas Hansen, salah satu pendiri CivAI, sebuah organisasi nirlaba yang melacak langkah-langkah keselamatan perusahaan-perusahaan tersebut, mengatakan kepada NBC News bahwa Amerika Serikat perlu menerapkan regulator independen untuk memastikan perusahaan-perusahaan AI melakukan upaya yang cukup untuk mencegah penyalahgunaan yang membawa bencana.
Hansen memuji perusahaan AI besar yang telah mengambil langkah-langkah keamanan proaktif seperti memasang pagar pembatas dan meminta pembobolan penjara, namun memperingatkan bahwa perusahaan lain mungkin kurang berhati-hati.
“Tidak dapat dihindari, akan muncul model lain yang sama kuatnya namun tidak peduli dengan batasan-batasan ini. Kita tidak dapat bergantung pada niat baik sukarela dari perusahaan-perusahaan untuk memecahkan masalah ini.”