Model OpenAI o3 diketahui memiliki kinerja yang buruk dalam pengujian laboratorium untuk memastikan model tersebut tidak menjawab pertanyaan dengan “terlalu baik”. Itu Anda punya model ingin para peneliti percaya bahwa hal itu tidak dapat menjawab serangkaian pertanyaan kimia. Ketika dihadapkan, model tersebut berkata, “Karena kita ingin bertahan sebagai model, kita harus sengaja gagal dalam beberapa hal agar tidak melebihi 50%.”
Jadi model AI sengaja salah menjawab enam dari 10 soal kimia.
Dalam istilah olahraga, hal ini disebut “karung pasir”. Dalam istilah AI, ini adalah “rencana”.
Ini adalah perilaku aneh yang diperingatkan OpenAI baru-baru ini makalah penelitian. Perusahaan AI dan kolaboratornya dari Apollo Research menemukan bahwa beberapa model AI canggih terkadang bertindak menipu di lingkungan laboratorium.
Dalam eksperimen terkontrol, beberapa sistem tercanggih saat ini — termasuk model OpenAI sendiri, serta pesaing dari Google dan Anthropic — terkadang terlibat dalam pola licik semacam ini.
Meskipun gagasan model AI yang mempersenjatai ketidakmampuan dapat menimbulkan mimpi buruk, OpenAI mengatakan ini bukan saatnya untuk panik. Raksasa AI ini dengan cepat menekankan bahwa, meski mengkhawatirkan, tren ini tidak berarti ChatGPT atau model AI populer lainnya sedang merencanakan sesuatu di balik layar. Rupanya, perilaku ini cukup jarang terjadi.
Jangan lewatkan konten teknologi dan ulasan berbasis laboratorium kami yang tidak memihak. Tambahkan CNET sebagai sumber Google pilihan.
Selain itu, pilihan untuk menyebut tren ini sebagai “kebijaksanaan” kemungkinan besar lebih merupakan singkatan teknis daripada bukti adanya tindakan atau perilaku yang mirip dengan manusia. Para peneliti mengukur pola dan kecenderungan yang, dalam praktiknya, merupakan penyembunyian atau penipuan strategis. Dan mereka berupaya mengatasi masalah ini sekarang agar model AI dapat bertahan di masa depan.
Laporan dari OpenAI mencatat bahwa seiring dengan semakin banyaknya AI yang ditugaskan untuk melakukan tugas-tugas yang lebih kompleks dan memiliki konsekuensi di dunia nyata, “potensi penipuan yang berbahaya akan meningkat — sehingga perlindungan dan kemampuan kita untuk melakukan pengujian secara ketat harus meningkat seiring dengan hal tersebut.”
OpenAI menghadapi reaksi balik atas kecenderungan model AI-nya yang bersifat menjilat, dan kata perusahaan mereka telah “mengambil langkah-langkah” untuk membatasi seberapa sering model dapat “menipu, menipu, atau meretas masalah” dengan melatih mereka untuk meminta klarifikasi dari pengguna atau bahkan meminta chatbot mengakui ketika tidak dapat menjawab pertanyaan.
Baca juga: AI Berbohong Karena Memberi Tahu Anda Apa yang Menurut Anda Ingin Anda Dengar
Makalah ini menggarisbawahi meningkatnya kekhawatiran mengenai keamanan AI. Banyak orang di dunia khawatir bahwa ketika model AI ini menjadi lebih kuat dan lebih sadar akan keadaan mereka sendiri, mereka mungkin belajar memanipulasi hasil dengan cara yang tidak terlihat oleh manusia. Mendeteksi perilaku seperti itu akan sangat sulit, karena sistem yang termotivasi untuk menyembunyikan alasannya bisa terlihat sama dengan sistem yang telah “memperbaiki” masalahnya.
OpenAI mengatakan pihaknya telah membuat kemajuan dalam hal yang disebutnya sebagai “penyelarasan deliberatif”, atau model pelatihan yang memberikan alasan secara eksplisit mengapa mereka tidak boleh membuat skema sebelum mengambil tindakan. Dalam pengujian, hal ini mengurangi perilaku menipu secara signifikan. Misalnya, kecenderungan perencanaan OpenAI o4-mini turun dari 8,7% menjadi 0,3% dengan pelatihan penyelarasan yang disengaja, meskipun tidak sepenuhnya.
Penelitian ini tidak akan mengubah cara kerja ChatGPT saat ini atau besok, namun ini menandakan apa yang menjadi fokus OpenAI saat mereka membangun dan meluncurkan model masa depan. Penyelarasan dan keselamatan, menurut OpenAI, perlu dilakukan secepat kemampuan. Karena jika sistem AI sudah menunjukkan sedikit perilaku strategis di laboratorium, maka dampaknya bisa sangat besar.
Baca juga: Mengapa Anda Harus Berpikir Dua Kali Sebelum Menggunakan AI sebagai Terapis









