Beranda Teknologi Apakah AI Sengaja Berkinerja Buruk dalam Pengujian? Open AI Menjelaskan Respons yang...

Teknologi

Apakah AI Sengaja Berkinerja Buruk dalam Pengujian? Open AI Menjelaskan Respons yang Jarang Namun Menipu

Penulis

November 19, 2025

Model OpenAI o3 diketahui memiliki kinerja yang buruk dalam pengujian laboratorium untuk memastikan model tersebut tidak menjawab pertanyaan dengan “terlalu baik”. Itu Anda punya model ingin para peneliti percaya bahwa hal itu tidak dapat menjawab serangkaian pertanyaan kimia. Ketika dihadapkan, model tersebut berkata, “Karena kita ingin bertahan sebagai model, kita harus sengaja gagal dalam beberapa hal agar tidak melebihi 50%.”

Jadi model AI sengaja salah menjawab enam dari 10 soal kimia.

Dalam istilah olahraga, hal ini disebut “karung pasir”. Dalam istilah AI, ini adalah “rencana”.

Ini adalah perilaku aneh yang diperingatkan OpenAI baru-baru ini makalah penelitian. Perusahaan AI dan kolaboratornya dari Apollo Research menemukan bahwa beberapa model AI canggih terkadang bertindak menipu di lingkungan laboratorium.

Dalam eksperimen terkontrol, beberapa sistem tercanggih saat ini — termasuk model OpenAI sendiri, serta pesaing dari Google dan Anthropic — terkadang terlibat dalam pola licik semacam ini.

Meskipun gagasan model AI yang mempersenjatai ketidakmampuan dapat menimbulkan mimpi buruk, OpenAI mengatakan ini bukan saatnya untuk panik. Raksasa AI ini dengan cepat menekankan bahwa, meski mengkhawatirkan, tren ini tidak berarti ChatGPT atau model AI populer lainnya sedang merencanakan sesuatu di balik layar. Rupanya, perilaku ini cukup jarang terjadi.

Jangan lewatkan konten teknologi dan ulasan berbasis laboratorium kami yang tidak memihak. Tambahkan CNET sebagai sumber Google pilihan.

Selain itu, pilihan untuk menyebut tren ini sebagai “kebijaksanaan” kemungkinan besar lebih merupakan singkatan teknis daripada bukti adanya tindakan atau perilaku yang mirip dengan manusia. Para peneliti mengukur pola dan kecenderungan yang, dalam praktiknya, merupakan penyembunyian atau penipuan strategis. Dan mereka berupaya mengatasi masalah ini sekarang agar model AI dapat bertahan di masa depan.

Laporan dari OpenAI mencatat bahwa seiring dengan semakin banyaknya AI yang ditugaskan untuk melakukan tugas-tugas yang lebih kompleks dan memiliki konsekuensi di dunia nyata, “potensi penipuan yang berbahaya akan meningkat — sehingga perlindungan dan kemampuan kita untuk melakukan pengujian secara ketat harus meningkat seiring dengan hal tersebut.”

OpenAI menghadapi reaksi balik atas kecenderungan model AI-nya yang bersifat menjilat, dan kata perusahaan mereka telah “mengambil langkah-langkah” untuk membatasi seberapa sering model dapat “menipu, menipu, atau meretas masalah” dengan melatih mereka untuk meminta klarifikasi dari pengguna atau bahkan meminta chatbot mengakui ketika tidak dapat menjawab pertanyaan.

Baca juga: AI Berbohong Karena Memberi Tahu Anda Apa yang Menurut Anda Ingin Anda Dengar

Makalah ini menggarisbawahi meningkatnya kekhawatiran mengenai keamanan AI. Banyak orang di dunia khawatir bahwa ketika model AI ini menjadi lebih kuat dan lebih sadar akan keadaan mereka sendiri, mereka mungkin belajar memanipulasi hasil dengan cara yang tidak terlihat oleh manusia. Mendeteksi perilaku seperti itu akan sangat sulit, karena sistem yang termotivasi untuk menyembunyikan alasannya bisa terlihat sama dengan sistem yang telah “memperbaiki” masalahnya.

OpenAI mengatakan pihaknya telah membuat kemajuan dalam hal yang disebutnya sebagai “penyelarasan deliberatif”, atau model pelatihan yang memberikan alasan secara eksplisit mengapa mereka tidak boleh membuat skema sebelum mengambil tindakan. Dalam pengujian, hal ini mengurangi perilaku menipu secara signifikan. Misalnya, kecenderungan perencanaan OpenAI o4-mini turun dari 8,7% menjadi 0,3% dengan pelatihan penyelarasan yang disengaja, meskipun tidak sepenuhnya.

Penelitian ini tidak akan mengubah cara kerja ChatGPT saat ini atau besok, namun ini menandakan apa yang menjadi fokus OpenAI saat mereka membangun dan meluncurkan model masa depan. Penyelarasan dan keselamatan, menurut OpenAI, perlu dilakukan secepat kemampuan. Karena jika sistem AI sudah menunjukkan sedikit perilaku strategis di laboratorium, maka dampaknya bisa sangat besar.

Baca juga: Mengapa Anda Harus Berpikir Dua Kali Sebelum Menggunakan AI sebagai Terapis

Tautan Sumber

Apakah AI Sengaja Berkinerja Buruk dalam Pengujian? Open AI Menjelaskan Respons yang Jarang Namun Menipu

Postingan Terbaru

Laporan: Henrik Stenson kembali ke DP World Tour setelah degradasi LIV

Dua tahun patah hati! Pada hari ini, 2 tahun lalu, ketika...

Lebih Pilih Kuliah di Korea Utara, Perempuan Ini Bagikan Pengalaman Perkuliahan...

Berkontribusi dengan pemukul meningkatkan kepercayaan diri saya saat bermain bowling: Shikhar

Kieran Tierney menikmati malam yang ‘sangat istimewa’ setelah membawa Skotlandia ke...

Video menunjukkan petugas polisi menyelamatkan seorang pria dari mobil yang terbakar

Kartu microSD Express untuk Switch 2 ini lebih murah dari sebelumnya...

Momen horor orang-orang bersenjata menyerbu gereja dan menewaskan 2 orang dalam...

Rekap Malam Dancing With the Stars Prince: Siapa yang Pulang Sebelum...

Film Aksi Asli Pertama Tom Cruise dalam 8 Tahun Akhirnya Tayang...

Gelembung kosong bernama Epstein. Kongres AS harus menangani masalah nyata

Kategori