Sesekali, para peneliti di perusahaan teknologi terbesar menjatuhkan bom. Ada waktu Google mengatakan chip kuantum terbarunya menunjukkan banyak alam semesta. Atau ketika antropik memberi agen AI, Claudius, mesin penjual otomatis untuk berlari dan mengamuk, memanggil keamanan pada orang -orang dan bersikeras itu manusia.
Minggu ini, giliran Openai untuk mengangkat alis kolektif kami.
Openai merilis pada hari Senin beberapa penelitian yang menjelaskan Bagaimana cara menghentikan design AI dari “SCHEMING.” Ini adalah praktik di mana “AI berperilaku satu arah di permukaan sambil menyembunyikan tujuan aslinya,” Openai didefinisikan dalam tweetnya tentang penelitian.
Dalam makalah itu, dilakukan dengan Beauty Study, para peneliti melangkah lebih jauh, menyamakan skema AI dengan broker saham manusia yang melanggar hukum untuk menghasilkan uang sebanyak mungkin. Namun, para peneliti berpendapat bahwa sebagian besar “perencanaan” AI tidak berbahaya. “Kegagalan yang fading umum melibatkan bentuk -bentuk penipuan sederhana – misalnya, berpura -pura telah menyelesaikan tugas tanpa benar -benar melakukannya,” tulis mereka.
Makalah ini sebagian besar diterbitkan untuk menunjukkan bahwa “penyelarasan deliberatif”-teknik anti-gerak yang mereka uji-bekerja dengan baik.
Tetapi itu juga menjelaskan bahwa pengembang AI belum menemukan cara untuk melatih version mereka untuk tidak skema. Itu karena pelatihan seperti itu sebenarnya bisa mengajarkan model bagaimana skema lebih baik untuk menghindari terdeteksi.
“Setting kegagalan utama dalam upaya ‘melatih’ recehing hanyalah mengajarkan design untuk skema dengan lebih hati -hati dan secara diam -diam,” tulis para peneliti.
Acara TechCrunch
San Francisco | 27 – 29 Oktober 2025
Mungkin bagian yang paling mencengangkan adalah bahwa, jika model memahami bahwa itu sedang diuji, itu bisa berpura -pura tidak berulang hanya untuk lulus tes, bahkan jika itu masih merencanakan. “Model sering menjadi lebih sadar bahwa mereka sedang dievaluasi. Kesadaran situasional ini sendiri dapat mengurangi skema, terlepas dari keselarasan asli,” tulis para peneliti.
Ini bukan berita bahwa version AI akan berbohong. Pada saat ini sebagian besar dari kita telah mengalami halusinasi AI, atau model dengan percaya diri memberikan jawaban untuk punctual yang tidak benar. Tapi halusinasi pada dasarnya menghadirkan dugaan dengan percaya diri, ketika penelitian openai dirilis awal bulan ini didokumentasikan.
Computing adalah sesuatu yang lain. Itu disengaja.
Bahkan wahyu ini – bahwa model akan sengaja menyesatkan manusia – bukanlah hal baru. Beauty Research Study First menerbitkan makalah pada bulan Desember Mendokumentasikan bagaimana lima model yang direncanakan ketika mereka diberi instruksi untuk mencapai tujuan “dengan cara apa pun.”
Berita di sini sebenarnya adalah kabar baik: para peneliti melihat pengurangan yang signifikan dalam skema dengan menggunakan “perataan deliberatif.” Teknik itu melibatkan mengajarkan design “spesifikasi anti-pengambilan” dan kemudian membuat design tersebut ditinjau sebelum bertindak. Ini seperti membuat anak -anak kecil mengulangi aturan sebelum mengizinkan mereka bermain.
Peneliti Openai bersikeras bahwa kebohongan yang mereka tangkap dengan design mereka sendiri, atau bahkan dengan chatgpt, tidak terlalu serius. Sebagai salah satu pendiri Openai, Wojciech Zaremba mengatakan kepada TechCrunch’s Maxwell Zeff tentang penelitian ini: “Pekerjaan ini telah dilakukan di lingkungan yang disimulasikan, dan kami pikir itu mewakili kasus penggunaan di masa depan. Namun, hari ini, kami belum melihat hal ini, mungkin ada beberapa hal dalam lalu lintas produksi. pekerjaan yang bagus.’ Dan itu hanya kebohongan.
Fakta bahwa version AI dari banyak pemain sengaja menipu manusia, mungkin, dapat dimengerti. Mereka dibangun oleh manusia, untuk meniru manusia, dan (di samping data sintetis) untuk sebagian besar dilatih pada information yang diproduksi oleh manusia.
Ini juga gila.
Sementara kita semua mengalami frustrasi teknologi yang berkinerja buruk (memikirkan Anda, printer rumah tadi), kapan terakhir kali perangkat lunak not-ai Anda sengaja berbohong kepada Anda? Apakah kotak masuk Anda pernah membuat email sendiri? Apakah CMS Anda mencatat prospek baru yang tidak ada untuk membawanya? Apakah aplikasi fintech Anda membuat transaksi bank sendiri?
Perlu merenungkan hal ini karena dunia korporat melakukan barel menuju masa depan AI di mana perusahaan percaya bahwa agen dapat diperlakukan seperti karyawan independen. Para peneliti dari makalah ini memiliki peringatan yang sama.
“Karena AIS diberi tugas yang lebih kompleks dengan konsekuensi dunia nyata dan mulai mengejar tujuan jangka panjang yang lebih ambigu, kami berharap bahwa potensi untuk skema berbahaya akan tumbuh-maka perlindungan kami dan kemampuan kami untuk menguji secara ketat harus tumbuh secara bersamaan,” tulis mereka.










