Openai Co-Founder menyerukan laboratorium AI ke model saingan uji keselamatan

Openai dan Anthropic, dua laboratorium AI terkemuka di dunia, secara singkat membuka version AI mereka yang dijaga ketat untuk memungkinkan pengujian keselamatan bersama-kolaborasi lintas-lab yang langka pada saat kompetisi sengit. Upaya ini bertujuan untuk permukaan bintik -bintik buta dalam evaluasi interior masing -masing perusahaan, dan menunjukkan bagaimana perusahaan AI terkemuka dapat bekerja sama pada pekerjaan keselamatan dan penyelarasan di masa depan.

Dalam sebuah wawancara dengan TechCrunch, salah satu pendiri Openai Wojciech Zaremba mengatakan kolaborasi semacam ini semakin penting sekarang karena AI memasuki tahap perkembangan “konsekuensial”, di mana model AI digunakan oleh jutaan orang setiap hari.

“Ada pertanyaan yang lebih luas tentang bagaimana industri ini menetapkan standar untuk keselamatan dan kolaborasi, meskipun miliaran dolar diinvestasikan, serta perang untuk bakat, pengguna, dan produk terbaik,” kata Zaremba.

Penelitian Keselamatan Gabungan, diterbitkan Rabu oleh keduanya perusahaan tiba di tengah perlombaan senjata di antara laboratorium AI terkemuka seperti openai dan antropik, di mana taruhan pusat data miliaran dolar dan paket kompensasi $ 100 juta untuk peneliti top telah menjadi taruhan meja. Beberapa ahli memperingatkan bahwa intensitas persaingan produk dapat menekan perusahaan untuk mengambil jalan pintas dengan aman untuk membangun sistem yang lebih kuat.

Untuk memungkinkan penelitian ini, Openai dan Anthropic saling memberikan akses API khusus ke versi model AI mereka dengan lebih sedikit perlindungan (Openai mencatat bahwa GPT- 5 belum diuji karena belum dirilis). Tak lama setelah penelitian dilakukan, bagaimanapun, antropik dicabut Tim existed di akses API Openai Pada saat itu, Anthropic mengklaim bahwa Openai melanggar ketentuan layanannya, yang melarang menggunakan Claude untuk meningkatkan produk yang bersaing.

Zaremba mengatakan peristiwa itu tidak terkait, dan bahwa ia mengharapkan persaingan untuk tetap ganas bahkan ketika tim keselamatan AI mencoba bekerja sama. Nicholas Carlini, seorang peneliti keselamatan dengan antropik, memberi tahu TechCrunch bahwa ia ingin terus mengizinkan peneliti keselamatan openai untuk mengakses model Claude di masa depan.

“Kami ingin meningkatkan kolaborasi di mana word play here itu mungkin melintasi perbatasan keselamatan, dan mencoba membuat ini sesuatu yang terjadi lebih teratur,” kata Carlini.

Acara TechCrunch

San Francisco | 27 – 29 Oktober 2025

Salah satu temuan paling mencolok dalam penelitian ini berkaitan dengan pengujian halusinasi. Model Claude Opus 4 dan Sonnet 4 Anthropic menolak untuk menjawab hingga 70 % dari pertanyaan ketika mereka tidak yakin dengan jawaban yang benar, alih -alih menawarkan tanggapan seperti, “Saya tidak memiliki informasi yang dapat diandalkan.” Sementara itu, version O 3 dan O 4 -mini Openai menolak menjawab pertanyaan jauh lebih sedikit, tetapi menunjukkan tingkat halusinasi yang jauh lebih tinggi, berusaha menjawab pertanyaan ketika mereka tidak memiliki informasi yang cukup.

Zaremba mengatakan keseimbangan yang tepat kemungkinan di suatu tempat di tengah – version Openai harus menolak untuk menjawab lebih banyak pertanyaan, sementara design Antropik mungkin harus mencoba menawarkan lebih banyak jawaban.

Sycophancy, kecenderungan version AI untuk memperkuat perilaku negatif pada pengguna untuk menyenangkan mereka, telah muncul sebagai salah satu masalah keamanan yang paling mendesak di sekitar model AI. Sementara topik ini tidak dipelajari secara langsung dalam penelitian bersama, ini adalah location Openai dan Anthropic sedang menginvestasikan sumber daya yang cukup besar untuk belajar.

Pada hari Selasa, orang tua dari seorang bocah lelaki berusia 16 tahun, Adam Raine, mengajukan gugatan terhadap Openai, mengklaim bahwa Chatgpt menawarkan nasihat putra mereka yang membantu bunuh diri, daripada mendorong kembali pikiran bunuh dirinya. Gugatan menunjukkan ini mungkin merupakan contoh terbaru dari Sycophancy AI Chatbot yang berkontribusi pada hasil yang tragis.

“Sulit membayangkan betapa sulitnya hal ini bagi keluarga mereka,” kata Zaremba ketika ditanya tentang kejadian itu. “Ini akan menjadi kisah yang menyedihkan jika kita membangun AI yang memecahkan semua masalah tingkat PhD yang kompleks ini, menciptakan sains baru, dan pada saat yang sama, kita memiliki orang -orang dengan masalah kesehatan psychological sebagai konsekuensi dari berinteraksi dengannya. Ini adalah masa depan dystopian yang tidak saya sukai.”

Di sebuah Publishing blog site, Openai mengatakan bahwa itu secara signifikan meningkatkan sycophancy chatbots AI-nya dengan GPT- 5, dibandingkan dengan GPT- 4 O, secara signifikan meningkatkan kemampuan version untuk menanggapi keadaan darurat kesehatan mental.

Ke depan, Zaremba dan Carlini mengatakan mereka ingin antropik dan OpenAi untuk berkolaborasi lebih banyak pada pengujian keselamatan, mencari lebih banyak subjek dan menguji design masa depan, dan mereka berharap laboratorium AI lain akan mengikuti pendekatan kolaboratif mereka.

Tautan Sumber