Antropik memiliki mengumumkan kemampuan baru Itu akan memungkinkan beberapa model terbarunya dan terbesar untuk mengakhiri percakapan dalam apa yang perusahaan gambarkan sebagai “kasus langka dan ekstrem dari interaksi pengguna yang berbahaya atau kasar.” Yang mengejutkan, Anthropic mengatakan itu melakukan ini bukan untuk melindungi pengguna manusia, melainkan version AI.
Untuk lebih jelasnya, perusahaan tidak mengklaim bahwa model AI Claude -nya hidup atau dapat dirugikan oleh percakapan mereka dengan pengguna. Dengan kata -katanya sendiri, antropik tetap “sangat tidak yakin tentang potensi standing ethical Claude dan LLM lainnya, sekarang atau di masa depan.”
Namun, pengumumannya menunjuk pada program baru-baru ini yang dibuat untuk mempelajari apa yang disebutnya “design kesejahteraan” dan mengatakan antropik pada dasarnya mengambil pendekatan yang baru saja dalam kasus, “bekerja untuk mengidentifikasi dan mengimplementasikan intervensi berbiaya rendah untuk mengurangi risiko untuk memodelkan kesejahteraan, jika kesejahteraan seperti itu dimungkinkan.”
Perubahan terbaru ini saat ini terbatas pada Claude Piece 4 dan 4 1 Dan sekali lagi, itu hanya seharusnya terjadi dalam “kasus-kasus tepi ekstrem,” seperti “permintaan dari pengguna untuk konten seksual yang melibatkan anak di bawah umur dan upaya untuk meminta informasi yang akan memungkinkan kekerasan skala besar atau tindakan teror.”
Sementara jenis-jenis permintaan itu berpotensi menciptakan masalah hukum atau publisitas untuk antropik (saksi pelaporan baru-baru ini tentang bagaimana chatgpt berpotensi memperkuat atau berkontribusi pada pemikiran delusi penggunanya), perusahaan mengatakan bahwa dalam pengujian pra-penempatan, Claude Piece 4 menunjukkan “preferensi yang kuat terhadap” menanggapi permintaan ini dan pola yang jelas “ketika hal itu menunjukkan hal itu.
Adapun kemampuan akhir percakapan baru ini, perusahaan mengatakan, “Dalam semua kasus, Claude hanya menggunakan kemampuan mengakhiri percakapannya sebagai pilihan terakhir ketika beberapa upaya pengalihan telah gagal dan harapan interaksi yang produktif telah habis, atau ketika pengguna secara eksplisit meminta Claude untuk mengakhiri obrolan.”
Antropik juga mengatakan Claude telah “diarahkan untuk tidak menggunakan kemampuan ini dalam kasus -kasus di mana pengguna mungkin berisiko segera melukai diri sendiri atau orang lain.”
Acara TechCrunch
San Francisco | 27 – 29 Oktober 2025
Ketika Claude mengakhiri percakapan, Anthropic mengatakan pengguna masih akan dapat memulai percakapan baru dari akun yang sama dan untuk membuat cabang baru dari percakapan yang merepotkan dengan mengedit tanggapan mereka.
“Kami memperlakukan fitur ini sebagai percobaan yang berkelanjutan dan akan terus menyempurnakan pendekatan kami,” kata perusahaan itu.