Pada bulan Mei, Antropik mengumumkan dua sistem AI baru, Opus 4 dan Sonnet 4. Sekarang, kurang dari enam bulan kemudian, perusahaan memperkenalkan Sonnet 4.5, dan menyebutnya model pengkodean terbaik di dunia hingga saat ini. Dasar antropik untuk klaim itu adalah pilihan tolok ukur di mana AI baru mengungguli tidak hanya pendahulunya tetapi juga Opus 4.1 yang lebih mahal dan sistem yang bersaing, termasuk Google Gemini 2.5 Pro Dan GPT-5 dari openai. Misalnya, di Osworld, sebuah suite yang menguji model AI pada tugas komputer dunia nyata, Sonnet 4.5 menetapkan skor rekor 61,4 persen, menempatkannya 17 poin persentase di atas Opus 4.1.

Pada saat yang sama, model baru ini mampu bekerja secara mandiri pada proyek multi-langkah selama lebih dari 30 jam, peningkatan yang signifikan dari tujuh jam Opus 4 dapat mempertahankan saat peluncuran. Itu adalah tonggak penting bagi jenis sistem agen yang ingin dibangun oleh antropik.

Sonnet 4.5 mengungguli model lama Anthropic dalam tugas pengkodean dan agen.

Sonnet 4.5 mengungguli model lama Anthropic dalam tugas pengkodean dan agen.

(Antropik)

Mungkin yang lebih penting, perusahaan mengklaim Sonnet 4.5 adalah sistem AI teraman hingga saat ini, dengan model yang telah menjalani pelatihan keselamatan “luas”. Pelatihan itu diterjemahkan menjadi antropik chatbot mengatakan “secara substansial” kurang rentan terhadap “penjilat, penipuan, pencarian kekuasaan dan kecenderungan untuk mendorong pemikiran delusi”-semua ciri model potensial yang memiliki mendarat openai di air panas dalam beberapa bulan terakhir. Pada saat yang sama, antropik telah memperkuat perlindungan Sonnet 4.5 terhadap serangan injeksi yang cepat. Karena kecanggihan model baru, antropik melepaskan Sonnet 4.5 di bawah kerangka kerja AI Safety Level 3, yang berarti ia dilengkapi dengan filter yang dirancang untuk mencegah output berbahaya yang berpotensi terkait dengan petunjuk di sekitar senjata kimia, biologis dan nuklir.

Bagan yang menunjukkan bagaimana Sonnet 4.5 dibandingkan dengan model perbatasan lain dalam pengujian keamanan.

Bagan yang menunjukkan bagaimana Sonnet 4.5 dibandingkan dengan model perbatasan lain dalam pengujian keamanan.

(Antropik)

Dengan pengumuman hari ini, Antropik juga meluncurkan peningkatan kualitas hidup di seluruh tumpukan produk Claude. Untuk memulai, Claude Code, agen pengkodean populer perusahaan, memiliki antarmuka terminal yang segar, dengan fitur baru yang disebut CHEPSEPOINTS disertakan. Seperti yang mungkin dapat Anda tebak dari namanya, mereka memungkinkan Anda untuk menyimpan kemajuan Anda dan kembali ke keadaan sebelumnya jika Claude menulis beberapa kode funky yang tidak cukup berfungsi seperti yang Anda bayangkan. Pembuatan file, antropik mana mulai meluncurkan pada awal bulansekarang tersedia untuk semua pengguna pro, dan jika Anda bergabung dengan Waitlist Claude untuk Chrome, Anda dapat mulai menggunakan ekstensi hari ini.

Harga API untuk Sonnet 4.5 tetap pada $ 3 per satu juta token input dan $ 15 untuk jumlah token output yang sama. Pelepasan Sonnet 4.5 membatasi September yang kuat untuk antropik. Hanya satu hari setelah Microsoft Menambahkan model Claude ke Copilot 365 Minggu lalu, Openai Diakui Saingannya menawarkan AI terbaik untuk tugas-tugas terkait pekerjaan.

Tautan Sumber