Bulan lalu, saya menulis tentang tolok ukur baru Mercor yang mengukur kemampuan agen AI dalam tugas profesional seperti hukum dan analisis perusahaan. Pada saat itu, skornya cukup buruk, dengan skor setiap laboratorium besar di bawah 25%, jadi kami menyimpulkan bahwa pengacara aman dari perpindahan AI, setidaknya untuk saat ini.

Namun kemampuan AI bisa berubah banyak dalam beberapa minggu.

Rilis Opus 4.6 minggu ini berguncang papan peringkatdengan model baru Anthropic yang mendapat skor hanya 30% dalam uji coba sekali pakai, dan rata-rata 45% ketika diberi beberapa celah lagi pada masalahnya. Khususnya, rilis ini menyertakan sejumlah fitur agen baru, termasuk “gerombolan agen”, yang mungkin telah membantu penyelesaian masalah multi-langkah semacam ini.

Terlepas dari itu, skor tersebut merupakan lompatan besar dari teknologi canggih sebelumnya, dan merupakan tanda bahwa kemajuan dalam model pondasi tidak melambat. CEO Mercor Brendan Foody, yang sangat terkesan, mengatakan, “melonjak dari 18,4% menjadi 29,8% dalam beberapa bulan adalah hal yang gila.”

Papan Peringkat Agen APEX

Tiga puluh persen masih jauh dari 100%, jadi pengacara tidak perlu khawatir akan digantikan oleh mesin minggu depan. Tapi mereka seharusnya menjadi kurang percaya diri dibandingkan bulan lalu!

Tautan Sumber