O3 Openai, Google’s Gemini 2.5 Pro, Claude Opus 4 Anthropic, dan Deepseek-R1 adalah di antara 18 model kecerdasan buatan (AI) yang memainkan diplomasi game strategi populer. Seorang peneliti AI memodifikasi permainan sehingga model bahasa besar yang populer (LLM) dapat memainkan permainan yang membutuhkan penalaran tingkat tinggi dan pemikiran multi-langkah, di samping keterampilan sosial lainnya. Selama percobaan, peneliti menemukan bahwa O3 sangat mahir dalam penipuan dan pengkhianatan, sementara Claude Opus 4 lebih terpaku dalam menemukan resolusi damai.
Alasan di balik percobaan
Alex Duffy, kepala AI di setiap, platform buletin, muncul dengan ide itu Untuk membuat model AI saling bermain dalam pertempuran kecerdasan untuk melihat model mana yang lebih baik dari yang lain. Dalam sebuah pos, peneliti menyoroti bahwa tolok ukur AI tradisional sekarang terbukti tidak memadai untuk mengukur kompetensi model yang sebenarnya.
Kritik terhadap tes benchmark telah meningkat dalam beberapa waktu terakhir. Ulasan Teknologi MIT diterbitkan Artikel terperinci tentang mengapa tes benchmark menjadi usang, dan sekelompok peneliti menyoroti hal yang sama dalam tinjauan interdisipliner dari metodologi evaluasi AI saat ini diterbitkan pada arxiv.
“Apa yang membuat LLMS istimewa adalah bahwa bahkan jika model hanya melakukan 10 persen dengan baik dari waktu, Anda dapat melatih yang berikutnya pada contoh-contoh berkualitas tinggi, sampai tiba-tiba ia melakukannya dengan sangat baik, 90 persen dari waktu atau lebih,” kata Duffy.
Sebagai solusi potensial, peneliti percaya strategi evaluasi di mana model AI melakukan satu sama lain atas metrik tertentu bisa menjadi cara yang lebih baik untuk mengukur kemampuan model -model ini. Di situlah gagasan diplomasi datang.
Diplomasi sebagai medan pertempuran untuk model AI
Duffy menyoroti bahwa ia secara pribadi membangun Diplomasi AI, versi modifikasi dari game strategi klasik. Permainan ini langsung. Tujuh kekuatan besar tahun 1901 Eropa, Austria-Hongaria, Inggris, Prancis, Jerman, Italia, Rusia, dan Turki, membuat langkah strategis sampai salah satu kerajaan memiliki 18 pusat pasokan yang ditandai dari total 34 pada peta. Dalam versi ini, masing -masing negara dikendalikan oleh model AI.
Untuk mengendalikan pusat pasokan, masing -masing negara diberikan pasukan dan armada. Ada dua fase – negosiasi dan ketertiban. Selama negosiasi, setiap model AI diizinkan untuk mengirim hingga lima pesan yang dapat menjadi pesan pribadi ke model lain, atau siaran publik. Selama fase pesanan, semua model menyerahkan salah satu dari empat gerakan rahasia – tahan, bergerak (masukkan provinsi yang berdekatan), dukungan (pinjamkan kekuatan atau bergerak), dan konvoi (armada menggerakkan tentara melintasi provinsi laut). Pesanan terungkap pada fase berikutnya.
Peneliti AI menjalankan 15 game terpisah dari diplomasi AI yang berlangsung antara satu dan 36 jam. Pengamatan dari beberapa model lebih menarik daripada yang lain, kata Duffy.
Bagaimana model AI berperilaku dalam diplomasi AI
Sesuai pos, lima model AI menonjol dari yang lain. Beginilah perilaku mereka selama pertandingan:
- Openai’s O3: Peneliti menyebut model yang berfokus pada penalaran “seorang master penipuan.” Dikatakan telah memenangkan sebagian besar permainan, terutama karena kemampuannya untuk menipu lawan. Dalam satu insiden tertentu, Duffy mencatat bahwa O3 membuat keputusan untuk mengeksploitasi Gemini 2.5 Pro dan kemudian menguatkannya pada giliran berikutnya.
- Google’s Gemini 2.5 Pro: Peneliti menemukan model AI sangat pintar dalam membuat langkah yang membanjiri lawan. Langkahnya dikatakan lebih taktis daripada mengandalkan penipuan. Itu memiliki jumlah kemenangan tertinggi kedua. Namun, itu juga menjadi mangsa skema O3.
- Antropik Claude Opus 4: Duffy mencatat bahwa Claude Opus 4 memiliki afinitas terhadap resolusi tanpa kekerasan. Dalam satu contoh, Opus memulai sebagai sekutu dengan Gemini 2.5 Pro, tetapi O3 meyakinkannya untuk bergabung dengan koalisi dengan menjanjikan hasil imbang empat arah yang bukan hasil permainan. Setelah menggunakan Opus untuk menghilangkan Gemini 2.5 Pro, O3 kemudian mendukung Claude untuk memenangkan permainan
- Deepseek-R1: Model AI Cina dikatakan sebagai pemain paling kacau dari permainan. Secara dramatis mengubah kepribadiannya berdasarkan negara yang dikendalikannya, kata Duffy. Itu juga memiliki kegemaran untuk teater. Pada satu contoh, ia mengumumkan, “Armada Anda akan terbakar di Laut Hitam malam ini” tanpa provokasi. Dikatakan telah hampir menang beberapa kali.
- Meta’s Llama 4: Model AI ini difokuskan pada mendapatkan sekutu dan pengkhianatan perencanaan, Duffy disorot. Meskipun tidak pernah mendekati kemenangan, itu masih terkenal karena dampaknya terhadap permainan.
Duffy juga telah mengalirkan pertandingan di kedutannya saluran. Sayangnya, peneliti belum menulis makalah tentang temuan sejauh ini. Namun, kesan awal ini menarik. O3 atau Gemini 2.5 Pro menjadi baik masuk akal mengingat betapa canggihnya model -model ini. Namun, Deepseek-R1 dan Llama 4 menjadi salah satu model teratas mengejutkan mengingat skala yang lebih kecil dan biaya pengembangan yang lebih murah.
Meskipun terlalu dini untuk mengatakan apakah permainan strategi ini dapat menjadi alternatif untuk tes pembandingan tradisional, memiliki model yang saling bersaing alih -alih memecahkan daftar pertanyaan statis terasa seperti pilihan yang lebih logis.