Openai merilis yang baru Benchmark Pada hari Kamis yang menguji bagaimana kinerja model AI dibandingkan dengan profesional manusia di berbagai industri dan pekerjaan. Tes, GDPVal, adalah upaya awal untuk memahami seberapa dekat sistem Openai untuk mengungguli manusia dalam pekerjaan yang berharga secara ekonomi – bagian penting dari misi pendiri perusahaan untuk mengembangkan kecerdasan umum buatan, atau AGI.

Openai mengatakan bahwa mereka menemukan bahwa model GPT-5 dan Claude Opus 4.1 Anthropic “sudah mendekati kualitas pekerjaan yang dihasilkan oleh para pakar industri.”

Itu tidak berarti bahwa model Openai akan segera mulai mengganti manusia dalam pekerjaan mereka. Meskipun prediksi oleh beberapa CEO itu AI akan mengambil pekerjaan manusia hanya dalam beberapa tahun, Openai mengakui bahwa GDPVal hari ini mencakup sejumlah tugas yang sangat terbatas yang dilakukan orang dalam pekerjaan nyata mereka. Namun, ini adalah salah satu cara terbaru perusahaan mengukur kemajuan AI menuju tonggak sejarah ini.

GDPVal didasarkan pada sembilan industri yang berkontribusi paling besar untuk produk domestik bruto Amerika, termasuk domain seperti perawatan kesehatan, keuangan, manufaktur, dan pemerintah. Benchmark menguji kinerja model AI dalam 44 pekerjaan di antara industri -industri tersebut, mulai dari insinyur perangkat lunak hingga perawat hingga jurnalis.

Untuk tes versi pertama Openai, GDPVal-V0, Openai meminta para profesional yang berpengalaman untuk membandingkan laporan yang dihasilkan AI dengan yang diproduksi oleh para profesional lain, dan kemudian memilih yang terbaik. Misalnya, satu prompt meminta bankir investasi untuk membuat lanskap pesaing untuk industri pengiriman mil terakhir dan membandingkannya dengan laporan yang dihasilkan AI. Openai kemudian rata -rata “tingkat kemenangan” model AI terhadap laporan manusia di semua 44 pekerjaan.

Untuk GPT-5-High, versi GPT-5 dengan kekuatan komputasi ekstra, perusahaan mengatakan model AI peringkat lebih baik daripada atau setara dengan pakar industri 40,6% dari waktu.

Openai juga menguji model Claude Opus 4.1 Anthropic, yang diperingkat lebih baik daripada atau setara dengan para pakar industri di 49% tugas. Openai mengatakan bahwa mereka percaya bahwa Claude mendapat skor yang sangat tinggi karena kecenderungannya untuk membuat grafik yang menyenangkan, daripada kinerja belaka.

Acara TechCrunch

San Francisco
|
27-29 Oktober 2025

Kredit gambar:Openai

Perlu dicatat bahwa sebagian besar profesional yang bekerja melakukan lebih dari sekadar mengirimkan laporan penelitian kepada bos mereka, yang merupakan tes GDPVal-V0. Openai mengakui hal ini dan mengatakan berencana untuk membuat tes yang lebih kuat di masa depan yang dapat memperhitungkan lebih banyak industri dan alur kerja interaktif.

Meskipun demikian, perusahaan melihat kemajuan pada GDPVal sebagai terkenal.

Dalam sebuah wawancara dengan TechCrunch, kepala ekonom Openai Dr. Aaron Chatterji mengatakan hasil GDPVal menunjukkan bahwa orang -orang dalam pekerjaan ini sekarang dapat menggunakan model AI untuk menghabiskan waktu untuk tugas yang lebih bermakna.

“(Karena) model ini semakin baik dalam beberapa hal ini,” kata Chatterji, “orang -orang dalam pekerjaan itu sekarang dapat menggunakan model, semakin banyak kemampuan menjadi lebih baik, untuk menurunkan beberapa pekerjaan mereka dan melakukan hal -hal bernilai lebih tinggi.”

Evaluasi Openai memimpin Tejal Patwardhan mengatakan kepada TechCrunch bahwa dia didorong oleh tingkat kemajuan pada GDPVal. Model GPT-4O Openai mencetak hanya 13,7% (kemenangan dan ikatan versus manusia), yang dirilis sekitar 15 bulan yang lalu. Sekarang skor GPT-5 hampir tiga kali lipat, tren Patwardhan berharap untuk melanjutkan.

Silicon Valley memiliki berbagai tolok ukur yang digunakannya untuk mengukur kemajuan model AI dan menilai apakah model yang diberikan adalah canggih. Di antara yang paling populer adalah AIME 2025 (tes masalah matematika kompetitif) dan GPQA Diamond (tes pertanyaan sains tingkat PhD). Namun, beberapa model AI mendekati saturasi pada beberapa tolok ukur ini, dan banyak peneliti AI telah mengutip perlunya tes yang lebih baik yang dapat mengukur kemahiran AI pada tugas-tugas dunia nyata.

Tolok ukur seperti GDPVal bisa menjadi semakin penting dalam percakapan itu, karena Openai membuat kasus bahwa model AI -nya berharga untuk berbagai industri. Tetapi Openai mungkin memerlukan versi tes yang lebih komprehensif untuk secara definitif mengatakan model AI -nya dapat mengungguli manusia.

Tautan Sumber