A Makalah Penelitian Baru Dari Openai bertanya mengapa design bahasa besar seperti GPT- 5 dan chatbots seperti chatgpt masih berhalusinasi, dan apakah sesuatu dapat dilakukan untuk mengurangi halusinasi tersebut.
Di dalam Uploading blog yang meringkas kertas Openai mendefinisikan halusinasi sebagai “pernyataan yang masuk akal tetapi salah yang dihasilkan oleh version bahasa,” dan mengakui bahwa terlepas dari perbaikan, halusinasi “tetap menjadi tantangan mendasar untuk semua version bahasa besar” – yang tidak akan pernah sepenuhnya dihilangkan.
Untuk mengilustrasikan intinya, para peneliti mengatakan bahwa ketika mereka bertanya “chatbot yang banyak digunakan” tentang judul Ph.D. Disertasi, mereka mendapat tiga jawaban berbeda, semuanya salah. (Kalai adalah salah satu penulis kertas.) Mereka kemudian bertanya tentang ulang tahunnya dan menerima tiga tanggal berbeda. Sekali lagi, semuanya salah.
Bagaimana chatbot bisa salah – dan terdengar begitu percaya diri dalam kesalahannya? Para peneliti menyarankan agar halusinasi muncul, sebagian, karena proses pretraining yang berfokus pada mendapatkan version untuk memprediksi kata berikutnya dengan benar, tanpa tag benar atau salah yang melekat pada pernyataan pelatihan: “Model hanya melihat contoh positif bahasa yang lancar dan harus memperkirakan keseluruhan distribusi.”
“Ejaan dan tanda kurung mengikuti pola yang konsisten, jadi kesalahan di sana menghilang dengan skala,” tulis mereka. “Tapi fakta frekuensi rendah sewenang-wenang, seperti ulang tahun hewan peliharaan, tidak dapat diprediksi dari pola saja dan karenanya menyebabkan halusinasi.”
Solusi yang diusulkan makalah, bagaimanapun, lebih sedikit berfokus pada proses pretraining awal dan lebih pada bagaimana version bahasa besar dievaluasi. Ini berpendapat bahwa version evaluasi saat ini tidak menyebabkan halusinasi itu sendiri, tetapi mereka “menetapkan insentif yang salah.”
Para peneliti membandingkan evaluasi ini dengan jenis tes pilihan ganda yang menebak secara acak masuk akal, karena “Anda mungkin beruntung dan benar,” sambil meninggalkan jawaban kosong “menjamin nol.”
Acara TechCrunch
San Francisco | 27 – 29 Oktober 2025
“Dengan cara yang sama, ketika model dinilai hanya berdasarkan akurasi, persentase pertanyaan yang mereka dapatkan dengan benar, mereka didorong untuk menebak daripada mengatakan ‘Saya tidak tahu,'” kata mereka.
Solusi yang diusulkan, kemudian, mirip dengan tes (seperti SAT) yang mencakup “negatif (penilaian) untuk jawaban yang salah atau kredit parsial untuk membiarkan pertanyaan kosong untuk mencegah tebakan buta.” Demikian pula, Openai mengatakan evaluasi model perlu “menghukum kesalahan percaya diri lebih dari Anda menghukum ketidakpastian, dan memberikan kredit parsial untuk ekspresi ketidakpastian yang tepat.”
Dan para peneliti berpendapat bahwa tidak cukup untuk memperkenalkan “beberapa tes sadar ketidakpastian baru di samping.” Alih-alih, “Eval berbasis akurasi yang banyak digunakan perlu diperbarui sehingga penilaian mereka tidak menganjurkan menebak.”
“Jika papan skor utama tetap bermanfaat beruntung, version akan terus belajar menebak,” kata para peneliti.