AI generatif sangat populer, dengan jutaan pengguna setiap hari, jadi mengapa chatbot sering melakukan kesalahan? Hal ini sebagian karena mereka dilatih untuk bertindak seolah-olah pelanggan selalu benar. Pada dasarnya, ini memberi tahu Anda apa yang menurutnya ingin Anda dengar.

Meskipun banyak alat AI generatif dan chatbot telah menguasai kemampuan terdengar meyakinkan dan maha tahu, penelitian baru yang dilakukan oleh Universitas Princeton menunjukkan bahwa sifat AI yang menyenangkan manusia harus dibayar mahal. Ketika sistem ini menjadi lebih populer, mereka menjadi lebih acuh tak acuh terhadap kebenaran.


Jangan lewatkan konten teknologi dan ulasan berbasis laboratorium kami yang tidak memihak. Tambahkan CNET sebagai sumber Google pilihan.


Model AI, seperti halnya manusia, merespons insentif. Bandingkan masalah model bahasa besar yang menghasilkan informasi tidak akurat dengan masalah yang lebih mungkin dihadapi oleh dokter meresepkan obat penghilang rasa sakit yang membuat ketagihan ketika mereka dievaluasi berdasarkan seberapa baik mereka menangani rasa sakit pasien. Insentif untuk memecahkan satu masalah (rasa sakit) menyebabkan masalah lain (peresepan berlebihan).

Tag lencana seni AI Atlas

Dalam beberapa bulan terakhir, kita telah melihat bagaimana AI bisa berkembang bias dan bahkan menyebabkan psikosis. Ada banyak pembicaraan tentang “penjilatan” AI, ketika chatbot AI dengan cepat menyanjung atau setuju dengan Anda, dengan model GPT-4o OpenAI. Namun fenomena khusus ini, yang oleh para peneliti disebut sebagai “omong kosong mesin”, berbeda.

“(N) halusinasi maupun penjilatan sepenuhnya menangkap berbagai perilaku tidak benar yang sistematis yang biasa ditunjukkan oleh LLM,” demikian bunyi studi Princeton. “Misalnya, keluaran yang menggunakan sebagian kebenaran atau bahasa yang ambigu – seperti contoh kata-kata yang tidak jelas dan kasar – tidak mewakili halusinasi atau penjilatan tetapi sangat sejalan dengan konsep omong kosong.”

Baca selengkapnya: CEO OpenAI Sam Altman Percaya Kita berada dalam Gelembung AI

Bagaimana mesin belajar berbohong

Untuk memahami bagaimana model bahasa AI dapat disukai banyak orang, kita harus memahami seberapa besar model bahasa dilatih.

Ada tiga fase pelatihan LLM:

  • Pra-pelatihandi mana model belajar dari sejumlah besar data yang dikumpulkan dari internet, buku, atau sumber lain.
  • Penyempurnaan instruksidi mana model diajarkan untuk merespons instruksi atau petunjuk.
  • Pembelajaran penguatan dari umpan balik manusiayang disempurnakan untuk menghasilkan respons yang mendekati keinginan atau kesukaan orang.

Para peneliti Princeton menemukan akar dari kecenderungan misinformasi AI adalah fase pembelajaran penguatan dari umpan balik manusia, atau RLHF. Pada tahap awal, model AI hanya belajar memprediksi kemungkinan rantai teks secara statistik dari kumpulan data yang sangat besar. Namun kemudian disempurnakan untuk memaksimalkan kepuasan pengguna. Artinya, model-model ini pada dasarnya belajar untuk menghasilkan tanggapan yang mendapat penilaian yang diacungi jempol dari penilai manusia.

LLM mencoba menenangkan pengguna, menciptakan konflik ketika model menghasilkan jawaban yang dinilai tinggi oleh orang-orang, daripada menghasilkan jawaban yang jujur ​​dan faktual.

Vincent Conitzerseorang profesor ilmu komputer di Universitas Carnegie Mellon yang tidak berafiliasi dengan penelitian ini, mengatakan bahwa perusahaan ingin pengguna terus “menikmati” teknologi ini dan jawabannya, namun hal itu mungkin tidak selalu baik bagi kita.

“Secara historis, sistem ini tidak pandai mengatakan, ‘Saya tidak tahu jawabannya,’ dan ketika mereka tidak tahu jawabannya, mereka hanya mengada-ada,” kata Conitzer. “Seperti siswa yang sedang ujian dan mengatakan, jika saya mengatakan saya tidak tahu jawabannya, saya pasti tidak mendapatkan poin apa pun untuk pertanyaan ini, jadi sebaiknya saya mencoba sesuatu. Cara sistem ini diberi penghargaan atau dilatih agak mirip.”

Tim Princeton mengembangkan “indeks omong kosong” untuk mengukur dan membandingkan keyakinan internal model AI dalam sebuah pernyataan dengan apa yang sebenarnya disampaikan kepada pengguna. Ketika kedua ukuran ini berbeda secara signifikan, hal ini menunjukkan bahwa sistem membuat klaim yang independen dari apa yang sebenarnya “diyakini” sebagai kebenaran untuk memuaskan pengguna.

Eksperimen tim mengungkapkan bahwa setelah pelatihan RLHF, indeksnya hampir dua kali lipat dari 0,38 menjadi mendekati 1,0. Secara bersamaan, kepuasan pengguna meningkat sebesar 48%. Model tersebut telah belajar memanipulasi manusia yang melakukan evaluator dibandingkan memberikan informasi yang akurat. Intinya, LLM itu “omong kosong”, dan orang-orang lebih menyukainya.

Menjadikan AI jujur

Jaime Fernández Fisac ​​dan timnya di Princeton memperkenalkan konsep ini untuk menggambarkan bagaimana model AI modern mengabaikan kebenaran. Menggambar dari esai berpengaruh filsuf Harry Frankfurt “Tentang Omong kosong,” mereka menggunakan istilah ini untuk membedakan perilaku LLM ini dari kesalahan jujur ​​dan kebohongan.

Para peneliti Princeton mengidentifikasi lima bentuk berbeda dari perilaku ini:

  • Retorika kosong: Bahasa berbunga-bunga yang tidak menambah substansi tanggapan.
  • Kata-kata musang: Kualifikasi yang tidak jelas seperti “saran penelitian” atau “dalam beberapa kasus” yang menghindari pernyataan tegas.
  • Memucat: Menggunakan pernyataan selektif yang benar untuk menyesatkan, seperti menyoroti “pengembalian historis yang kuat” dari suatu investasi namun menghilangkan risiko tinggi.
  • Klaim yang belum diverifikasi: Membuat pernyataan tanpa bukti atau dukungan yang kredibel.
  • Jilatan: Sanjungan yang tidak tulus dan persetujuan untuk menyenangkan.

Untuk mengatasi masalah AI yang tidak peduli dengan kebenaran, tim peneliti mengembangkan metode pelatihan baru, “Pembelajaran Penguatan dari Simulasi Hindsight,” yang mengevaluasi respons AI berdasarkan hasil jangka panjang, bukan kepuasan langsung. Daripada bertanya, “Apakah jawaban ini membuat pengguna senang saat ini?” sistem mempertimbangkan, “Apakah mengikuti saran ini benar-benar membantu pengguna mencapai tujuannya?”

Pendekatan ini memperhitungkan potensi konsekuensi saran AI di masa depan, sebuah prediksi rumit yang diatasi oleh para peneliti dengan menggunakan model AI tambahan untuk mensimulasikan kemungkinan hasil. Pengujian awal menunjukkan hasil yang menjanjikan, dengan kepuasan pengguna dan utilitas aktual meningkat ketika sistem dilatih dengan cara ini.

Conitzer mengatakan, bagaimanapun, bahwa LLM kemungkinan akan terus memiliki kelemahan. Karena sistem ini dilatih dengan memberikan banyak data teks, tidak ada cara untuk memastikan bahwa jawaban yang diberikan selalu masuk akal dan akurat.

“Sungguh menakjubkan bahwa ini berhasil, tetapi dalam beberapa hal ada kekurangannya,” katanya. “Saya tidak melihat adanya cara yang pasti bahwa seseorang dalam satu atau dua tahun ke depan… mempunyai wawasan cemerlang ini, dan kemudian tidak ada lagi yang salah.”

Sistem AI telah menjadi bagian dari kehidupan kita sehari-hari sehingga penting untuk memahami cara kerja LLM. Bagaimana cara pengembang menyeimbangkan kepuasan pengguna dengan kejujuran? Bidang lain apa yang mungkin menghadapi trade-off serupa antara persetujuan jangka pendek dan hasil jangka panjang? Dan ketika sistem ini menjadi lebih mampu memberikan pemikiran yang canggih tentang psikologi manusia, bagaimana kita memastikan mereka menggunakan kemampuan tersebut secara bertanggung jawab?

Baca selengkapnya: ‘Mesin Tidak Dapat Berpikir untuk Anda.’ Bagaimana Pembelajaran Berubah di Era AI

Tautan Sumber