Chatbots benar-benar mengesankan ketika Anda menonton mereka melakukan hal-hal yang mereka kuasai, seperti menulis email dasar atau membuat gambar yang aneh dan tampak futuristik. Tetapi meminta AI generatif untuk memecahkan salah satu teka -teki di belakang koran, dan hal -hal dapat dengan cepat keluar dari rel.

Itulah yang ditemukan oleh para peneliti di University of Colorado di Boulder ketika mereka menantang model bahasa besar untuk menyelesaikan Sudoku. Dan bahkan teka -teki 9×9 standar. Teka-teki 6×6 yang lebih mudah sering di luar kemampuan LLM tanpa bantuan luar (dalam hal ini, alat pemecahan puzzle spesifik).

Tag lencana ai atlas

Temuan yang lebih penting datang ketika model diminta untuk menunjukkan pekerjaan mereka. Sebagian besar, mereka tidak bisa. Terkadang mereka berbohong. Terkadang mereka menjelaskan hal -hal dengan cara yang tidak masuk akal. Terkadang mereka berhalusinasi dan mulai berbicara tentang cuaca.

Jika alat AI Gen tidak dapat menjelaskan keputusan mereka secara akurat atau transparan, itu seharusnya menyebabkan kita berhati -hati karena kita memberikan hal -hal ini lebih banyak kontrol atas kehidupan dan keputusan kita, kata Ashutosh Trivedi, seorang profesor ilmu komputer di Universitas Colorado di Boulder dan salah satu penulis dari kertas Diterbitkan pada bulan Juli dalam temuan Asosiasi Linguistik Komputasi.

“Kami benar -benar ingin penjelasan itu transparan dan mencerminkan mengapa AI membuat keputusan itu, dan bukan AI yang mencoba memanipulasi manusia dengan memberikan penjelasan yang mungkin disukai manusia,” kata Trivedi.


Jangan lewatkan konten teknologi kami yang tidak memihak dan ulasan berbasis laboratorium. Tambahkan CNET Sebagai sumber Google yang disukai.


Makalah ini adalah bagian dari badan penelitian yang berkembang tentang perilaku model bahasa besar. Studi terbaru lainnya telah menemukan, misalnya, bahwa model berhala sebagian karena prosedur pelatihan mereka memberi insentif kepada mereka untuk menghasilkan hasil yang akan disukai pengguna, daripada apa yang akurat, atau bahwa orang yang menggunakan LLM untuk membantu mereka menulis esai lebih kecil kemungkinannya untuk mengingat apa yang mereka tulis. Ketika Gen AI menjadi semakin menjadi bagian dari kehidupan kita sehari -hari, implikasi tentang bagaimana teknologi ini bekerja dan bagaimana kita berperilaku ketika menggunakannya menjadi sangat penting.

Ketika Anda membuat keputusan, Anda dapat mencoba membenarkannya, atau setidaknya menjelaskan bagaimana Anda sampai pada itu. Model AI mungkin tidak dapat secara akurat atau transparan melakukan hal yang sama. Maukah Anda mempercayainya?

Tonton ini: Saya membangun pc ai dari awal

Mengapa LLMS Berjuang dengan Sudoku

Kami telah melihat model AI gagal di permainan dasar dan teka -teki sebelumnya. Openai’s Chatgpt (antara lain) telah benar -benar dihancurkan di Catur oleh lawan komputer dalam permainan Atari 1979. Makalah penelitian terbaru dari Apple menemukan bahwa model dapat berjuang Teka -teki lain, seperti menara Hanoi.

Ini berkaitan dengan cara kerja LLMS dan mengisi celah dalam informasi. Model -model ini mencoba menyelesaikan kesenjangan berdasarkan apa yang terjadi dalam kasus serupa dalam data pelatihan mereka atau hal -hal lain yang telah mereka lihat di masa lalu. Dengan Sudoku, pertanyaannya adalah salah satu logika. AI mungkin mencoba mengisi setiap celah secara berurutan, berdasarkan pada apa yang tampak seperti jawaban yang masuk akal, tetapi untuk menyelesaikannya dengan benar, ia malah harus melihat seluruh gambar dan menemukan urutan logis yang berubah dari teka -teki ke teka -teki.

Baca selengkapnya: 29 Cara Anda Dapat Membuat Gen AI Berhasil Untuk Anda, Menurut Pakar Kami

Chatbots buruk pada catur karena alasan yang sama. Mereka menemukan langkah logis berikutnya tetapi tidak perlu berpikir tiga, empat atau lima gerakan ke depan – keterampilan mendasar yang diperlukan untuk bermain catur dengan baik. Chatbots juga kadang -kadang cenderung memindahkan potongan catur dengan cara yang tidak benar -benar mengikuti aturan atau membuat potongan -potongan dalam bahaya yang tidak berarti.

Anda mungkin berharap LLM dapat menyelesaikan Sudoku karena mereka adalah komputer dan teka -teki itu terdiri dari angka, tetapi teka -teki itu sendiri tidak benar -benar matematis; Mereka simbolis. “Sudoku terkenal sebagai teka -teki dengan angka yang dapat dilakukan dengan apa pun yang bukan angka,” kata Fabio Somenzi, seorang profesor di CU dan salah satu penulis makalah penelitian.

Saya menggunakan prompt sampel dari makalah para peneliti dan memberikannya kepada Chatgpt. Alat itu menunjukkan pekerjaannya, dan berulang kali mengatakan kepada saya bahwa ada jawabannya sebelum menunjukkan teka -teki yang tidak berfungsi, lalu kembali dan memperbaikinya. Itu seperti bot yang membalik presentasi yang terus mendapatkan suntingan detik terakhir: ini adalah jawaban terakhir. Tidak, sebenarnya, tidak apa -apa, ini adalah jawaban terakhir. Pada akhirnya mendapat jawaban, melalui coba -coba. Tetapi coba -coba bukanlah cara praktis bagi seseorang untuk menyelesaikan Sudoku di koran. Itu terlalu banyak menghapus dan merusak kesenangan.

Robot memainkan catur melawan seseorang.

AI dan robot bisa bagus dalam permainan jika mereka dibangun untuk memainkannya, tetapi alat serba guna seperti model bahasa besar dapat berjuang dengan teka-teki logika.

Bijih Huiying/Bloomberg/Getty Images

AI berjuang untuk menunjukkan pekerjaannya

Para peneliti Colorado tidak hanya ingin melihat apakah bot bisa menyelesaikan teka -teki. Mereka meminta penjelasan tentang bagaimana bot bekerja melalui mereka. Segalanya tidak berjalan dengan baik.

Menguji Model Penalaran Pratinjau O1 Openai, para peneliti melihat bahwa penjelasan-bahkan untuk teka-teki yang diselesaikan dengan benar-tidak secara akurat menjelaskan atau membenarkan gerakan mereka dan membuat istilah dasar salah.

“Satu hal yang mereka kuasai adalah memberikan penjelasan yang tampaknya masuk akal,” kata Maria Pacheco, asisten profesor ilmu komputer di CU. “Mereka selaras dengan manusia, jadi mereka belajar berbicara seperti kita menyukainya, tetapi apakah mereka setia dengan apa langkah sebenarnya untuk menyelesaikan hal itu adalah di mana kita berjuang sedikit.”

Terkadang, penjelasannya sama sekali tidak relevan. Sejak pekerjaan kertas selesai, para peneliti terus menguji model baru yang dirilis. Somenzi mengatakan bahwa ketika dia dan Trivedi menjalankan model penalaran O4 Openai melalui tes yang sama, pada satu titik, tampaknya menyerah sepenuhnya.

“Pertanyaan berikutnya yang kami tanyakan, jawabannya adalah ramalan cuaca untuk Denver,” katanya.

(Pengungkapan: Ziff Davis, perusahaan induk CNET, pada bulan April mengajukan gugatan terhadap Openai, menuduhnya melanggar hak cipta Ziff Davis dalam pelatihan dan mengoperasikan sistem AI -nya.)

Menjelaskan diri Anda adalah keterampilan yang penting

Saat Anda memecahkan teka -teki, Anda hampir pasti bisa memandu orang lain melalui pemikiran Anda. Fakta bahwa LLM ini gagal begitu spektakuler pada pekerjaan dasar itu bukanlah masalah sepele. Dengan perusahaan AI terus -menerus berbicara tentang “agen AI” yang dapat mengambil tindakan atas nama Anda, dapat menjelaskan diri Anda adalah penting.

Pertimbangkan jenis pekerjaan yang diberikan kepada AI sekarang, atau direncanakan dalam waktu dekat: mengemudi, melakukan pajak, menentukan strategi bisnis dan menerjemahkan dokumen penting. Bayangkan apa yang akan terjadi jika Anda, seseorang, melakukan salah satu dari hal -hal itu dan ada yang salah.

“Ketika manusia harus meletakkan wajah mereka di depan keputusan mereka, mereka lebih baik dapat menjelaskan apa yang mengarah pada keputusan itu,” kata Somenzi.

Ini bukan hanya masalah mendapatkan jawaban yang terdengar masuk akal. Itu harus akurat. Suatu hari, penjelasan AI tentang dirinya sendiri mungkin harus bertahan di pengadilan, tetapi bagaimana kesaksiannya dianggap serius jika diketahui berbohong? Anda tidak akan mempercayai seseorang yang gagal menjelaskan diri mereka sendiri, dan Anda juga tidak akan mempercayai seseorang yang Anda temukan mengatakan apa yang ingin Anda dengar alih -alih kebenaran.

“Memiliki penjelasan sangat dekat dengan manipulasi jika dilakukan karena alasan yang salah,” kata Trivedi. “Kita harus sangat berhati -hati sehubungan dengan transparansi penjelasan ini.”

Tautan Sumber