Versi aslinya dari cerita ini muncul di Berapa banyak majalah.

Perusahaan AI China Deepseek merilis chatbot awal tahun ini yang disebut R1, yang menarik banyak perhatian. Sebagian besar fokus pada fakta bahwa perusahaan yang relatif kecil dan tidak dikenal mengatakan telah membangun chatbot yang menyaingi kinerja mereka dari perusahaan AI paling terkenal di dunia, tetapi menggunakan sebagian kecil dari kekuatan dan biaya komputer. Akibatnya, stok banyak perusahaan teknologi Barat anjlok; Nvidia, yang menjual chip yang menjalankan model AI terkemuka, kehilangan lebih banyak nilai saham dalam satu hari dari perusahaan mana pun dalam sejarah.

Beberapa perhatian itu melibatkan unsur tuduhan. Sumber dugaan itu Deepseek telah diperolehtanpa izin, pengetahuan dari model O1 milik Openai dengan menggunakan teknik yang dikenal sebagai distilasi. Sebagian besar liputan berita Membingkai kemungkinan ini sebagai kejutan bagi industri AI, menyiratkan bahwa Deepseek telah menemukan cara baru yang lebih efisien untuk membangun AI.

Tetapi distilasi, juga disebut distilasi pengetahuan, adalah alat yang banyak digunakan dalam AI, subjek penelitian ilmu komputer yang akan kembali satu dekade dan alat yang digunakan perusahaan teknologi besar pada model mereka sendiri. “Distilasi adalah salah satu alat terpenting yang dimiliki perusahaan saat ini untuk membuat model lebih efisien,” kata Enric Boix-Adseraseorang peneliti yang mempelajari distilasi di sekolah Wharton University of Pennsylvania.

Pengetahuan Gelap

Gagasan untuk distilasi dimulai makalah 2015 oleh tiga peneliti di Google, termasuk Geoffrey Hinton, yang disebut baptis AI dan 2024 Peraih Nobel. Pada saat itu, para peneliti sering menjalankan ansambel model— “banyak model yang direkatkan,” kata Oriol Vinyalseorang ilmuwan utama di Google DeepMind dan salah satu penulis kertas – untuk meningkatkan kinerja mereka. “Tapi itu sangat rumit dan mahal untuk menjalankan semua model secara paralel,” kata Vinyals. “Kami tertarik dengan gagasan menyaringnya ke satu model.”

Para peneliti berpikir mereka mungkin membuat kemajuan dengan mengatasi titik lemah yang terkenal dalam algoritma pembelajaran mesin: jawaban yang salah semuanya dianggap sama buruknya, terlepas dari seberapa salah mereka. Dalam model klasifikasi gambar, misalnya, “membingungkan seekor anjing dengan rubah dihukum dengan cara yang sama seperti membingungkan seekor anjing dengan pizza,” kata Vinyals. Para peneliti curiga bahwa model ensemble memang berisi informasi tentang jawaban yang salah mana yang kurang buruk daripada yang lain. Mungkin model “siswa” yang lebih kecil dapat menggunakan informasi dari model “guru” besar untuk lebih cepat memahami kategori yang seharusnya memilah gambar. Hinton menyebut ini “Pengetahuan Gelap,” memohon analogi dengan materi gelap kosmologis.

Setelah membahas kemungkinan ini dengan Hinton, Vinyal mengembangkan cara untuk mendapatkan model guru besar untuk memberikan lebih banyak informasi tentang kategori gambar ke model siswa yang lebih kecil. Kuncinya adalah dengan “target lunak” dalam model guru-di mana ia memberikan probabilitas untuk setiap kemungkinan, daripada teguh jawaban ini atau itu. Satu model, misalnya, dihitung Bahwa ada peluang 30 persen bahwa sebuah gambar menunjukkan seekor anjing, 20 persen bahwa itu menunjukkan kucing, 5 persen bahwa itu menunjukkan seekor sapi, dan 0,5 persen bahwa itu menunjukkan mobil. Dengan menggunakan probabilitas ini, model guru secara efektif mengungkapkan kepada siswa bahwa anjing sangat mirip dengan kucing, tidak begitu berbeda dari sapi, dan sangat berbeda dari mobil. Para peneliti menemukan bahwa informasi ini akan membantu siswa belajar bagaimana mengidentifikasi gambar anjing, kucing, sapi, dan mobil lebih efisien. Model yang besar dan rumit dapat dikurangi menjadi yang lebih ramping dengan hampir tidak ada akurasi.

Pertumbuhan eksplosif

Idenya bukanlah pukulan langsung. Makalah itu ditolak dari konferensi, dan vinyal, berkecil hati, beralih ke topik lain. Tetapi distilasi sampai pada saat yang penting. Sekitar waktu ini, para insinyur menemukan bahwa semakin banyak data pelatihan yang mereka masukkan ke dalam jaringan saraf, semakin efektif jaringan -jaringan itu. Ukuran model segera meledak, seperti halnya mereka kemampuantetapi biaya menjalankannya naik sejalan dengan ukurannya.

Banyak peneliti beralih ke distilasi sebagai cara untuk membuat model yang lebih kecil. Pada tahun 2018, misalnya, peneliti Google meluncurkan model bahasa yang kuat yang disebut Bertyang segera mulai digunakan perusahaan untuk membantu mem -parsing miliaran pencarian web. Tapi Bert besar dan mahal untuk dijalankan, jadi tahun berikutnya, pengembang lain menyuling versi yang lebih kecil dengan bijaksana bernama Distilbert, yang menjadi banyak digunakan dalam bisnis dan penelitian. Distilasi secara bertahap menjadi di mana -mana, dan sekarang ditawarkan sebagai layanan oleh perusahaan seperti Google, OpenaiDan Amazon. Kertas Distilasi Asli, masih diterbitkan hanya di server preprint arxiv.org, sekarang telah dikutip lebih dari 25.000 kali.

Mempertimbangkan bahwa distilasi membutuhkan akses ke jeroan model guru, tidak mungkin bagi pihak ketiga untuk secara diam-diam menyaring data dari model sumber tertutup seperti Openai’s O1, seperti yang diperkirakan telah dilakukan oleh Deepseek. Yang mengatakan, model siswa masih bisa belajar sedikit dari model guru hanya melalui mendorong guru dengan pertanyaan tertentu dan menggunakan jawaban untuk melatih modelnya sendiri – pendekatan yang hampir Sokratik untuk distilasi.

Sementara itu, peneliti lain terus menemukan aplikasi baru. Pada bulan Januari, Lab Novasky di UC Berkeley menunjukkan bahwa distilasi bekerja dengan baik untuk pelatihan model penalaran rantai-dipikirkanyang menggunakan “berpikir” multistep untuk menjawab pertanyaan rumit dengan lebih baik. Laboratorium mengatakan model Sky-T1 yang sepenuhnya open open-nya biaya kurang dari $ 450 untuk berlatih, dan mencapai hasil yang sama dengan model open source yang jauh lebih besar. “Kami benar -benar terkejut dengan seberapa baik distilasi bekerja di pengaturan ini,” kata Dacheng Li, Seorang mahasiswa doktoral Berkeley dan co-mahasiswa dari tim Novasky. “Distilasi adalah teknik mendasar dalam AI.”


Cerita asli dicetak ulang dengan izin dari Berapa banyak majalah, publikasi editorial independen dari Yayasan Simons yang misinya adalah untuk meningkatkan pemahaman publik tentang sains dengan meliput perkembangan penelitian dan tren matematika dan ilmu fisik dan kehidupan.

Tautan Sumber