Apple merinci bagaimana melatih model AI barunya, lihat sorotan

Selama WWDC 25, Apple mengumumkan versi baru dari design fondasi berbasis-perangkat dan cloud. Sekarang, mereka telah menerbitkan laporan teknologi yang merinci bagaimana model -model itu dilatih, dioptimalkan, dan dievaluasi. Dan laporan itu mencakup beberapa informasi yang benar-benar menarik di bawah raksasa.

Dalam dokumen komprehensif yang disebut” Version Bahasa Yayasan Intelijen Apple – Laporan Teknologi 2025 , Perusahaan berjalan melalui berbagai aspek design baru, termasuk arsitektur, sumber information, pra-pelatihan, pasca-pelatihan, pengembangan penggunaan alat, optimisasi, dan tolok ukur.

Tinjauan pemodelan untuk design Apple Foundation. Gambar: Apel

Ini adalah bacaan yang sangat teknis, tetapi sangat bermanfaat jika Anda suka masuk ke mur dan baut dari barang semacam ini. Berikut adalah beberapa sorotan yang sangat menarik.

Version lokal dibagi menjadi dua blok

Kami sudah tahu bahwa model di perangkat Apple (satu-satunya pengembang akan dapat memanfaatkan) memiliki sekitar 3 miliar criterion. Sekarang, perusahaan telah merinci bahwa version ini sebenarnya dibagi menjadi dua blok:

“Blok 1 berisi 62, 5 % dari complete lapisan transformator, sedangkan Blok 2 berisi 37, 5 % sisanya dari lapisan transformator, tetapi memiliki kunci dan proyeksi nilai dihapus.”

Dalam praktiknya, ini berarti bahwa version lokal membutuhkan memori 37, 5 % lebih sedikit untuk caching, dan waktu yang diperlukan untuk menghasilkan token pertama (pada dasarnya, sebuah fragmen kata) juga dipotong sekitar 37, 5 %. Namun, Apple menyusun perpecahan dengan cara yang dikatakannya mempertahankan kinerja keseluruhan design dan kualitas outcome.

Design On-Device vs Eksternal Apple pada tolok ukur yang representatif. Gambar: Apel

Sebagai catatan tambahan, beberapa tahun yang lalu, Apple diterbitkan studi ini yang melihat menukar bagian -bagian LLM antara RAM dan penyimpanan flash sesuai kebutuhan, untuk mengemas model lokal yang lebih besar dari yang seharusnya sesuai dengan memori perangkat.

Sementara Apple akhirnya mengambil rute yang berbeda, menarik untuk mencatat berbagai cara perusahaan telah bereksperimen untuk menawarkan kinerja lokal yang baik, bahkan pada perangkat yang dibatasi memori.

Version berbasis cloud memiliki arsitektur kreatif

Untuk model servernya, Apple membangun arsitektur khusus yang dibuat khusus untuk platform komputasi shadow pribadi. Ini disebut campuran paralel-track-of-experts (PT-MOE), dan cara kerjanya cukup rapi.

Singkatnya (dan dengan risiko terlalu menyederhanakan hal -hal), campuran para ahli adalah ketika, alih -alih mengandalkan satu model AI besar, itu dibagi menjadi subnetwork yang lebih kecil (atau ahli) yang hanya diaktifkan ketika tugas terkait dengan sesuatu yang mereka … yah, seorang ahli dalam.

Jadi, jika prompt Anda adalah tentang memasak, hanya para ahli yang berhubungan dengan memasak yang diaktifkan, sementara yang existed tetap tidak aktif. Hasilnya masih merupakan design keseluruhan yang besar, tetapi desain modularnya memungkinkannya untuk merespons lebih cepat (dan seringkali lebih akurat) daripada jika semuanya berjalan melalui version besar yang terpadu, untuk setiap motivate.

Berikut adalah campuran IBM dari para ahli penjelajah, jika Anda memiliki 8 menit untuk cadangan:

https://www.youtube.com/watch?v=sydlvvyjyn 4

Apple membangun jenis transformator baru yang disebut Transformator Track Paralel, kemudian meningkatkannya dengan lapisan campuran para ahli (MOE). Kedengarannya terlalu rumit, tetapi intinya adalah:

Transformer tradisional memproses token melalui satu tumpukan lapisan, satu demi satu. Tetapi alih-alih menggunakan pendekatan jalur tunggal ini untuk menghitung setiap token, desain Apple membagi model menjadi beberapa trek paralel. Setiap trip memproses token secara mandiri, dan hanya menyinkronkan pada titik -titik tertentu.

Kemudian, di dalam masing -masing trek itu, Apple mengganti setiap lapisan transformator reguler lainnya dengan lapisan MOE, yang mengaktifkan hanya beberapa ahli untuk setiap token, sementara sisanya tetap menganggur. Dan karena setiap trek memiliki ahli lokalnya sendiri, model ini menghindari kemacetan yang terjadi ketika semuanya harus berkoordinasi di seluruh sistem.

Tambahkan ke pengaturan pintar yang menyeimbangkan konteks lokal dengan pemahaman gambaran besar (disebut interleaving lapisan perhatian worldwide dan lokal), dan hasilnya adalah version yang sangat modular, efisien, dan terukur yang lebih cepat dan lebih ramping, tetapi masih cukup pintar.

Apple meningkatkan representasi multibahasa 275 %

Salah satu ketukan terbesar terhadap peluncuran awal Apple Intelligence adalah (dan masih) dukungan bahasa terbatas di luar bahasa Inggris. Dengan version barunya, Apple telah memperluas dukungan bahasa, dan dokumen tersebut merinci langkah -langkah yang diperlukan untuk melakukannya.

Menurut dokumen, Apple meningkatkan jumlah data multibahasa yang digunakan selama pelatihan dari 8 % menjadi 30 %. Ini termasuk konten organik dan sintetis.

Apple juga meningkatkan tokenizernya (yang pada dasarnya adalah kosakata token model) sebesar 50 %. Ini berarti bahwa modelnya sekarang tahu 150 K token berbeda, naik dari 100 k sebelumnya.

Perusahaan mengatakan bahwa perubahan-perubahan ini menyebabkan “keuntungan yang signifikan” dalam kinerja di seluruh tolok ukur non-Inggris, terutama setelah penguatan pembelajaran fine-tuning.

Dalam deokumen, Apple menjelaskan bahwa evaluasi dilakukan dengan menggunakan petunjuk yang ditulis oleh penutur asli (bukan terjemahan), dan version diuji pada akurasi dan seberapa alami tanggapannya terdengar dalam konteks lokal. Jika ini terdengar akrab, Anda mungkin membaca liputan terbaru kami tentang studi penelitian Apple ini.

Dalam praktiknya, semua ini berarti bahwa fitur seperti alat menulis harus bekerja lebih andal dalam bahasa yang didukung.

Dari mana Apple sumber datanya?

Seperti dengan version pertamanya, sebagian besar information pelatihan berasal dari merangkak internet. Tapi Apple mengatakan bahwa applebot crawler menghormati robots.txt Pengecualian, yang berarti bahwa jika situs web tidak ingin Apple mengikis kontennya, ia dapat mengatakannya, dan Applebot akan meninggalkannya sendiri.

Yang mengatakan, inilah cara Apple mengatakan itu bersumber dari information untuk design barunya:

  • Information web yang tersedia untuk umum: Meskipun Apple tidak menentukan jumlah atau rasio, ia mengatakan bahwa bagian terbesar dari information pelatihan berasal dari halaman internet Applebot merangkak. Apple menerapkan beberapa lapisan penyaringan untuk menghilangkan konten berkualitas rendah, tidak aman, atau tidak relevan, termasuk halaman spam, teks dangkal atau templated, dan pemformatan rusak.
  • Information Berlisensi: Apple tidak membahas banyak information di sini, tetapi memang mengkonfirmasi bahwa beberapa data pelatihan dilisensikan dari penerbit. Laporan sebelumnya telah menyarankan bahwa Apple telah bernegosiasi dengan Condé Nast (The New Yorker, Style, Wired, dll.), NBC News, dan IAC (Individuals Publication, The Daily Monster, dan Better Houses and Gardens, dll.), Jadi kemungkinan setidaknya beberapa materi itu masuk.
  • Information sintetis: Apple menghasilkan data sintetis menggunakan model yang lebih kecil dan jaringan pipa khusus, terutama untuk matematika, kode, penyetelan instruksi, dan tugas-tugas penglihatan-bahasa. Sementara perusahaan juga tidak menentukan berapa banyak dataset yang diwakili, ia mencatat bahwa data sintetis memainkan peran besar dalam langkah-langkah pelatihan utama seperti penyesuaian, pembelajaran penguatan, dan meningkatkan dukungan multibahasa. Dan jika Anda bertanya-tanya data sintetis apa artinya “barang-barang yang dibuat-buat,” kami memiliki penjelasan tentang mengapa bukan itu masalahnya.
  • Data visual: Untuk mendukung pemahaman gambar, Apple mengumpulkan lebih dari 10 miliar pasangan capsion -caption, termasuk tangkapan layar dengan OCR, dan catatan tulisan tangan. Ia juga menggunakan modelnya sendiri untuk menghasilkan keterangan tambahan yang lebih kaya. Di masa lalu, dilaporkan bahwa Apple telah mengadakan pembicaraan lisensi dengan Shutterstock, jadi mungkin saja beberapa bahan itu juga berhasil masuk.

9 to 5 mac mengambil

Belum ada kekurangan berita tentang drama internal Apple, perjuangan teknis, dan ketidakmampuan keseluruhan untuk mendapatkan energy yang dibutuhkan untuk menjembatani kesenjangan (yang beberapa orang dapat menyebut jurang) antara penawaran AI -nya, dan kompetisi. Semua itu benar.

Namun, fakta bahwa Apple sebagian besar dianggap berada di belakang pada AI tidak berarti perusahaan itu diam. Laporan ini menawarkan wawasan yang menarik tentang peningkatan (dan kekurangan) dari version terbaru Apple, bersama dengan rincian luas tentang pendekatan sadar privasi yang bahkan beberapa perusahaan berusaha.

Penawaran aksesori di Amazon

FTC: Kami menggunakan penghasilan penghasilan tautan afiliasi otomatis. Lagi.

Tautan sumber