Apple terus mengeksplorasi bagaimana AI generatif dapat meningkatkan jalur pengembangan aplikasi. Inilah yang mereka lihat.
Sedikit latar belakang
Beberapa bulan lalu, tim peneliti Apple menerbitkan studi menarik tentang pelatihan AI untuk menghasilkan kode UI yang fungsional.
Daripada kualitas desain, penelitian ini berfokus pada memastikan kode yang dihasilkan AI benar-benar dikompilasi dan secara kasar sesuai dengan permintaan pengguna dalam hal tampilan dan fungsi antarmuka.
Hasilnya adalah UICoder, rangkaian model sumber terbuka yang dapat Anda baca lebih lanjut Di Sini.
Studi baru
Kini, bagian dari tim yang bertanggung jawab atas UICoder telah merilis makalah baru berjudul “Meningkatkan Model Pembuatan Antarmuka Pengguna dari Masukan Desainer.”
Di dalamnya, para peneliti menjelaskan bahwa metode Reinforcement Learning from Human Feedback (RLHF) yang ada saat ini bukanlah metode terbaik untuk melatih LLM agar bisa menghasilkan UI yang dirancang dengan baik, karena metode tersebut “tidak selaras dengan alur kerja desainer dan mengabaikan alasan kaya yang digunakan untuk mengkritik dan menyempurnakan desain UI.”
Untuk mengatasi masalah ini, mereka mengusulkan rute berbeda. Mereka meminta desainer profesional secara langsung mengkritik dan menyempurnakan UI yang dihasilkan model menggunakan komentar, sketsa, dan bahkan pengeditan langsung, lalu mengonversi perubahan sebelum dan sesudah menjadi data yang digunakan untuk menyempurnakan model.
Hal ini memungkinkan mereka untuk melatih model penghargaan mengenai peningkatan desain yang konkrit, sehingga secara efektif mengajarkan generator UI untuk memilih tata letak dan komponen yang lebih mencerminkan penilaian desain dunia nyata.

Pengaturan
Secara total, 21 desainer berpartisipasi dalam penelitian ini:
Peserta yang direkrut memiliki tingkat pengalaman desain profesional yang berbeda-beda, mulai dari 2 hingga lebih dari 30 tahun. Peserta juga bekerja di berbagai bidang desain, seperti desain UI/UX, desain produk, dan desain layanan. Desainer yang berpartisipasi juga mencatat frekuensi melakukan tinjauan desain (baik formal maupun informal) dalam aktivitas pekerjaan: mulai dari sekali setiap beberapa bulan hingga beberapa kali dalam seminggu.
Para peneliti mengumpulkan 1.460 anotasi, yang kemudian diubah menjadi contoh “preferensi” UI berpasangan, yang membedakan antarmuka asli yang dihasilkan model dengan versi yang ditingkatkan dari desainer.
Hal ini, pada gilirannya, digunakan untuk melatih model penghargaan untuk menyempurnakan generator UI:
Model imbalan menerima i) gambar yang dirender (tangkapan layar UI) dan ii) deskripsi bahasa alami (deskripsi target UI). Kedua masukan ini dimasukkan ke dalam model untuk menghasilkan skor numerik (hadiah), yang dikalibrasi sehingga desain visual dengan kualitas lebih baik menghasilkan skor yang lebih besar. Untuk menetapkan imbalan pada kode HTML, kami menggunakan jalur rendering otomatis yang dijelaskan di Bagian 4.1 untuk merender kode terlebih dahulu menjadi tangkapan layar menggunakan perangkat lunak otomatisasi browser.

Sedangkan untuk model generator, Apple menggunakan Qwen2.5-Coder sebagai model dasar utama untuk pembuatan UI, dan kemudian menerapkan model penghargaan yang sama yang dilatih oleh desainer ke varian Qwen yang lebih kecil dan lebih baru untuk menguji seberapa baik pendekatan tersebut digeneralisasikan pada berbagai ukuran dan versi model.
Menariknya, seperti dicatat oleh penulis studi tersebut, kerangka kerja tersebut pada akhirnya terlihat sangat mirip dengan jalur pipa RLHF tradisional. Perbedaannya, menurut mereka, adalah bahwa sinyal pembelajaran berasal dari alur kerja asli desainer (komentar, sketsa, dan revisi langsung) dan bukan sebagai data yang disukai/disukai atau data pemeringkatan sederhana.
Hasilnya
Jadi, apakah ini benar-benar berhasil? Menurut para peneliti, jawabannya adalah ya, dengan beberapa peringatan penting.

Secara umum, model yang dilatih berdasarkan masukan asli desainer (terutama dengan sketsa dan revisi langsung) menghasilkan desain UI dengan kualitas lebih tinggi dibandingkan model dasar dan versi yang dilatih hanya menggunakan data pemeringkatan atau pemeringkatan konvensional.
Faktanya, para peneliti mencatat bahwa model dengan kinerja terbaik (Qwen3-Coder disempurnakan dengan masukan sketsa) mengungguli GPT-5. Mungkin yang lebih mengesankan, hal ini pada akhirnya diperoleh hanya dari 181 sketsa anotasi dari para desainer.
Hasil kami menunjukkan bahwa penyempurnaan model penghargaan berbasis sketsa kami secara konsisten menghasilkan peningkatan dalam kemampuan pembuatan UI untuk semua baseline yang diuji, sehingga menunjukkan kemampuan untuk digeneralisasi. Kami juga menunjukkan bahwa sejumlah kecil masukan ahli berkualitas tinggi dapat secara efisien memungkinkan model yang lebih kecil mengungguli LLM berpemilik yang lebih besar dalam generasi UI.

Mengenai peringatannya, para peneliti mencatat bahwa subjektivitas memainkan peran besar dalam menentukan apa sebenarnya yang dimaksud dengan antarmuka yang baik:
Salah satu tantangan utama dalam pekerjaan kami dan masalah-masalah lain yang berpusat pada manusia adalah menangani subjektivitas dan berbagai penyelesaian masalah desain. Kedua fenomena ini juga dapat menyebabkan perbedaan respons yang tinggi, yang menimbulkan tantangan bagi mekanisme umpan balik pemeringkatan yang banyak digunakan.
Dalam penelitian tersebut, perbedaan ini diwujudkan dalam bentuk ketidaksepakatan mengenai desain mana yang sebenarnya lebih baik. Ketika para peneliti secara independen mengevaluasi pasangan UI yang sama yang telah diperingkat oleh para desainer, mereka hanya setuju dengan pilihan para desainer sebanyak 49,2%, hampir tidak ada bedanya.
Di sisi lain, ketika desainer memberikan umpan balik dengan membuat sketsa perbaikan atau mengedit UI secara langsung, tim peneliti lebih sering menyetujui perbaikan tersebut: 63,6% untuk sketsa, dan 76,1% untuk pengeditan langsung.
Dengan kata lain, ketika desainer dapat menunjukkan secara spesifik apa yang ingin mereka ubah daripada hanya memilih di antara dua opsi, akan lebih mudah untuk menyepakati apa sebenarnya arti “lebih baik”.
Untuk melihat lebih dalam studi ini, termasuk aspek teknis, materi pelatihan, dan lebih banyak contoh antarmuka, ikuti tautan ini.
Penawaran aksesori di Amazon













