Apple telah merilis Pico-Banana- 400 K, kumpulan information penelitian 400 000 gambar yang dikurasi dengan baik, yang menariknya, dibuat menggunakan design Gemini- 2 5 Google. Berikut rinciannya.

Tim peneliti Apple telah menerbitkan penelitian menarik yang disebut “Pico-Banana- 400 K: Kumpulan Information Skala Besar untuk Pengeditan Gambar Berpanduan Teks”.

Selain penelitian tersebut, mereka juga merilis 400 000 dataset gambar lengkap yang dihasilkannya, yang memiliki lisensi penelitian non-komersial. Artinya siapa pun bisa menggunakan dan mengeksplorasinya, asalkan untuk tujuan akademis atau penelitian AI. Dengan kata lain, tidak dapat digunakan secara komersial.

Benar, tapi apa itu?

Beberapa bulan yang lalu, Google merilis version Gemini- 2 5 -Flash-Image, juga dikenal sebagai Nanon-Banana, yang bisa dibilang merupakan version tercanggih dalam hal design pengeditan gambar.

Design existed juga menunjukkan peningkatan yang signifikan, namun, seperti yang dikatakan peneliti Apple:

“Meskipun terdapat kemajuan-kemajuan ini, penelitian terbuka masih dibatasi oleh kurangnya kumpulan data pengeditan berskala besar, berkualitas tinggi, dan dapat dibagikan sepenuhnya. Kumpulan data yang ada sering kali bergantung pada generasi sintetis dari design kepemilikan atau subkumpulan terbatas yang dikurasi oleh manusia. Selain itu, kumpulan information ini sering kali menunjukkan pergeseran domain, distribusi jenis pengeditan yang tidak seimbang, dan kontrol kualitas yang tidak konsisten, sehingga menghambat pengembangan version pengeditan yang kuat.”

Jadi, Apple mulai melakukan sesuatu untuk mengatasinya.

Membangun Pico-Pisang- 400 K

Hal pertama yang dilakukan Apple adalah mengambil foto asli dalam jumlah yang tidak ditentukan dari kumpulan information OpenImages, “dipilih untuk memastikan cakupan manusia, objek, dan pemandangan tekstual.”

Ya, mereka sebenarnya menggunakan Comic Sans

Kemudian, muncul daftar 35 jenis perubahan berbeda yang dapat diminta pengguna untuk dilakukan model, yang dikelompokkan ke dalam delapan kategori. Misalnya:

  • Piksel & Fotometrik: Tambahkan butiran movie atau filter vintage
  • Berpusat pada Manusia: Figur mainan orang bergaya Funko-Pop
  • Komposisi Adegan & Multi-Subjek: Mengubah kondisi cuaca (cerah/hujan/bersalju)
  • Semantik Tingkat Objek: Memindahkan objek (mengubah posisi/relasi spasialnya)
  • Skala: Perbesar

Selanjutnya, para peneliti akan mengunggah gambar ke Nano-Banana, bersama dengan salah satu petunjuk berikut. Setelah Nano-Banana selesai menghasilkan gambar yang diedit, para peneliti kemudian meminta Gemini- 2 5 -Pro menganalisis hasilnya, baik menyetujui atau menolaknya, berdasarkan kepatuhan instruksi dan kualitas aesthetic.

Hasilnya adalah Pico-Banana- 400 K, yang mencakup gambar yang dihasilkan melalui pengeditan satu putaran (satu perintah), rangkaian pengeditan beberapa putaran (beberapa perintah berulang), dan pasangan preferensi yang membandingkan hasil yang berhasil dan gagal (sehingga design juga dapat mempelajari seperti apa hasil yang tidak diinginkan).

Meskipun mengakui keterbatasan Nano-Banana dalam pengeditan spasial yang terperinci, ekstrapolasi tata letak, dan tipografi, para peneliti mengatakan bahwa mereka berharap Pico-Banana- 400 K akan berfungsi sebagai “fondasi yang kuat untuk pelatihan dan tolok ukur generasi berikutnya dari version pengeditan gambar yang dipandu teks.”

Anda dapat menemukan studinya di arXiv dan kumpulan data tersedia secara gratis di GitHub

Penawaran aksesori di Amazon

Tambahkan 9to5Mac sebagai sumber pilihan di Google Tambahkan 9to5Mac sebagai sumber pilihan di Google

FTC: Kami menggunakan tautan afiliasi otomatis yang menghasilkan pendapatan. Lagi.

Tautan Sumber