Rumah Teknologi Bytedance meluncurkan version AI multimodal resource open source dengan dukungan untuk menghasilkan,...

Bytedance meluncurkan version AI multimodal resource open source dengan dukungan untuk menghasilkan, mengedit gambar

20
0
ByteDance Unveils Bagel Open Source Multimodal AI Model With Support for Generating, Editing Images

Bytedance merilis design kecerdasan buatan multimodal (AI) baru minggu lalu. Dijuluki Bagel, ini adalah design bahasa visual (VLM), yang mampu memahami, menghasilkan, dan mengedit gambar. Raksasa teknologi yang berbasis di Beijing ini telah bersumber dari model AI, dan tersedia untuk diunduh melalui repositori AI populer seperti GitHub dan Hugging Face. Perusahaan mengklaim Bagel mampu melakukan manipulasi visual bentuk bebas, sintesis multiview, dan navigasi dunia, yang membuatnya lebih mampu dalam pengeditan gambar dibandingkan dengan VLM open-source yang ada.

Bagel Bytedance mengungguli Gemini- 2 -Exp dalam pengeditan gambar

Daftar GitHub halaman menyoroti lebih banyak version Bagel AI Bytedance, termasuk bobot dan set data. Namun, perusahaan tidak memberikan rincian tentang proses pasca-pelatihan, atau arsitektur version. Saat ini tersedia dengan lisensi APACHE 2.0 permisif, yang memungkinkan penggunaan akademik dan komersial.

Bagel adalah model AI multimodal yang menerima teks dan gambar sebagai input. VLM open-source memiliki total 14 miliar parameter, di mana tujuh miliar tetap aktif pada suatu waktu. Bytedance mengklaim bahwa model tersebut dilatih pada data multimodal interleaved skala besar. Ini berarti bahwa berbagai jenis data, seperti teks dan gambar, digabungkan saat memberi makan sistem AI. Akibatnya, design yang dipelajari dari kedua modalitas bersama -sama, bukannya secara terpisah.

Metode ini memungkinkan version dasar untuk mendapatkan konteks antara modalitas yang berbeda. Misalnya, jika Bagel diberi makan gambar dan keterangan mereka bersama -sama, akan lebih baik untuk memahami apa yang diwakili oleh teks dalam media visual. Ini akan menghasilkan result yang lebih efisien, sesuai dengan perusahaan.

Bytedance juga mengklaim bahwa design AI menampilkan kemampuan pengeditan gambar yang lebih baik dibandingkan dengan VLM open-source yang ada. Ini dapat melakukan tugas-tugas kompleks seperti menambahkan emosi ke gambar, menghapus, mengganti atau menambahkan elemen, transfer gaya, serta membuat pengeditan bentuk bebas. Perusahaan mengklaim bahwa dengan kemampuan ini, Bagel mampu memberikan outcome yang jauh lebih tinggi saat pemodelan dunia.

Model dunia mengacu pada pemahaman inner sistem AI tentang bagaimana fungsi dunia nyata secara aesthetic. Ini akan mencakup hubungan antara objek yang berbeda, konteks fisik, dan efek faktor fisik seperti cahaya, angin, hujan, dan gravitasi.

Berdasarkan pengujian internal, Bytedance mengklaim bahwa Bagel dapat mengungguli Qwen 2 5 -VL- 7 B, design berukuran sama, dalam pemahaman gambar. Dikatakan juga mendapat skor lebih tinggi dalam tolok ukur pembuatan gambar daripada Janus-Pro- 7 b dan Change- 1 -dev. Selain itu, juga dikatakan mengalahkan Gemini- 2 -Exp pada Gedit-Bench untuk pengeditan gambar.

Mereka yang ingin mencoba version AI tanpa berjalan secara lokal itu dapat menuju ke wajah memeluk, di mana Bytedance telah mengatur berbasis cloud antarmuka Untuk menguji analisis gambar, pembuatan, dan pengeditannya.

Tautan sumber