Tim Qwen Alibaba merilis model Buatan Kecerdasan Buatan (AI) baru minggu lalu. Dijuluki Qwen Vlo, ini adalah penerus model bahasa qwen 2.5 visi dan dilengkapi dengan beberapa peningkatan dibandingkan dengan model yang lebih lama. Model gambar AI terbaru mendukung pembuatan teks-ke-gambar dan gambar-ke-gambar. Ini juga mendukung input teks dalam berbagai bahasa, termasuk bahasa Inggris dan Cina. Terlepas dari pembuatan gambar, model AI juga mampu melakukan pengeditan inline untuk gambar yang dihasilkan serta gambar input.
Qwen Vlo menerima permintaan dalam berbagai bahasa
Di sebuah pos Di X (sebelumnya dikenal sebagai Twitter), pegangan resmi tim Qwen mengumumkan rilis model baru. Nama teknis model adalah QWEN3-235B-A22B, dan tersedia di antarmuka obrolan perusahaan secara gratis di sini. Pengguna juga dapat menggunakan model tanpa masuk.
Anggota staf Gadgets 360 menguji model AI dan menemukan kemampuan pembuatan gambarnya setara dengan Google Imagen 2. Instruksi berikut dan kualitas output gambar sedikit lebih rendah daripada Imagen-3 dan fitur pembuatan gambar bertenaga GPT-4O Openai. Namun, waktu generasinya lebih cepat daripada keduanya, dan memiliki batas tingkat yang lebih tinggi daripada mereka.
Di github -nya halamanperusahaan mengatakan bahwa QWEN VLO hadir dengan pemahaman gambar yang lebih baik, yang memungkinkannya untuk membuat pengeditan sebaris yang lebih baik tanpa mendistorsi integritas struktural dari gambar input. Ini juga meningkatkan kualitas output secara keseluruhan. Model ini juga lebih memahami permintaan yang tidak jelas dan terbuka, dan dapat menghasilkan gambar yang selaras dengan harapan pengguna.
Terlepas dari pembuatan gambar dan pengeditan, Qwen Vlo juga dapat melakukan tugas terkait anotasi gambar seperti deteksi tepi, segmentasi, pemetaan prediksi, dan banyak lagi. Perusahaan mengatakan versi masa depan model juga akan dapat menerima beberapa gambar input dan menggabungkannya berdasarkan permintaan pengguna.
Rendering teks juga telah ditingkatkan dengan generator gambar AI terbaru. Kami dapat menghasilkan teks yang akurat di berbagai font dalam pengujian model kami. Akhirnya, QWEN VLO juga mendukung gambar dengan rasio aspek dinamis sebagai input, termasuk rasio ekstrem seperti 4: 1 dan 1: 3. Perusahaan berencana untuk menambahkan fitur untuk menghasilkan gambar dalam rasio aspek yang berbeda segera.