GIF animasi yang menunjukkan dua gambar, salah satu atlet dan yang lainnya dari seekor anjing, dalam foto gabungan baru atlet yang memeluk anjing.

Google meningkatkan chatbot Gemini -nya dengan model gambar AI baru yang memberi pengguna kontrol yang lebih baik atas pengeditan foto, langkah yang dimaksudkan untuk mengejar ketinggalan dengan alat gambar populer Openai dan menarik pengguna dari ChatGPT.

Pembaruan, yang disebut Gemini 2 5 Blink Picture, diluncurkan mulai Selasa untuk semua pengguna di aplikasi Gemini, serta untuk pengembang melalui Gemini API, Google AI Workshop, dan System AI Vertex.

Design gambar AI baru Gemini dirancang untuk membuat pengeditan yang lebih tepat untuk gambar – berdasarkan permintaan bahasa alami dari pengguna – sambil menjaga konsistensi wajah, hewan, dan information lainnya, sesuatu yang sebagian besar alat saingan berjuang. Misalnya, tanyakan pada Chatgpt atau Xai’s Grok untuk mengubah warna kemeja seseorang di foto, dan hasilnya mungkin termasuk wajah yang terdistorsi atau latar belakang yang diubah.

GIF animasi yang menunjukkan dua gambar, salah satu atlet dan yang lainnya dari seekor anjing, dalam foto gabungan baru atlet yang memeluk anjing.
Editor gambar asli Gemini 2 5 Flash memadukan foto anjing dan orang, sambil menjaga kemiripannya. Kredit: Google

Alat baru Google telah menarik perhatian. Dalam beberapa minggu terakhir, pengguna media sosial mengoceh Lebih dari editor gambar AI yang mengesankan di system evaluasi crowdsourced, Lmarena. Design ini muncul kepada pengguna secara anonim dengan nama samaran “Nano-Banana.”

Google mengatakan itu di belakang version (jika tidak jelas sudah Dari semua petunjuk yang berhubungan dengan pisang), yang benar-benar kemampuan gambar asli dalam version unggulan Gemini 2 5 Blink AI. Google mengatakan model gambar canggih di Lmarena dan tolok ukur lainnya.

Grafik yang menunjukkan tolok ukur pengeditan pencitraan, dengan Gemini 2.5 Flash Image / Lmarena berkinerja lebih baik daripada model saingan lainnya.
Google mengklaim design gambar AI barunya canggih pada beberapa tolok ukur. Kredit: Google

“Kami benar -benar mendorong kualitas visual ke depan, serta kemampuan version untuk mengikuti instruksi,” kata Nicole Brichtova, pemeran utama produk pada model generasi aesthetic di Google DeepMind, dalam sebuah wawancara dengan TechCrunch.

“Pembaruan ini melakukan pekerjaan yang jauh lebih baik mengedit dengan lebih mulus, dan result model dapat digunakan untuk apa word play here yang Anda inginkan untuk menggunakannya,” kata Brichtova.

Design gambar AI telah menjadi pertempuran kritis bagi teknologi besar. Ketika Openai meluncurkan generator gambar asli GPT- 4 O pada bulan Maret, ia mendorong penggunaan Chatgpt melalui atap berkat kegilaan workshop yang dihasilkan AI Ghibli meme yang, menurut chief executive officer OpenAI Sam Altman, meninggalkan gpus perusahaan” meleleh

Untuk mengikuti Openai dan Google, Meta mengumumkan minggu lalu bahwa mereka akan melisensikan model gambar AI dari startup midjourney. Sementara itu, laboratorium Black Woodland Unicorn Black yang didukung A 16 Z terus mendominasi tolok ukur dengan version gambar fluks AI.

Mungkin editor gambar AI Gemini yang mengesankan dapat membantu Google menutup celah penggunanya dengan OpenAi. ChatGPT sekarang mencatat lebih dari 700 juta pengguna mingguan. Pada panggilan pendapatan Google pada bulan Juli, CEO raksasa teknologi Sundar Pichai mengungkapkan bahwa Gemini memiliki 450 juta bulanan Pengguna – Menyiratkan pengguna mingguan bahkan lebih rendah.

Brichtova mengatakan Google secara khusus merancang version gambar dengan kasus penggunaan konsumen di dalam pikiran, seperti membantu pengguna memvisualisasikan proyek rumah dan kebun mereka. Version ini juga memiliki “pengetahuan dunia” yang lebih baik dan dapat menggabungkan beberapa referensi dalam satu motivate; Misalnya, menggabungkan gambar couch, foto ruang tamu, dan palet warna menjadi satu provide yang kohesif.

GIF animasi yang menampilkan gambar ruang tamu kosong, dengan petunjuk ditampilkan di layar seperti "Tambahkan cat" - Dan cat ruangan berubah warna. "Tambahkan Sofa," dan sofa ditambahkan. Demo menunjukkan permintaan AI mengubah gambar secara real-time.
Gemini 2 5 Flash Photo memungkinkan pengguna melakukan percakapan “multi-turn” dengan model gambar AI. Kredit: Google

Sementara generator gambar AI baru Gemini memudahkan pengguna untuk membuat dan mengedit gambar yang realistis, perusahaan memiliki perlindungan yang membatasi apa yang dapat dibuat pengguna. Google telah berjuang dengan perlindungan generator gambar AI di masa lalu. Pada satu titik, perusahaan meminta maaf karena Gemini menghasilkan gambar orang yang tidak akurat secara historis, dan mengembalikan generator gambar AI sama sekali.

Sekarang, Google merasa itu menjadi keseimbangan yang lebih baik.

“Kami ingin memberi pengguna kontrol kreatif sehingga mereka dapat memperoleh dari model apa yang mereka inginkan,” kata Brichtova. “Tapi tidak seperti apa word play here yang terjadi.”

Bagian AI generatif dari Ketentuan Layanan Google melarang pengguna menghasilkan “citra intim non-konsensual.” Jenis-jenis perlindungan yang sama tampaknya tidak ada untuk Grok, yang memungkinkan pengguna untuk membuat AI yang dihasilkan gambar eksplisit menyerupai selebriti, seperti Taylor Swift.

Untuk mengatasi munculnya citra Deepfake, yang dapat menyulitkan pengguna untuk membedakan apa yang nyata online, Brichtova mengatakan bahwa Google menerapkan tanda air aesthetic untuk gambar yang dihasilkan AI, serta pengidentifikasi dalam metadata-nya. Namun, seseorang yang menggulir melewati gambar di media sosial mungkin tidak mencari pengidentifikasi seperti itu.

Tautan Sumber