Google memperkenalkan kemampuan pembuatan audio baru dengan model Gemini 2.5 di Google I/O 2025. Raksasa teknologi berbasis Mountain View sekarang membiarkan pengembang dan individu menguji fitur-fitur ini di platformnya. Dua kemampuan baru termasuk dialog audio asli dan Text-to-Speech (TTS) yang dapat dikendalikan dengan pratinjau Flash Gemini 2.5. Sementara yang pertama secara asli dapat menghasilkan audio seperti manusia sambil menanggapi petunjuk pengguna, yang terakhir dapat mengubah skrip apa pun menjadi pidato percakapan. Fitur -fitur ini saat ini tidak tersedia untuk pengembang melalui aplikasi pemrograman aplikasi (API).
Google menampilkan kemampuan output audio Gemini 2.5 Flash
Di sebuah Posting Blograksasa teknologi merinci fitur -fitur dari dua mode pembuatan audio ini, menyoroti bagaimana pengembang dapat menggunakannya untuk membangun pengalaman baru bagi orang -orang. Saat ini, dialog audio asli dapat dicoba di Google AI Studio’s sungai kecil tab, sedangkan fitur TTS dapat diuji di menghasilkan media Tab dalam AI Studio.
Dialog Audio Asli dengan Pratinjau Gemini 2.5 Flash dirancang untuk percakapan real-time antara pengguna manusia dan AI. Pengguna dapat mengetikkan prompt atau berbicara, dan AI merespons secara verbal. Proses ini secara langsung menghasilkan audio, alih -alih membuat teks pertama dan kemudian mengubahnya menjadi pidato.
Ada beberapa keuntungan untuk itu juga. Ini mendukung dialog afektif, yang berarti ketika Gemini 2.5 Flash menanggapi nada suara pengguna, ia dapat mengenali emosi di balik kata -kata tersebut. Itu dapat memahami ketika pengguna terdengar takut, marah, atau terkejut dan meresponsnya.
Terlepas dari ini, fitur pembuatan audio dapat mengekspresikan emosi ketika berbicara, mengadopsi aksen yang berbeda dan gaya linguistik, dapat mengakses alat seperti pencarian Google, dan mendukung lebih dari 24 bahasa.
Datang ke fitur TTS yang dapat dikendalikan, ia menawarkan generasi dialog multi-speaker, dapat menghasilkan emosi dan aksen sambil menceritakan skrip, mengontrol kecepatan pengiriman dan menekankan pengucapan, dan mendukung 24 bahasa yang sama dan pencampuran bahasa.
Google mengatakan kemampuan ini dinilai untuk potensi risiko di seluruh proses pengembangan. Perusahaan menggunakan mekanisme internal serta tim merah untuk menemukan dan memperbaiki kerentanan. Perusahaan juga menyoroti bahwa semua output audio dari model ini tertanam dengan synthid, teknologi watermarkingnya.