Kadang-kadang Anda ingin menyalin sesuatu, tetapi tidak ingin itu tersebar di internet agar dapat dilihat oleh peretas mana pun. Mungkin itu percakapan dengan dokter atau pengacara Anda. Mungkin Anda seorang jurnalis, dan ini adalah wawancara yang sensitif. Privasi dan kontrol itu penting.
Keinginan akan privasi adalah salah satu alasan pengembang Perancis Mistral AI membangun model transkripsi terbarunya agar cukup kecil dijalankan di perangkat. Mereka dapat berjalan di ponsel Anda, di laptop Anda, atau di cloud.
Transkripsi Mini Voxtral 2salah satu model baru yang diumumkan pada hari Rabu, adalah “super, super kecil,” kata Pierre Stock, wakil presiden operasi sains Mistral, kepada saya. Model baru lainnya, Voxtral Realtime, dapat melakukan hal yang sama namun langsung, seperti teks tertulis.
Privasi bukan satu-satunya alasan perusahaan ingin membangun skala kecil model sumber terbuka. Dengan berjalan langsung di perangkat yang Anda gunakan, model ini dapat bekerja lebih cepat. Tidak perlu lagi menunggu file menemukan jalannya melalui internet ke pusat data dan sebaliknya.
“Yang Anda inginkan adalah transkripsi terjadi dengan sangat, sangat dekat dengan Anda,” kata Stock. “Dan perangkat terdekat yang bisa kami temukan adalah perangkat edge apa pun, misalnya laptop, ponsel, perangkat wearable seperti jam tangan pintar.”
Latensi rendah (baca: kecepatan tinggi) sangat penting untuk transkripsi waktu nyata. Model Voxtral Realtime dapat menghasilkan latensi kurang dari 200 milidetik, kata Stock. Itu dapat menyalin kata-kata pembicara secepat Anda bisa membacanya. Tidak perlu lagi menunggu dua atau tiga detik hingga teks tertutup menyusul.
Tonton ini: Kekurangan Chip Berdampak pada iPhone, OpenAI Menghentikan Investasi, Tuduhan Sensor TikTok | Teknologi Hari Ini
Model Voxtral Realtime tersedia melalui API Mistral dan di Memeluk Wajahbersama dengan sebuah Demo di mana Anda dapat mencobanya.
Dalam beberapa pengujian singkat, saya menemukan ini dihasilkan cukup cepat (walaupun tidak secepat yang Anda harapkan jika itu ada di perangkat) dan berhasil menangkap apa yang saya katakan secara akurat dalam bahasa Inggris dengan sedikit campuran bahasa Spanyol. Saat ini, ia mampu menangani 13 bahasa, menurut Mistral.
Voxtral Mini Transcribe 2 juga tersedia melalui API perusahaan, atau Anda dapat bermain-main dengannya Studio AI Mistral. Saya menggunakan model tersebut untuk menyalin wawancara saya dengan Stock.
Menurut saya, ini cepat dan cukup dapat diandalkan, meskipun ia kesulitan dengan nama yang tepat seperti Mistral AI (yang disebut Mr. Lay Eye) dan Voxtral (VoxTroll). Ya, model AI salah memberi nama pada namanya. Namun Stock mengatakan pengguna dapat menyesuaikan model untuk memahami kata, nama, dan jargon tertentu dengan lebih baik jika mereka menggunakannya untuk tugas tertentu.
Tantangan dalam membangun model AI yang kecil dan cepat adalah model tersebut juga harus akurat, kata Stock. Perusahaan memuji kinerja model pada benchmark yang menunjukkan tingkat kesalahan yang lebih baik dibandingkan pesaing.
“Tidak cukup hanya mengatakan, oke, saya akan membuat model kecil,” kata Stock. “Yang Anda butuhkan adalah model kecil yang memiliki kualitas sama dengan model besar, bukan?”







