Bisnis adalah menghasilkan lebih banyak video dari sebelumnya. Dari arsip siaran bertahun-tahun hingga ribuan kamera penyimpanan dan rekaman produksi berjam-jam yang tak terhitung jumlahnya, sebagian besar tidak terpakai di server, belum diawasi dan belum dianalisis. Ini data gelap: sumber daya yang sangat besar dan belum dimanfaatkan, yang dikumpulkan secara otomatis oleh perusahaan, namun hampir tidak pernah digunakan secara bermakna.
Untuk mengatasi masalah ini, Aza Kai (CEO) dan Hiraku Yanagita (COO), dua mantan Googler yang menghabiskan hampir satu dekade bekerja bersama di Google Jepang, memutuskan untuk membuat solusi mereka sendiri. Duo ini mendirikan bersama Pikiran Infinisebuah startup berbasis di Tokyo yang mengembangkan infrastruktur yang mengubah ukuran petabyte video dan audio yang belum dilihat menjadi data bisnis terstruktur dan dapat dikueri.
“Salah satu pendiri saya, yang menghabiskan satu dekade memimpin solusi merek dan data di Google Jepang, dan saya melihat titik perubahan ini terjadi ketika kami masih di Google,” kata Kai. Pada tahun 2024, teknologinya telah matang, dan permintaan pasar menjadi cukup jelas sehingga para pendiri merasa terdorong untuk membangun perusahaannya sendiri, tambahnya.
Kai, yang sebelumnya bekerja di Google Jepang di bidang cloud, machine learning, sistem iklan, dan model rekomendasi video dan kemudian memimpin tim ilmu data, menjelaskan bahwa solusi saat ini memerlukan trade-off. Pendekatan sebelumnya dapat memberi label pada objek dalam bingkai individual, namun tidak dapat melacak narasi, memahami kausalitas, atau menjawab pertanyaan kompleks tentang konten video. Untuk klien yang memiliki arsip siaran selama puluhan tahun dan rekaman berukuran petabyte, bahkan pertanyaan mendasar tentang konten mereka sering kali tidak terjawab.
Yang benar-benar berubah adalah kemajuan dalam model bahasa visi antara tahun 2021 dan 2023. Saat itulah video AI mulai bergerak lebih dari sekadar penandaan objek sederhana, kata Kai. Penurunan biaya GPU dan peningkatan kinerja tahunan sekitar 15-20% selama dekade terakhir membantu, namun cerita yang lebih besar adalah kemampuan hingga saat ini, model tidak dapat melakukan pekerjaan tersebut, katanya kepada TechCrunch.
InfiniMind baru-baru ini mendapatkan pendanaan awal sebesar $5,8 juta, dipimpin oleh UTEC dan diikuti oleh CX2, Headline Asia, Chiba Dojo, dan peneliti AI di a16z Scout. Perusahaan ini merelokasi kantor pusatnya ke AS, sementara tetap mengoperasikan kantor di Jepang. Jepang menyediakan tempat ujian yang sempurna: perangkat keras yang kuat, insinyur berbakat, dan ekosistem startup yang mendukung, memungkinkan tim untuk menyempurnakan teknologinya dengan pelanggan yang menuntut sebelum memperluas jangkauannya secara global.
Produk pertamanya, TV Pulse, diluncurkan di Jepang pada bulan April 2025. Platform bertenaga AI ini menganalisis konten televisi secara real-time, membantu perusahaan media dan ritel “melacak paparan produk, kehadiran merek, sentimen pelanggan, dan dampak PR,” menurut startup tersebut. Setelah program percontohan dengan lembaga penyiaran dan agensi besar, mereka telah memiliki pelanggan yang membayar, termasuk pedagang grosir dan perusahaan media.
acara Techcrunch
Boston, MA
|
23 Juni 2026
Kini InfiniMind siap memasuki pasar internasional. Produk andalannya, DeepFrame, sebuah platform intelijen video berdurasi panjang yang mampu memproses 200 jam rekaman untuk menunjukkan dengan tepat adegan, pembicara, atau peristiwa tertentu, dijadwalkan untuk rilis beta pada bulan Maret, diikuti dengan peluncuran penuh pada bulan April 2026, kata Kai.
Ruang analisis video sangat terfragmentasi. Perusahaan seperti TwelveLabs menyediakan API pemahaman video dengan tujuan umum untuk berbagai pengguna, termasuk konsumen, prosumer, dan perusahaan, kata Kai, sementara InfiniMind berfokus secara khusus pada kasus penggunaan perusahaan, termasuk pemantauan, keselamatan, keamanan, dan analisis konten video untuk wawasan yang lebih dalam.
“Solusi kami tidak memerlukan kode; klien membawa data mereka, dan sistem kami memprosesnya, memberikan wawasan yang dapat ditindaklanjuti,” kata Kai. “Kami juga mengintegrasikan pemahaman audio, suara, dan ucapan, bukan hanya visual. Sistem kami dapat menangani durasi video tanpa batas, dan efisiensi biaya adalah pembeda utamanya. Sebagian besar solusi yang ada memprioritaskan akurasi atau kasus penggunaan tertentu, namun tidak menyelesaikan tantangan biaya.”
Pendanaan awal ini akan membantu tim untuk terus mengembangkan model DeepFrame, memperluas infrastruktur teknik, mempekerjakan lebih banyak insinyur, dan menjangkau pelanggan tambahan di Jepang dan Amerika.
“Ini adalah ruang yang menarik, salah satu jalan menuju AGI,” kata Kai. “Memahami kecerdasan video secara umum berarti memahami realitas. Aplikasi industri memang penting, namun tujuan utama kami adalah mendorong batas-batas teknologi agar lebih memahami realitas dan membantu manusia mengambil keputusan yang lebih baik.”













