Google DeepMind membuka akses ke Project Genie, alat AI-nya untuk menciptakan dunia permainan interaktif dari perintah teks atau gambar.

Mulai Kamis, pelanggan Google AI Ultra di AS dapat bermain-main dengan prototipe penelitian eksperimental, yang didukung oleh kombinasi model dunia terbaru Google Genie 3, model generasi gambar Nano Banana Pro, dan Gemini.

Lima bulan setelah pratinjau penelitian Genie 3, langkah ini merupakan bagian dari dorongan yang lebih luas untuk mengumpulkan umpan balik pengguna dan data pelatihan saat DeepMind berlomba untuk mengembangkan model dunia yang lebih mumpuni.

Model dunia adalah sistem AI yang menghasilkan representasi internal suatu lingkungan, dan dapat digunakan untuk memprediksi hasil di masa depan dan merencanakan tindakan. Banyak pemimpin AI, termasuk di DeepMind, percaya bahwa model dunia adalah langkah penting untuk mencapai kecerdasan umum buatan (AGI). Namun dalam jangka pendek, laboratorium seperti DeepMind membayangkan rencana masuk ke pasar yang dimulai dengan video game dan bentuk hiburan lainnya dan berkembang menjadi agen pelatihan (alias robot) dalam simulasi.

Peluncuran Project Genie oleh DeepMind terjadi saat perlombaan model dunia mulai memanas. Lab Dunia Fei-Fei Li akhir tahun lalu merilis produk komersial pertamanya yang disebut Marmer. Runway, startup generasi video AI, juga baru saja meluncurkan model dunia. Dan startup AMI Labs milik mantan kepala ilmuwan Meta Yann LeCun juga akan fokus pada pengembangan model dunia.

“Saya pikir sangat menyenangkan berada di tempat di mana kami dapat memiliki lebih banyak orang yang mengaksesnya dan memberi kami umpan balik,” Shlomi Fruchter, direktur penelitian di DeepMind, mengatakan kepada TechCrunch melalui wawancara video, sambil tersenyum lebar dalam kegembiraan yang jelas atas rilis Project Genie.

Peneliti DeepMind yang diajak bicara oleh TechCrunch berterus terang tentang sifat eksperimental alat tersebut. Ini bisa menjadi tidak konsisten, terkadang secara mengesankan menghasilkan dunia yang dapat dimainkan, di lain waktu menghasilkan hasil yang membingungkan dan tidak mencapai sasaran. Begini cara kerjanya.

acara Techcrunch

Boston, MA
|
23 Juni 2026

Kastil bergaya tanah liat di langit yang terbuat dari marshmallow dan permen.Kredit Gambar:TechCrunch.dll

Anda memulai dengan “sketsa dunia” dengan memberikan petunjuk teks untuk lingkungan dan karakter utama, yang nantinya dapat Anda bermanuver melintasi dunia dalam tampilan orang pertama atau ketiga. Nano Banana Pro membuat gambar berdasarkan petunjuk yang, secara teori, dapat Anda modifikasi sebelum Genie menggunakan gambar tersebut sebagai titik awal menuju dunia interaktif. Modifikasinya sebagian besar berhasil, tetapi modelnya terkadang tersandung dan akan memberi Anda rambut ungu saat Anda meminta warna hijau.

Anda juga dapat menggunakan foto kehidupan nyata sebagai dasar model untuk membangun dunia, yang lagi-lagi berhasil atau gagal. (Lebih lanjut tentang itu nanti.)

Setelah Anda puas dengan gambarnya, Project Genie memerlukan beberapa detik untuk menciptakan dunia yang dapat dijelajahi. Anda juga dapat mencampur ulang dunia yang ada menjadi interpretasi baru dengan memanfaatkan petunjuknya, atau menjelajahi dunia yang dikurasi di galeri atau melalui alat pengacak untuk mendapatkan inspirasi. Anda kemudian dapat mengunduh video dari dunia yang baru saja Anda jelajahi.

DeepMind hanya memberikan waktu 60 detik untuk menghasilkan dunia dan navigasi saat ini, sebagian karena keterbatasan anggaran dan komputasi. Karena Jin 3 adalah model regresi otomatisdibutuhkan banyak komputasi khusus – yang membatasi seberapa banyak DeepMind dapat memberikan kepada pengguna.

“Alasan kami membatasinya hingga 60 detik adalah karena kami ingin menghadirkannya ke lebih banyak pengguna,” kata Fruchter. “Pada dasarnya ketika Anda menggunakannya, ada sebuah chip di suatu tempat yang hanya milik Anda dan itu didedikasikan untuk sesi Anda.”

Dia menambahkan bahwa memperpanjang waktu lebih dari 60 detik akan mengurangi nilai tambahan pengujian.

“Lingkungan ini menarik, namun pada titik tertentu, karena tingkat interaksi dan dinamisme lingkungannya agak terbatas. Namun, kami melihatnya sebagai batasan yang kami harap dapat diperbaiki.”

Imajinasi berhasil, realisme tidak

Google menerima penghentian dan penghentian dari Disney tahun lalu, sehingga tidak akan membuat model yang terkait dengan Disney.Kredit Gambar:TechCrunch.dll

Saat saya menggunakan model tersebut, pagar pengaman sudah aktif dan berjalan. Saya tidak dapat menghasilkan apa pun yang menyerupai ketelanjangan, saya juga tidak dapat menghasilkan dunia yang bahkan mengendus Disney atau materi berhak cipta lainnya dari jarak jauh. (Pada bulan Desember, Disney memukul Google dengan gencatan senjata, antara lain menuduh model AI perusahaan tersebut melakukan pelanggaran hak cipta dengan melatih karakter dan IP Disney serta menghasilkan konten yang tidak sah.) Saya bahkan tidak bisa membuat Genie membuat dunia putri duyung yang menjelajahi negeri fantasi bawah air atau ratu es di kastil musim dingin mereka.

Namun, demo tersebut sangat mengesankan. Dunia pertama yang saya bangun adalah upaya untuk mewujudkan fantasi masa kecil, di mana saya bisa menjelajahi kastil di awan yang terbuat dari marshmallow dengan sungai saus coklat dan pepohonan yang terbuat dari permen. (Ya, saya adalah seorang anak yang gemuk.) Saya meminta model untuk melakukannya dengan gaya claymation, dan itu menghadirkan dunia aneh yang akan saya nikmati di masa kecil saya, menara dan menara kastil berwarna pastel dan putih tampak bengkak dan cukup lezat untuk merobek sepotong dan mencelupkannya ke dalam parit coklat. (Video di atas.)

Dunia yang terinspirasi dari “Game of Thrones” yang gagal menghasilkan foto-realistis seperti yang saya inginkan.Kredit Gambar:TechCrunch.dll

Meskipun demikian, Project Genie masih memiliki beberapa masalah yang harus diselesaikan.

Para model unggul dalam menciptakan dunia berdasarkan dorongan artistik, seperti menggunakan cat air, gaya anime, atau estetika kartun klasik. Namun hal ini cenderung gagal jika menyangkut dunia fotorealistik atau sinematik, sering kali terlihat seperti video game daripada orang sungguhan di lingkungan nyata.

Itu juga tidak selalu merespons dengan baik ketika diberikan foto asli untuk dikerjakan. Ketika saya memberinya foto kantor saya dan memintanya untuk menciptakan dunia berdasarkan foto tersebut persis seperti aslinya, ia memberi saya sebuah dunia yang memiliki beberapa perabotan yang sama dengan kantor saya – meja kayu, tanaman, sofa abu-abu – ditata secara berbeda. Dan itu tampak steril, digital, tidak seperti aslinya.

Ketika saya memberinya foto meja saya dengan boneka mainan, Project Genie menganimasikan mainan tersebut menavigasi ruang, dan bahkan objek lain terkadang bereaksi saat benda itu bergerak melewatinya.

Interaktivitas tersebut adalah sesuatu yang sedang dikembangkan oleh DeepMind. Ada beberapa kesempatan ketika karakter saya berjalan menembus dinding atau benda padat lainnya.

Saya meminta Project Genie untuk menganimasikan boneka mainan (Bingo Bronson) agar dapat menjelajahi meja saya. Kredit Gambar:TechCrunch.dll

Ketika DeepMind pertama kali merilis Genie 3, para peneliti menyoroti bagaimana arsitektur auto-regresif model tersebut berarti model tersebut dapat mengingat apa yang telah dihasilkannya, jadi saya ingin mengujinya dengan kembali ke bagian lingkungan yang telah dihasilkannya untuk melihat apakah itu akan sama. Secara umum, model tersebut berhasil. Dalam satu kasus, saya membuat seekor kucing menjelajahi meja lain, dan hanya sekali ketika saya kembali ke sisi kanan meja barulah model tersebut menghasilkan cangkir kedua.

Bagian yang menurut saya paling membuat frustrasi adalah cara Anda menavigasi ruang menggunakan panah untuk melihat sekeliling, spasi untuk melompat atau naik, dan tombol WASD untuk bergerak. Saya bukan seorang gamer, jadi hal ini tidak terjadi secara alami bagi saya, tetapi tombolnya sering kali tidak responsif, atau mengarahkan Anda ke arah yang salah. Mencoba berjalan dari satu sisi ruangan ke pintu di sisi lain sering kali menjadi latihan zig-zag yang kacau balau, seperti mencoba mengemudikan kereta belanja dengan roda yang patah.

Fruchter meyakinkan saya bahwa timnya menyadari kekurangan ini, mengingatkan saya lagi bahwa Project Genie adalah prototipe eksperimental. Di masa depan, katanya, tim berharap dapat meningkatkan realisme dan meningkatkan kemampuan interaksi, termasuk memberi pengguna kontrol lebih besar atas tindakan dan lingkungan.

“Kami tidak menganggap (Project Genie) sebagai produk end-to-end yang bisa digunakan kembali oleh masyarakat sehari-hari, tapi menurut kami sudah ada sekilas sesuatu yang menarik dan unik dan tidak bisa dilakukan dengan cara lain,” ujarnya.

Tautan Sumber