Suka atau tidak, tidak ada jalan untuk mundur: aplikasi dan sistem operasi akan terus mengarah pada interaksi yang mengutamakan suara.
Tidak wajib, tapi tidak bisa dihindari
Namun ada satu hal yang perlu diperhatikan: tidak satu word play here poin yang akan saya sampaikan berarti bahwa Anda akan menjadi seperti itu dipaksa untuk berbicara dengan perangkat Anda di luar keinginan Anda, atau bahwa umat manusia tanpa berpikir panjang mengoceh menuju masa depan di mana setiap ruang publik pasti akan dipenuhi dengan hiruk-pikuk para kutu buku yang terlalu bergantung dan menyukai AI.
GUI tidak akan hilang, sama seperti kalkulator tidak hilang setelah rilis Lotus 1 – 2 – 3 Faktanya, hingga saat ini, Anda masih bisa membeli sempoa jika Anda mau. Beberapa sebenarnya cukup mahal
Namun pada titik ini, tidak dapat dihindari bahwa baik pengembang aplikasi maupun sistem operasi akan semakin tertarik pada interaksi berbasis suara.
Dan ada alasan bagus untuk itu, yang paling jelas adalah aksesibilitas.
Yang saya maksud bukan hanya pengguna yang tidak dapat berinteraksi secara fisik dengan perangkatnya, meskipun hal ini saja sudah sangat luar biasa. Yang saya maksud juga adalah pengguna yang tidak paham teknologi seperti Anda, namun memiliki kebutuhan yang sama, saat mereka mencoba menggunakan ponsel, komputer, dan system yang sepertinya berfungsi dengan mudah untuk orang lain.
Dan jika reaksi spontan Anda adalah menganggap pengguna ini sebagai orang yang malas, atau semacamnya, mohon maaf, tetapi Anda kehilangan inti dari keseluruhan janji komputasi contemporary.
Kemajuan teknologi seharusnya menurunkan hambatan masuk dan membantu orang mencapai apa pun yang mereka inginkan, terlepas dari seberapa acquainted mereka dengan apa pun mulai dari Incurable hingga Safari.
Faktanya, sebagian besar keberadaan Apple didasarkan pada premis tersebut, meskipun para pemimpinnya terkadang melupakannya.
Halo komputer
Meskipun demikian, inilah alasan besar lainnya mengapa pendekatan yang mengutamakan suara tidak bisa dihindari: teknologi dasar sebenarnya yang diperlukan agar pendekatan tersebut dapat berfungsi adalah Akhirnya menjadi baik.
Ya, setiap LLM masih membuat kesalahan bodoh, dan kemungkinan besar kesalahan tersebut akan selalu terjadi, selama kesalahan tersebut didasarkan pada pendekatan berbasis Transformer autoregresif saat ini.
Namun perusahaan, laboratorium AI terdepan, dan bahkan pengembang indie sedang belajar untuk mengatasi keterbatasan tersebut, atau beralih ke hal tersebut arsitektur yang sama sekali berbeda beberapa di antaranya menunjukkan harapan besar.
Selama setahun terakhir, terdapat kemajuan signifikan dalam antarmuka berbasis suara, termasuk alat seperti Wispr dan Speechify, yang tingkat adopsinya semakin tinggi.
Menurut pendiri dan CEO Wispr Circulation Tanay Kothari, penggunanya pada akhirnya mencapai titik di mana suara menyumbang sekitar 75 % dari seluruh masukan di seluruh produk. Dan di kalangan pengguna dewasa, penggunaan key-board turun hingga di bawah 5 %.
Dan saya akan putus asa jika mereka tidak bekerja pada kemampuan agen yang tepat untuk disandingkan dengan alat dikte mereka. Faktanya, Speechify jelas sudah bergerak ke arah itu.
Juga, jangan lupakan tidal wave baru-baru ini yang disebabkan oleh OpenClaw, kutil dan semuanya yang benar-benar menghancurkan apa yang diharapkan dapat dilakukan oleh agen otonom dalam waktu dekat. Faktanya, banyak pengguna yang mengandalkan system seperti ElevenLabs untuk benar-benar berkomunikasi dengan agen mereka, beberapa di antaranya melihat API ElevenLabs diterapkan secara proaktif oleh Cakar Terbuka diri.
Siapa word play here yang mengetahui apa yang mereka bicarakan akan memberi tahu Anda betapa luar biasa hal ini, lagi kutil dan semuanya.
Evolusi di bidang tersebut semakin cepat
Dan inilah betapa cepatnya perkembangannya: Saya mulai menulis artikel ini beberapa waktu lalu, sebelum OpenClaw menjadi seperti sekarang ini.
Awalnya, saya telah menulis:
(…) tidak akan lama lagi aplikasi dan sistem operasi akan bersandar pada kerangka kerja otonom, di mana pengguna hanya mengatakan apa yang mereka inginkan, dan AI akan menangani maksudnya, memetakan langkah-langkahnya, dan menjalankan tindakan tersebut di seluruh aplikasi yang siap agen atas nama pengguna.”
Ternyata, itu Sungguh tidak.
Awalnya, saya juga bermaksud menutup teks dengan mengemukakan hal-hal seperti MCP Antropik serta Apple Maksud Aplikasi untuk mengilustrasikan bagaimana bagian-bagian yang memungkinkan antarmuka siap suara diterapkan. Saya bahkan akan menyarankan agar kita dapat melihat berita tentang hal itu pada bulan Juni mendatang, selama WWDC.
Sekarang, selagi saya masih percaya kita mungkin Ketika kita melihat lebih banyak fitur, API, dan harga yang berorientasi pada suara pada bulan Juni, bahkan gagasan bahwa fitur-fitur tersebut akan bergantung pada pengembang mulai terlihat picik atau ketinggalan jaman.
Saya mungkin salah mengingat detailnya, tapi saya yakin John Gruber-lah yang berbicara tentang bagaimana di suatu tempat, mungkin di Universitas Drexel, mereka akhirnya membuka jalan yang diukir orang di rumput karena lebih pendek dari rute yang dirancang oleh para arsitek.
Saya sangat yakin bahwa, bagi banyak pengguna, suara adalah jalur terpendek.
Mulai dari menyampaikan permintaan ke apple iphone atau Mac dan mendapatkan Pintasan tingkat lanjut sebagai imbalannya, hingga mengubah foto, mencari dan mengedit dokumen, atau bahkan meminta alur kerja multi-langkah di seluruh aplikasi, semakin jelas bahwa, seiring dengan perkembangan teknologi, antarmuka yang paling mudah dinavigasi oleh sebagian besar pengguna bukanlah antarmuka sama sekali. Atau lebih tepatnya, yang telah disempurnakan oleh umat manusia sejak geraman pertama.
Meski begitu, saya masih benci kalau orang mengirimi saya pesan suara.
Penawaran aksesori di Amazon












