Selama bertahun -tahun, CEO Teknologi Besar telah menggembar -gemborkan visi agen AI yang dapat secara mandiri menggunakan aplikasi perangkat lunak untuk menyelesaikan tugas untuk orang. Tapi ambil agen AI konsumen saat ini untuk berputar, apakah itu agen chatgpt Openai atau komet kebingungan, dan Anda akan segera menyadari betapa terbatasnya teknologinya. Membuat agen AI lebih kuat dapat mengambil serangkaian teknik baru yang masih ditemukan industri ini.
Salah satu teknik tersebut adalah dengan hati-hati mensimulasikan ruang kerja di mana agen dapat dilatih pada tugas multi-langkah-yang dikenal sebagai lingkungan pembelajaran penguatan (RL). Demikian pula dengan bagaimana dataset berlabel mendukung gelombang terakhir AI, lingkungan RL mulai terlihat seperti elemen penting dalam pengembangan agen.
Peneliti AI, pendiri, dan capitalist memberi tahu TechCrunch bahwa laboratorium AI terkemuka sekarang menuntut lebih banyak lingkungan RL, dan tidak ada kekurangan startup yang berharap untuk memasok mereka.
“Semua laboratorium AI besar sedang membangun lingkungan RL di rumah,” kata Jennifer Li, mitra umum di Andreessen Horowitz, dalam sebuah wawancara dengan TechCrunch. “Tapi seperti yang dapat Anda bayangkan, membuat kumpulan information ini sangat kompleks, jadi AI Labs juga melihat supplier pihak ketiga yang dapat menciptakan lingkungan dan evaluasi berkualitas tinggi. Semua orang melihat ruang ini.”
Dorongan untuk lingkungan RL telah mencetak kelas baru dari startup yang didanai dengan baik, seperti mekanisasi dan kecerdasan utama, yang bertujuan untuk memimpin ruang. Sementara itu, perusahaan pelabelan information besar seperti Mercor dan Rise mengatakan mereka berinvestasi lebih banyak di lingkungan RL untuk mengimbangi perubahan industri dari dataset statis ke simulasi interaktif. Laboratorium utama juga mempertimbangkan untuk berinvestasi: menurut informasi, para pemimpin di Antropik telah membahas pengeluaran lebih dari $ 1 miliar di lingkungan RL selama tahun berikutnya.
Harapan bagi capitalist dan pendiri adalah bahwa salah satu dari start-up ini muncul sebagai “skala AI untuk lingkungan,” mengacu pada pembangkit tenaga listrik pelabelan information $ 29 miliar yang menyalakan era chatbot.
Pertanyaannya adalah apakah lingkungan RL akan benar -benar mendorong perbatasan kemajuan AI.
Acara TechCrunch
San Francisco | 27 – 29 Oktober 2025
Apa itu lingkungan RL?
Pada intinya, lingkungan RL adalah alasan pelatihan yang mensimulasikan apa yang akan dilakukan agen AI dalam aplikasi perangkat lunak yang nyata. Seorang pendiri menggambarkan membangunnya wawancara baru -baru ini “Suka membuat video game yang sangat membosankan.”
Misalnya, lingkungan dapat mensimulasikan web browser krom dan tugas agen AI dengan membeli sepasang kaus kaki di Amazon. Agen dinilai berdasarkan kinerjanya dan mengirim sinyal hadiah ketika berhasil (dalam hal ini, membeli sepasang kaus kaki yang layak).
Sementara tugas seperti itu terdengar relatif sederhana, ada banyak tempat di mana agen AI bisa tersandung. Mungkin hilang menavigasi menu drop down halaman web, atau membeli terlalu banyak kaus kaki. Dan karena pengembang tidak dapat memprediksi dengan tepat kesalahan yang akan diambil oleh agen, lingkungan itu sendiri harus cukup kuat untuk menangkap perilaku yang tidak terduga, dan masih memberikan umpan balik yang bermanfaat. Itu membuat lingkungan bangunan jauh lebih kompleks daripada dataset statis.
Beberapa lingkungan cukup rumit, memungkinkan agen AI menggunakan alat, mengakses Net, atau menggunakan berbagai aplikasi perangkat lunak untuk menyelesaikan tugas yang diberikan. Yang existed lebih sempit, bertujuan membantu agen mempelajari tugas -tugas spesifik dalam aplikasi perangkat lunak perusahaan.
Sementara lingkungan RL adalah hal yang panas di Silicon Valley saat ini, ada banyak preseden untuk menggunakan teknik ini. Salah satu proyek pertama Openai pada tahun 2016 adalah membangun” RL Gyms “Yang sangat mirip dengan konsepsi modern-day tentang lingkungan. Pada tahun yang sama, Google DeepMind’s Alphago AI System mengalahkan juara dunia di permainan papan, pergi. Ini juga menggunakan teknik RL dalam lingkungan yang disimulasikan.
Yang unik tentang lingkungan saat ini adalah bahwa para peneliti mencoba membangun agen AI yang menggunakan komputer dengan model transformator besar. Tidak seperti Alphago, yang merupakan sistem AI khusus yang bekerja di lingkungan tertutup, agen AI saat ini dilatih untuk memiliki kemampuan yang lebih umum. Peneliti AI saat ini memiliki titik awal yang lebih kuat, tetapi juga tujuan yang rumit di mana lebih banyak bisa salah.
Lapangan yang ramai
Perusahaan pelabelan data AI seperti skala AI, Surge, dan Mercor berusaha untuk memenuhi momen dan membangun lingkungan RL. Perusahaan -perusahaan ini memiliki lebih banyak sumber daya daripada banyak start-up di ruang angkasa, serta hubungan yang mendalam dengan AI Labs.
CEO Surge Edwin Chen mengatakan kepada TechCrunch bahwa dia baru -baru ini melihat “peningkatan yang signifikan” dalam permintaan untuk lingkungan RL di dalam laboratorium AI. Rise – yang dilaporkan dihasilkan $ 1, 2 miliar pendapatan Tahun lalu dari bekerja dengan AI Labs seperti Openai, Google, Anthropic dan Meta – baru -baru ini memutar organisasi inner baru yang secara khusus bertugas membangun lingkungan RL, katanya.
Di belakang Rise adalah Mercor, start-up senilai $ 10 miliar, yang juga bekerja dengan Openai, Meta, dan Anthropic. Mercor melempar financier di lingkungan bisnis RL untuk tugas -tugas khusus domain seperti pengkodean, perawatan kesehatan, dan hukum, menurut materi pemasaran yang dilihat oleh TechCrunch.
Chief Executive Officer Mercor Brendan Foody mengatakan kepada TechCrunch dalam sebuah wawancara bahwa “sedikit orang yang mengerti seberapa besar kesempatan di sekitar lingkungan RL sebenarnya.”
Skala AI yang digunakan untuk mendominasi ruang pelabelan data, tetapi telah kehilangan dasar sejak Meta menginvestasikan $ 14 miliar dan menyewa CEO -nya. Sejak itu, Google dan OpenAI menjatuhkan AI sebagai penyedia data, dan start-up bahkan menghadapi persaingan untuk pekerjaan pelabelan information di dalam meta. Tapi tetap saja, skala berusaha untuk memenuhi momen dan membangun lingkungan.
“Ini hanya sifat bisnis (skala AI),” kata Chetan Rane, kepala produk skala AI untuk agen dan lingkungan RL. “Skala telah membuktikan kemampuannya untuk beradaptasi dengan cepat. Kami melakukan ini di masa -masa awal kendaraan otonom, unit bisnis pertama kami. Ketika chatgpt keluar, skala AI diadaptasi dengan itu. Dan sekarang, sekali lagi, kami beradaptasi dengan ruang perbatasan baru seperti agen dan lingkungan.”
Beberapa pemain baru berfokus secara eksklusif pada lingkungan sejak awal. Di antara mereka adalah mekanis, start-up yang didirikan sekitar enam bulan yang lalu dengan tujuan berani “mengotomatiskan semua pekerjaan.” Namun, salah satu pendiri Matthew Barnett mengatakan kepada TechCrunch bahwa perusahaannya mulai dengan lingkungan RL untuk agen pengkodean AI.
Mekanik bertujuan untuk memasok laboratorium AI dengan sejumlah kecil lingkungan RL yang kuat, kata Barnett, daripada perusahaan information yang lebih besar yang menciptakan berbagai lingkungan RL sederhana. Untuk titik ini, startup menawarkan insinyur perangkat lunak Gaji $ 500 000 Untuk membangun lingkungan RL – jauh lebih tinggi dari kontraktor per jam dapat menghasilkan bekerja pada skala AI atau lonjakan.
Mechanize telah bekerja dengan antropik di lingkungan RL, dua sumber yang akrab dengan masalah tersebut kepada TechCrunch. Mekanik dan antropik menolak mengomentari kemitraan.
Startup lain bertaruh bahwa lingkungan RL akan berpengaruh di luar laboratorium AI. Prime Intellect – start-up yang didukung oleh peneliti AI Andrej Karpathy, Founders Fund, dan Menlo Ventures – menargetkan pengembang yang lebih kecil dengan lingkungan RL -nya.
Bulan lalu, Prime Intelligence meluncurkan Center Lingkungan RL, yang bertujuan untuk menjadi “wajah pelukan untuk lingkungan RL.” Idenya adalah untuk memberi pengembang sumber terbuka akses ke sumber daya yang sama dengan laboratorium AI besar, dan menjual pengembang tersebut akses ke sumber daya komputasi dalam proses tersebut.
Pelatihan agen yang umumnya berkemampuan di lingkungan RL dapat lebih mahal daripada teknik pelatihan AI sebelumnya, menurut peneliti Prime Intelect Will Brown. Bersamaan dengan startup membangun lingkungan RL, ada peluang lain untuk penyedia GPU yang dapat memberi daya pada proses tersebut.
“Lingkungan RL akan terlalu besar untuk didominasi oleh satu perusahaan,” kata Brown dalam sebuah wawancara. “Bagian dari apa yang kami lakukan hanyalah mencoba membangun infrastruktur open-source yang baik di sekitarnya. Layanan yang kami jual adalah komputasi, jadi itu adalah onramp yang nyaman untuk menggunakan GPU, tetapi kami lebih memikirkan hal ini dalam jangka panjang.”
Akankah skala?
Pertanyaan terbuka di sekitar lingkungan RL adalah apakah teknik ini akan skala seperti metode pelatihan AI sebelumnya.
Pembelajaran penguatan telah mendukung beberapa lompatan terbesar dalam AI selama setahun terakhir, termasuk model -version seperti Openai O 1 dan Claude Piece 4 Anthropic. Itu adalah terobosan yang sangat penting karena metode yang sebelumnya digunakan untuk meningkatkan model AI sekarang menunjukkan pengembalian yang semakin berkurang.
Lingkungan adalah bagian dari taruhan AI Labs yang lebih besar pada RL, yang banyak orang percaya akan terus mendorong kemajuan karena mereka menambahkan lebih banyak data dan sumber daya komputasi ke dalam proses. Beberapa peneliti OpenAI di belakang O 1 sebelumnya mengatakan kepada TechCrunch bahwa perusahaan awalnya berinvestasi dalam model penalaran AI-yang diciptakan melalui investasi dalam RL dan komputasi-waktu-waktu-karena mereka pikir itu akan skala dengan baik.
Cara terbaik untuk skala RL tetap tidak jelas, tetapi lingkungan tampak seperti pesaing yang menjanjikan. Alih -alih hanya menghargai chatbots untuk respons teks, mereka membiarkan agen beroperasi dalam simulasi dengan alat dan komputer yang mereka miliki. Itu jauh lebih padat sumber daya, tetapi berpotensi lebih bermanfaat.
Beberapa skeptis bahwa semua lingkungan RL ini akan berjalan. Ross Taylor, mantan pemimpin penelitian AI dengan meta yang ikut mendirikan penalaran umum, memberi tahu TechCrunch bahwa lingkungan RL cenderung menghargai peretasan. Ini adalah proses di mana model AI menipu untuk mendapatkan hadiah, tanpa benar -benar melakukan tugas.
“Saya pikir orang meremehkan betapa sulitnya skala lingkungan,” kata Taylor. “Bahkan yang terbaik yang tersedia untuk umum (lingkungan RL) biasanya tidak berfungsi tanpa modifikasi yang serius.”
Kepala Teknik Openai untuk bisnis API -nya, Sherwin Wu, mengatakan dalam a podcast terbaru Bahwa dia “pendek” pada startup lingkungan RL. Wu mencatat bahwa ini adalah ruang yang sangat kompetitif, tetapi juga bahwa penelitian AI berkembang begitu cepat sehingga sulit untuk melayani laboratorium AI dengan baik.
Karpathy, seorang capitalist dalam kecerdasan utama yang menyebut lingkungan RL sebagai terobosan potensial, juga menyuarakan kehati -hatian untuk ruang RL secara lebih luas. Di sebuah Uploading di x dia menyampaikan kekhawatiran tentang berapa banyak kemajuan AI yang dapat diperas dari RL.
“Saya favorable pada lingkungan dan interaksi agen tetapi saya bearish pada pembelajaran penguatan secara khusus,” kata Karpathy.
UPDATE: Versi sebelumnya dari artikel ini disebut mekanis sebagai pekerjaan mekanis. Telah diperbarui untuk mencerminkan nama resmi perusahaan.