Dengan dorongan infrastruktur AI yang mencapai proporsi yang mencengangkan, terdapat tekanan yang lebih besar dari sebelumnya untuk memeras sebanyak mungkin inferensi dari GPU yang mereka miliki. Dan bagi para peneliti yang memiliki keahlian dalam teknik tertentu, ini adalah saat yang tepat untuk menggalang dana.
Itu adalah bagian dari kekuatan pendorong di baliknya Tensormesh diluncurkan secara diam-diam minggu ini dengan pendanaan awal sebesar $ 4, 5 juta. Investasi tersebut dipimpin oleh Laude Ventures, dengan tambahan pendanaan malaikat dari pelopor basis data Michael Franklin
Tensormesh menggunakan uang tersebut untuk membangun versi komersial dari open source LMCache utilitas, diluncurkan dan dikelola oleh salah satu pendiri Tensormesh, Yihua Cheng. Jika digunakan dengan baik, LMCache dapat mengurangi biaya inferensi sebanyak 10 x– sebuah kekuatan yang menjadikannya bahan pokok dalam penerapan sumber terbuka dan menarik integrasi dari para pemukul berat seperti Google Dan Nvidia Kini Tensormesh berencana memanfaatkan reputasi akademis tersebut menjadi bisnis yang layak.
Inti dari produk ini adalah cache nilai kunci (atau cache KV), sebuah sistem memori yang digunakan untuk memproses input kompleks secara lebih efisien dengan memadatkannya menjadi nilai kuncinya. Di dalam arsitektur tradisional cache KV dibuang di akhir setiap kueri– tetapi salah satu pendiri dan chief executive officer Tensormesh, Junchen Jiang berpendapat bahwa ini adalah sumber inefisiensi yang sangat besar.
“Ini seperti memiliki seorang analis yang sangat cerdas yang membaca semua information, namun mereka lupa apa yang telah mereka pelajari setelah setiap pertanyaan,” kata Jiang.
Alih-alih membuang cache tersebut, sistem Tensormesh menyimpannya, sehingga memungkinkannya untuk di-deploy ulang ketika version menjalankan proses serupa dalam kueri terpisah. Karena memori GPU sangat berharga, hal ini berarti menyebarkan data ke beberapa lapisan penyimpanan yang berbeda, namun imbalannya adalah daya inferensi yang jauh lebih besar untuk beban web server yang sama.
Perubahan ini sangat berguna untuk antarmuka obrolan, karena design harus terus merujuk kembali ke log obrolan yang berkembang seiring dengan berlangsungnya percakapan. Sistem agen juga mempunyai masalah serupa, dengan semakin banyaknya tindakan dan tujuan.
Secara teori, perubahan-perubahan ini dapat dilakukan sendiri oleh perusahaan AI– namun kompleksitas teknisnya menjadikannya tugas yang berat. Mengingat kerja tim Tensormesh yang meneliti proses dan kerumitan detailnya, perusahaan yakin akan ada banyak permintaan untuk produk yang unik.
“Menyimpan cache KV dalam sistem penyimpanan sekunder dan digunakan kembali secara efisien tanpa memperlambat keseluruhan sistem adalah masalah yang sangat menantang,” kata Jiang. “Kami telah melihat orang-orang mempekerjakan 20 insinyur dan menghabiskan waktu tiga atau empat bulan untuk membangun sistem seperti itu. Atau mereka dapat menggunakan produk kami dan melakukannya dengan sangat efisien.”














