Beberapa bulan yang lalu, Apple merilis FastVLM, design bahasa aesthetic (VLM) yang menawarkan pemrosesan gambar resolusi tinggi yang hampir instan. Sekarang, Anda dapat mengambilnya untuk berputar, asalkan Anda memiliki Mac bertenaga silikon apel. Begini caranya.

Ketika kami pertama kali meliput FastVLM, kami menjelaskan bahwa itu memanfaatkan MLX, kerangka ML terbuka Apple sendiri yang dirancang khusus untuk silikon Apple, untuk memberikan captioning video hingga 85 kali lebih cepat, sementara lebih dari 3 kali lebih kecil dari model serupa.

Sejak itu, Apple telah mengerjakan proyek lebih lanjut, yang sekarang dapat ditemukan Wajah memeluk bukan hanya di Girub Pada wajah memeluk, Anda dapat memuat versi yang lebih ringan, fastvlm-0. 5 b, tepat di browser Anda dan Lihat sendiri

Bergantung pada perangkat keras Anda, mungkin perlu sedikit memuat. Butuh beberapa menit di 16 GB M 2 Pro MacBook Pro saya. Tetapi begitu dimuat, version mulai menggambarkan penampilan saya secara akurat, ruangan di belakang saya, ekspresi yang berbeda, dan objek yang akan saya tonton.

Di sudut kiri bawah, Anda dapat menyesuaikan prompt yang akan dipertimbangkan oleh design saat secara langsung memperbarui keterangan, atau Anda dapat memilih dari beberapa saran, seperti:

  • Jelaskan apa yang Anda lihat dalam satu kalimat.
  • Apa warna bajuku?
  • Identifikasi teks atau konten tertulis yang terlihat.
  • Emosi atau tindakan apa yang digambarkan?
  • Sebutkan objek yang saya pegang di tangan saya.

Jika Anda merasa ingin mengambil sesuatu lebih lanjut, Anda dapat mencoba menggunakan aplikasi kamera digital untuk memberi makan video ke alat, dan menontonnya secara instan menggambarkan beberapa adegan secara rinci, sampai membuat sulit untuk memahami apa yang terjadi. Tentu saja, kasus penggunaan yang sebenarnya akan berbeda, tetapi ini menceritakan kode seberapa cepat dan akurat modelnya.

Yang sangat menarik tentang percobaan ini adalah berjalan secara lokal di browser, yang berarti tidak ada information yang meninggalkan perangkat, dan bahkan dapat berjalan secara offline. Ini, tentu saja, akan menjadi kasus penggunaan yang bagus untuk yang dapat dikenakan dan teknologi bantu, di mana cahaya dan latensi rendah akan menjadi yang terpenting untuk membuka kunci kasus penggunaan yang lebih baik.

Perlu dicatat itu trial Berjalan pada design 0, 5 miliar-parameter yang lebih ringan, sedangkan keluarga FastVLM juga mencakup varian yang lebih besar dan lebih kuat dengan 1, 5 miliar dan 7 miliar parameter. Dengan model yang lebih besar, kinerja dan kecepatan dapat meningkat lebih jauh, meskipun menjalankannya langsung di browser kemungkinan akan menjadi no-go.

Apakah Anda mengujinya? Bagikan pemikiran Anda di komentar.

Penawaran aksesori di Amazon

FTC: Kami menggunakan penghasilan penghasilan tautan afiliasi otomatis. Lagi.

Tautan Sumber