Berita
Model meta meta global baru memungkinkan hal -hal diproses di lingkungan yang tidak pernah mereka hadapi
Bergabunglah dengan acara bahwa para pemimpin lembaga telah dipercaya selama hampir dua dekade. VB Transform menggabungkan orang yang membangun strategi AI untuk institusi nyata. Pelajari lebih lanjut
Sementara model LLMS telah menguasai teks (dan metode lain sampai batas tertentu), mereka tidak memiliki “akal sehat” materi untuk bekerja di lingkungan yang dinamis di dunia nyata. Ini telah membatasi penyebaran kecerdasan buatan di bidang -bidang seperti manufaktur dan layanan logistik, di mana pemahaman adalah alasan dan dampak sangat penting.
Meta terbaru, V-jepa 2Dibutuhkan langkah menuju menjembatani kesenjangan ini dengan mempelajari model global dari interaksi video dan materi.
V-JEPA 2 dapat membuat aplikasi Amnesty International yang membutuhkan ekspektasi dan prosedur perencanaan di lingkungan yang tidak terduga dengan banyak kasus tepi. Pendekatan ini dapat memberikan jalur yang jelas menuju robot yang lebih mampu dan otomatis di lingkungan fisik.
Cara mempelajari perencanaan “model dunia”
Manusia mengembangkan intuisi fisik awal dengan memantau lingkungan mereka. Jika Anda melihat bola yang dilemparkan, Anda tahu secara naluriah jalannya dan Anda dapat memprediksi lokasi pendaratannya. V-JEPA 2 mempelajari “model global” yang serupa, simulasi internal dari sistem kecerdasan buatan untuk bagaimana dunia material bekerja.
Model ini dirancang pada tiga kemampuan dasar yang diperlukan untuk aplikasi lembaga: memahami apa yang terjadi dalam suatu adegan, memprediksi bagaimana adegan berubah berdasarkan prosedur, dan merencanakan serangkaian prosedur untuk mencapai tujuan tertentu. Kematian juga menyatakan di Blog“Visi jangka panjangnya adalah bahwa model dunia akan memungkinkan agen kecerdasan buatan untuk merencanakan dan berpikir di dunia material.”
Struktur model, yang disebut video yang mengintegrasikan arsitektur prediktif (V-JEPA), terdiri dari dua bagian utama. “Enkripsi” menonton klip video dan mengintensifkannya ke ringkasan digital terkompresi, yang dikenal sebagai inklusi. Inklusi ini mengambil informasi dasar tentang objek dan hubungan mereka dalam adegan. Kemudian ia mengambil komponen kedua, “dapat diprediksi”, ringkasan ini dan membayangkan bagaimana adegan akan berkembang, menghasilkan prediksi seperti apa ringkasan berikut ini.
Arsitektur ini adalah pengembangan terbaru dari kerangka kerja JEPA, yang pertama kali diterapkan pada gambar dengan i-jepa dan sekarang mengarah ke video, yang menunjukkan pendekatan tetap untuk membangun model dunia.
Berbeda dengan model intelijen intrik yang mencoba memprediksi balon yang tepat dari setiap piksel dalam bingkai masa depan-tugas matematika yang intens-V-JEPA 2 beroperasi di area abstrak. Ini berfokus pada prediksi fitur tingkat tinggi dari adegan, seperti lokasi objek dan jalurnya, alih -alih rincian teks atau latar belakangnya, yang membuatnya lebih efisien daripada model terbesar lainnya hanya dalam 1,2 miliar guru guru
Ini diterjemahkan menjadi mengurangi biaya akun dan membuatnya lebih cocok untuk publikasi di pengaturan dunia nyata.
Belajar dari observasi dan pekerjaan
V-JEPA 2 dilatih dalam dua fase. Pertama, ia membangun pemahaman pendirian fisika melalui pembelajaran diri sendiri, dan menonton lebih dari satu juta jam video internet yang tidak dihuni. Dengan memantau bagaimana objek bergerak dan berinteraksi, mereka mengembangkan model global untuk tujuan umum tanpa panduan manusia.
Pada tahap kedua, model pra -terlatih ini diatur pada pengumpulan data khusus kecil. Dengan memproses hanya 62 jam video yang menampilkan tugas kinerja robot, bersama dengan pesanan kontrol yang sesuai, V-JEPA 2 belajar untuk menghubungkan prosedur spesifik dengan hasil material mereka. Ini menghasilkan model yang dapat merencanakan dan mengendalikan prosedur di dunia nyata.
Pelatihan dua tahap ini memungkinkan kemampuan kritis untuk mengotomatisasi di dunia nyata: tata letak nol robot. Robot V-Jepa 2 dapat digunakan di lingkungan baru dan berhasil berurusan dengan objek yang belum pernah dihadapi sebelumnya, tanpa perlu melatih ulang pengaturan khusus ini.
Ini adalah kemajuan besar pada model sebelumnya yang membutuhkan data pelatihan dari tepat Robot dan lingkungan tempat mereka bekerja. Model ini dilatih pada pengumpulan data open source dan kemudian berhasil diterbitkan pada berbagai robot di meta laborators.
Misalnya, untuk menyelesaikan tugas seperti memilih objek, robot diberi gambar target dari hasil yang diinginkan. Kemudian prediksi V-JEPA 2 digunakan untuk mensimulasikan sekelompok gerakan potensial berikut secara internal. Ini mencatat setiap tindakan yang dibayangkan berdasarkan tingkat kedekatannya dengan target, dan melakukan prosedur yang dikelilingi tertinggi, dan mengulangi proses sampai tugas selesai.
Dengan menggunakan metode ini, model mencapai tingkat keberhasilan antara 65 % dan 80 % dalam tugas yang ditangkap dengan objek yang tidak dikenal dalam pengaturan baru.
Efek dari dunia pemikiran fisik nyata
Kemampuan untuk merencanakan dan bertindak dalam situasi baru ini memiliki efek langsung pada operasi komersial. Dalam layanan logistik dan manufaktur, robot yang lebih mudah beradaptasi dapat menangani perbedaan dalam produk dan tata letak gudang tanpa represesi yang intens. Ini bisa sangat berguna karena perusahaan mengeksplorasi penyebaran robot manusia di pabrik dan jalur perakitan.
Model global itu sendiri dapat menempati kembar digital yang sangat realistis, memungkinkan perusahaan untuk mensimulasikan operasi baru atau pelatihan AIS lainnya dalam lingkungan fisik fisik yang akurat. Dalam pengaturan industri, model dapat memantau ekstrak video mesin, dan berdasarkan pemahamannya tentang fisika, ia memprediksi masalah keamanan dan kegagalannya sebelum terjadi.
Penelitian ini adalah langkah penting menuju apa yang disebut Meta “kecerdasan canggih mesin (AMI), di mana sistem kecerdasan buatan” dapat mengetahui dunia seperti yang dilakukan manusia, dan merencanakan bagaimana melakukan tugas yang tidak dikenal, dan beradaptasi secara efisien dengan dunia yang berubah di sekitar kita. ”
Meta merilis model dan kode pelatihannya dan berharap untuk “membangun masyarakat yang luas dalam penelitian ini, yang mendorong kemajuan menuju tujuan akhir kami untuk mengembangkan model dunia yang dapat mengubah cara kecerdasan buatan berinteraksi dengan dunia material.”
Apa artinya ini bagi para pembuat keputusan teknis
V-JEPA 2 menggerakkan robot lebih dekat ke bentuk pengetahuan oleh program yang sudah dikenali tim cloud: sebelum pelatihan sekali, itu diterbitkan di mana saja. Karena model mempelajari fisika publik dari video umum dan hanya membutuhkan beberapa lusin jam dari pemotretan tugas, lembaga dapat mengurangi siklus pengumpulan data yang biasanya menarik proyek eksperimental. Dalam praktiknya, Anda dapat model awal pemilihan robot di desktop dengan harga terjangkau, kemudian membungkus kebijakan yang sama pada platform industri di lantai pabrik tanpa mengumpulkan ribuan sampel baru atau menulis program tekstual untuk pergerakan khusus.
Pelatihan biaya umum yang rendah juga memulihkan persamaan biaya. Pada 1,2 miliar guru, V-JEPA 2 sebanding dengan unit pemrosesan grafik tinggi tunggal, dan target prediksi abstraknya mengurangi kesimpulan lebih banyak kehamilan. Ini memungkinkan tim untuk berjalan di loop tertutup atau di tepi, menghindari waktu untuk cloud dan sakit kepala kepatuhan yang dilengkapi dengan video yang mengalir di luar pabrik. Anggaran yang pernah pergi ke kelompok rekening besar dapat mendanai sensor, pengulangan atau siklus pengulangan tambahan lebih cepat.
Tautan sumber