Berita
OpenCUA Open Source Computer Agents bersaing dengan model kepemilikan dari Openai dan Anthroproy
Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang
Kerangka baru para peneliti di Universitas Hong Kong HKU dan lembaga koperasi terutama menyediakan open source untuk membuat agen kecerdasan buatan yang kuat yang dapat mengoperasikan komputer. Bingkai, dipanggil OpencuaIni termasuk alat, data, dan resep untuk memperluas ruang lingkup pengembangan agen penggunaan komputer (CUA).
Model terlatih menggunakan kerangka kerja ini dengan kuat pada standar CUA, mengungguli sumber terbuka saat ini dan bersaing erat dengan agen tertutup dari kepemimpinan laborator AI seperti Openai dan Anthropor.
Tantangan Membangun Agen Penggunaan Komputer
Faktor Penggunaan Komputer dirancang untuk menyelesaikan tugas secara mandiri pada komputer, dari pindah di situs web ke perangkat lunak yang kompleks. Mereka juga dapat membantu mengotomatiskan alur kerja di institusi. Namun, sistem CUA yang paling cakap adalah kerajaan, dengan detail penting tentang pelatihan dan membangun data tentang mereka dan proses pengembangan mereka.
“Karena kurangnya transparansi mengurangi perkembangan teknis dan menimbulkan masalah keamanan, komunitas penelitian membutuhkan pekerjaan CUA yang benar -benar terbuka untuk mempelajari kemampuan, pembatasan, dan risiko mereka.” Tentukan mereka.
Kecerdasan buatan membatasi batasnya
Tutup daya, biaya tinggi simbol, dan keterlambatan inferensi dibentuk kembali. Bergabunglah dengan salon eksklusif kami untuk menemukan bagaimana perbedaan besar:
- Mengubah energi menjadi keuntungan strategis
- Mengajar penalaran yang efektif untuk keuntungan produktivitas nyata
- Membuka Pengembalian Investasi Kompetitif dengan Sistem Kecerdasan Buatan Berkelanjutan
Mengamankan tempat Anda untuk tinggal di latar depan: https://bit.ly/4mwngngo
Pada saat yang sama, upaya open source menghadapi serangkaian hambatan mereka. Tidak ada infrastruktur yang dikembangkan untuk mengumpulkan berbagai data yang diperlukan untuk melatih faktor -faktor ini. Koleksi data sumber terbuka pada antarmuka grafis pengguna (GUI) berisi data terbatas, dan banyak proyek pencarian tidak memberikan rincian yang cukup tentang metode mereka, yang menyulitkan orang lain untuk mengulangi pekerjaan mereka.
Menurut makalah, “pembatasan ini menghambat kemajuan secara kolektif dalam CUA untuk tujuan umum dan membatasi makna perluasan ekspansi, generalisasi, dan kemungkinan pendekatan pembelajaran.”
Opencua
Opencua adalah bingkai sumber terbuka yang dirancang untuk mengatasi tantangan ini dengan memperluas ruang lingkup pengumpulan data dan model sendiri. Intinya, alat AgentNet untuk merekam demonstrasi manusia dari tugas komputer pada berbagai sistem operasi.
Alat ini menyederhanakan pengumpulan data dengan bermain di latar belakang komputer pribadi guru, menangkap video di layar, input mouse, keyboard, dan pohon akses dasar, yang menyediakan informasi terorganisir tentang elemen yang muncul di layar. Kemudian data awal ini diproses dalam “jalur kerja pemerintah”, dengan snapshot komputer (kasing) dengan prosedur yang sesuai pengguna (klik, dicetak, dll.). Penjelasan kemudian dapat meninjau demonstrasi ini, mengedit dan menyajikan demonstrasi ini.
Menggunakan alat ini, para peneliti mengumpulkan set data AgentNet, yang berisi lebih dari 22.600 pertunjukan tugas melalui Windows, MacOS dan Ubuntu, yang memperluas lebih dari 200 aplikasi dan situs Web. “Koleksi data ini menangkap dalam kompleksitas asli perilaku manusia dan dinamika lingkungan dari lingkungan komputasi pribadi pengguna,” catat kertas.
Dengan menyadari bahwa alat perekaman layar membangkitkan data penting di lembaga, para peneliti merancang alat AgentNet dengan mempertimbangkan keamanan. Xinyuan Wang, rekan penulis makalah dan mahasiswa PhD di HKU, menjelaskan bahwa mereka telah menerapkan kerangka kerja perlindungan privasi multi -lapisan. “Pertama, komentator sendiri dapat memantau data yang mereka hasilkan sepenuhnya … sebelum mereka memutuskan apakah itu akan dikirim,” katanya kepada VentureBeat. Data kemudian tunduk pada verifikasi manual masalah privasi dan pemindaian otomatis melalui model utama untuk mendeteksi konten sensitif yang tersisa sebelum rilis. Wang menambahkan: “Operasi ini dengan lapisan menjamin daya tahan di tingkat lembaga untuk lingkungan yang berhubungan dengan data sensitif atau keuangan,” tambah Wang.
Untuk mempercepat evaluasi, tim juga mensponsori AgentNetBench, standar yang tidak terhubung yang menyediakan beberapa prosedur untuk setiap langkah, memberikan cara yang lebih efisien untuk mengukur kinerja agen.
Resep baru untuk agen pelatihan
Kerangka kerja OpenCUA memperkenalkan pipa baru untuk pemrosesan data dan pelatihan agen penggunaan komputer. Langkah pertama telah mengubah demonstrasi manusia mentah menjadi pasangan bersih dari gerakan yang tepat untuk melatih VLM. Namun, para peneliti menemukan bahwa hanya model pelatihan pada suami -suami ini mencapai keuntungan kinerja yang terbatas, bahkan dengan sejumlah besar data.
Wawasan utama adalah meningkatkan trek ini dengan pemikiran rantai. Proses ini menciptakan “monolog internal” terperinci untuk setiap prosedur, yang meliputi perencanaan, memori dan pemikiran. Logika terorganisir ini diselenggarakan pada tiga tingkatan: catatan layar tingkat tinggi, ide -ide reflektif yang menganalisis situasi dan merencanakan langkah -langkah berikut, dan akhirnya prosedur singkat dan dapat dieksekusi. Pendekatan ini membantu agen untuk mengembangkan pemahaman yang lebih dalam tentang tugas -tugas tersebut.
Para peneliti menulis: “Kami menemukan logika alami dasar untuk dasar penggunaan komputer umum, yang membantu CUA untuk menyerap kemampuan kognitif,” tulis para peneliti.
Pipa sintesis data ini adalah kerangka kerja umum yang dapat beradaptasi oleh perusahaan dengan agen pelatihan pada alat internal yang unik. Menurut Wang, yayasan dapat merekam demonstrasi alur kerjanya sendiri dan menggunakan pipa “reflektor” dan “generator” yang sama untuk membuat data pelatihan yang diperlukan. “Ini memungkinkan mereka untuk membuka faktor kinerja tinggi yang dirancang khusus untuk alat batin mereka tanpa perlu efek berpikir manual,” jelasnya.
Status OpenCUA pada tes
Para peneliti menerapkan kerangka kerja OpenCua untuk melatih sekelompok VLM open source, termasuk variabel QWEN dan KIMI-VL, dengan ukuran guru dari 3 miliar hingga 32 miliar. Model telah dievaluasi pada serangkaian standar online dan komunikasi yang menguji kemampuan mereka untuk melakukan tugas dan memahami antarmuka pengguna grafis.
Model ini telah menciptakan 32 miliar parameter, OpencUA-32b, tingkat keberhasilan baru pada model terbaru antara model open source pada standar Osworld. GPT-4O CUA juga melampaui Openai dan telah sangat menutup kesenjangan kinerja dengan model kerajaan terkemuka pada manusia.
Untuk pengembang perusahaan dan pemimpin produk, penelitian ini menawarkan banyak hasil utama. Metode OpenCUA sangat berlaku, yang meningkatkan kinerja pada model struktural yang berbeda (padat dan dijahit) dan ukuran. Agen terlatih juga menunjukkan surat edaran yang kuat, bekerja dengan baik melalui berbagai tugas dan sistem operasi.
Menurut Wang, kerangka kerja ini sangat cocok untuk mengotomatisasi alur kerja dari lembaga ketenagakerjaan yang sering sering terjadi. Dia mengatakan kepada VentureBeat: “Misalnya, dalam kumpulan data AgentNet, kami sudah mengambil beberapa demonstrasi mitra EC2 AWS dan komposisi parameter komentar di Mturk,” katanya kepada VentureBeat. “Tugas -tugas ini mencakup banyak langkah serial, tetapi melacak pola yang diulang.”
Namun, Wang mengindikasikan bahwa jembatan kesenjangan untuk publikasi langsung memerlukan mengatasi tantangan utama pada keselamatan dan keandalan. “Tantangan terbesar dalam penerbitan nyata adalah keamanan dan keandalan: agen harus menghindari kesalahan yang secara tidak sengaja dapat mengubah pengaturan sistem atau menyebabkan efek samping berbahaya yang melampaui tugas yang dimaksud.”
Peneliti dirilis kodeDan Kumpulan dataDan Bobot Untuk model mereka.
Karena agen sumber daya terbuka yang dibangun di atas kerangka kerja seperti Opencua menjadi lebih mampu, mereka terutama dapat mengembangkan hubungan antara pekerja pengetahuan dan komputer mereka. Wang membayangkan masa depan di mana efisiensi dalam program kompleks menjadi kurang penting daripada kemampuan untuk mengekspresikan tujuan kepada agen AI.
Dia menggambarkan dua status dasar kerja: “Otomasi yang tidak terhubung ke internet, karena agen meningkatkan pengetahuannya yang lebih luas tentang perangkat lunak untuk menindaklanjuti penting bagi satu sisi bagi partai” dan “kerja sama online, di mana agen merespons dalam waktu yang sebenarnya dan bekerja bersama manusia, sangat mirip dengan kolega.” Pada dasarnya, manusia akan memberikan “apa” strategis “apa” strategis, sementara faktor -faktor kecerdasan buatan yang semakin berkembang berhubungan dengan “bagaimana”.
Tautan sumber