Kerangka kerja baru yang dikembangkan oleh para peneliti di Google Cloud dan DeepMind bertujuan untuk mengatasi salah satu tantangan utama dalam mengembangkan Agen Penggunaan Komputer (CUA): mengumpulkan contoh pelatihan berkualitas tinggi dalam skala besar.
Bingkai, di-dubbing Perhatikan dan pelajari (W&L), mengatasi masalah pembuatan data pelatihan dengan cara yang tidak memerlukan anotasi manusia dan dapat secara otomatis mengekstrak demo dari video mentah.
Eksperimen mereka menunjukkan bahwa data yang dihasilkan oleh W&L dapat digunakan untuk melatih atau menyempurnakan penggunaan komputer dan model dasar yang ada guna meningkatkan kinerja mereka dalam tugas-tugas penggunaan komputer. Namun yang sama pentingnya, pendekatan yang sama dapat digunakan dalam konstruksi Belajar dalam konteks (ICL) merupakan contoh agen pengguna komputer, yang memungkinkan perusahaan membuat CUA untuk tugas internal yang disesuaikan tanpa memerlukan pelatihan model khusus yang mahal.
Kemacetan data CUA
Web kaya dengan tutorial video dan screencast yang menggambarkan alur kerja kompleks untuk menggunakan aplikasi. Video-video ini adalah tambang emas yang bisa didapat Agen penggunaan komputer Dengan pengetahuan domain dan instruksi untuk menyelesaikan berbagai tugas melalui interaksi antarmuka pengguna.
Namun, sebelum dapat digunakan untuk melatih agen CUA, video ini harus diubah menjadi saluran beranotasi (yaitu, serangkaian deskripsi tugas, tangkapan layar, dan tindakan), yang merupakan proses yang mahal dan memakan waktu jika dilakukan secara manual.
Pendekatan yang ada untuk mengatasi hambatan data ini bergantung pada anotasi video ini melalui penggunaan model bahasa multimodal, yang biasanya menghasilkan akurasi rendah dan contoh yang salah. Pendekatan yang berbeda menggunakan agen otonom yang mengeksplorasi antarmuka pengguna secara mandiri untuk mengumpulkan jalur. Namun, teknik yang menggunakan pendekatan ini biasanya menghasilkan contoh sederhana yang tidak berguna dalam situasi dunia nyata yang tidak dapat diprediksi.
Seperti yang dicatat oleh para peneliti dalam makalah mereka, “Secara umum, pendekatan ini mengandalkan heuristik rapuh, mahal karena mengandalkan eksplorasi di lingkungan nyata, atau menghasilkan demonstrasi dengan kompleksitas rendah yang tidak sesuai dengan niat manusia.”
Perhatikan dan pelajari
Kerangka kerja Watch and Learn berupaya untuk mengatasi tantangan dalam menciptakan demonstrasi CUA dengan memikirkan kembali rumusan masalah.
Alih-alih menghasilkan lintasan secara langsung atau mengandalkan jaringan pipa multi-tahap yang kompleks, para peneliti membingkai masalahnya sebagai “tujuan dinamis terbalik”: dengan dua pengamatan berturut-turut, memprediksi tindakan perantara yang mengarah pada transformasi.
Menurut para peneliti, formulasi ini “lebih mudah dipelajari, menghindari heuristik buatan tangan, dan dapat digeneralisasi dengan kuat di seluruh aplikasi.”
Kerangka kerja W&L dapat dibagi menjadi tiga fase utama: pelatihan model dinamika terbalik (IDM), pengambilan video mentah, dan pelatihan agen CUA.
Pada fase pertama, para peneliti menggunakan agen untuk berinteraksi dengan halaman web langsung untuk membuat 500.000 transisi (dua pengamatan berturut-turut dan tindakan yang mengarah pada transisi). Mereka kemudian menggunakan data ini (bersama dengan 132.000 transisi yang dianotasi manusia dari kumpulan data terbuka yang ada) untuk melatih model dinamis terbalik (IDM) yang melakukan dua pengamatan berturut-turut dan memprediksi tindakan transisi. IDM yang dilatih, sebuah model transformator kecil, mengungguli model dasar yang tersedia dalam memprediksi tindakan transformasi.
Selanjutnya, para peneliti merancang saluran yang mengambil video dari platform seperti YouTube dan menjalankannya melalui IDM untuk membuat trek berkualitas tinggi. IDM mengambil frame video berturut-turut dan mengidentifikasi tindakan (menggulir, mengklik) yang menyebabkan perubahan pada lingkungan, yang kemudian dikompilasi ke dalam jalur beranotasi. Dengan menggunakan metode ini, mereka menghasilkan 53.125 jalur dengan label kerja yang sangat akurat.
Contoh-contoh ini dapat digunakan untuk melatih model penggunaan komputer yang efektif untuk tugas-tugas tertentu. Namun para peneliti juga menemukan bahwa jalur yang diekstraksi melalui IDM dapat berfungsi sebagai contoh pembelajaran kontekstual untuk meningkatkan kinerja CUA pada tugas yang diberikan pada waktu inferensi. Untuk ICL, mereka menggunakan Gemini 2.5 Flash untuk menambahkan anotasi tambahan ke contoh pemantauan/tindakan di jalur, yang kemudian dapat dimasukkan ke dalam prompt agen CUA (biasanya 3-5 contoh) selama inferensi.
“Peran ganda ini (pelatihan dan pembinaan dalam konteks) memungkinkan integrasi yang fleksibel dengan model sumber terbuka dan agen tujuan umum,” tulis para peneliti.
W&L beraksi
Untuk menguji kegunaan W&L, para peneliti melakukan serangkaian percobaan menggunakan model web sumber tertutup dan terbuka Standar OSWorldyang mengevaluasi agen di lingkungan desktop dan sistem operasi nyata dalam berbagai tugas, termasuk produktivitas, pemrograman, dan desain.
Untuk menyempurnakannya, mereka menggunakan koleksi 53.000 lintasan untuk melatih dua model sumber terbuka: UI-TARS-1.5, model bahasa gerak dan visi sumber terbuka yang kuat yang dirancang khusus untuk penggunaan komputer, dan Ratu 2.5-VLLLM Multimodal Tertimbang Terbuka.
Untuk pengujian pembelajaran kontekstual, mereka menerapkan contoh W&L pada model multimedia tujuan umum seperti Gemini 2.5 Flash, OpenAI o3, dan Claude Sonnet 4.
W&L menghasilkan peningkatan dibandingkan OSWorld di semua kategori model, termasuk hingga 3 poin untuk ICL dalam model tujuan umum dan hingga 11 poin untuk model sumber terbuka yang disempurnakan.
Yang penting, manfaat ini dicapai tanpa anotasi manual apa pun, “menunjukkan bahwa alur kerja manusia dalam skala web dapat berfungsi sebagai landasan praktis dan terukur untuk mengembangkan CUA menuju penerapan di dunia nyata,” tulis para peneliti.
Hal ini dapat mempunyai implikasi penting bagi penerapan di dunia nyata, memungkinkan organisasi mengubah koleksi video dan rekaman konferensi yang ada menjadi data pelatihan untuk CUA. Ini juga mempermudah pembuatan jalur pelatihan baru. Yang harus Anda lakukan adalah merekam video melakukan berbagai tugas dan membubuhi keterangan dengan IDM. Ketika model-model terkemuka terus ditingkatkan dan menjadi lebih murah, Anda dapat berharap untuk mendapatkan lebih banyak manfaat dari data yang ada dan bidang ini akan terus berkembang.
Tautan sumber