Berita

Metode pelatihan AI baru menciptakan agen perangkat lunak yang kuat hanya dengan 78 contoh

Published

on

Sebuah studi baru dilakukan Universitas Shanghai Jiao Tong Dan Tenaga Kerja AI Generatif SII Gair menunjukkan bahwa melatih model bahasa besar (LLM) untuk tugas yang kompleks dan independen tidak memerlukan kumpulan data yang besar.

Kerangka kerja mereka, biar (Lebih sedikit lebih baik untuk agensi cerdas), mengembangkan penelitian serupa di bidang penelitian LLM lainnya dan menemukan bahwa “otonomi mesin muncul bukan dari banyaknya data tetapi dari panduan strategis demonstrasi tingkat tinggi yang berkualitas tinggi.”

Dengan kata lain, ini adalah data kualitasTIDAK jumlahIni penting.

Dalam percobaan, peneliti menemukan bahwa dengan A Dengan kumpulan data kecil namun dikurasi dengan hati-hati, yang hanya terdiri dari 78 contoh, mereka dapat melatih LLM untuk mengungguli model yang dilatih dengan ribuan contoh. Dengan selisih yang signifikan dibandingkan tolok ukur industri utama.

Penemuan ini mungkin mempunyai implikasi penting bagi aplikasi perusahaan di mana datanya langka atau mahal.

Tantangan agen bangunan yang berhasil

Para peneliti mendefinisikan agensi sebagai “kemampuan yang muncul dari sistem AI untuk bertindak sebagai agen otonom—yang secara mandiri menemukan masalah, merumuskan hipotesis, dan menerapkan solusi melalui keterlibatan mandiri dengan lingkungan dan alat.” Dengan kata lain, ini adalah sistem AI yang “tidak hanya berpikir, tetapi juga bertindak”.

Masalahnya adalah kerangka pelatihan saat ini berasumsi bahwa kecerdasan tingkat tinggi memerlukan banyak data, seperti yang dijelaskan dalam hukum penskalaan klasik dalam pemodelan bahasa. Para peneliti berpendapat bahwa pendekatan ini mengarah pada jalur pelatihan yang semakin kompleks dan kebutuhan sumber daya yang signifikan. Terlebih lagi, di banyak daerah, data tidak melimpah, sulit diperoleh, dan sangat mahal untuk menyusunnya.

Namun, penelitian di bidang lain menunjukkan bahwa Anda tidak memerlukan lebih banyak data untuk mencapai tujuan pelatihan dalam pelatihan LLM.

Misalnya, Limasebuah makalah tahun 2023, menunjukkan bahwa model tersebut dapat menjadi penyelarasan yang efisien hanya dengan 1000 contoh yang terkoordinasi. Baru-baru ini, Limo Ia menunjukkan bahwa penalaran matematis yang kompleks dapat muncul hanya dari 817 sampel pelatihan.

Bersama Limi, para peneliti berupaya menerapkan prinsip “less is more” pada dunia agen AI yang kompleks.

Bagaimana cara kerja jeruk nipis?

Kerangka kerja LIMI menunjukkan bahwa kecerdasan agen yang canggih dapat muncul dari demonstrasi minimal namun secara strategis menumbuhkan perilaku otonom. Kunci dari kerangka kerja ini adalah saluran untuk mengumpulkan demonstrasi tugas agen yang berkualitas tinggi.

Setiap demonstrasi terdiri dari dua bagian: kueri dan jalur. Kueri adalah permintaan bahasa alami dari pengguna, seperti persyaratan pengembangan perangkat lunak atau tujuan penelitian ilmiah.

Jalur adalah serangkaian langkah yang diambil AI untuk memproses kueri, termasuk alasan internalnya, panggilannya ke alat eksternal seperti kompiler kode, dan umpan balik yang diterimanya dari lingkungan. Misalnya, kuerinya mungkin "Bangun aplikasi obrolan sederhana," Jalurnya akan mencakup rencana internal agen yang adil dan praktis, kode yang ditulis dan dijalankannya, serta keluaran atau kesalahan yang dihasilkan.

Jalurnya dapat mencakup beberapa iterasi perencanaan, implementasi, dan pemikiran hingga tujuan yang diinginkan tercapai.

Untuk membangun kumpulan data mereka, para peneliti memulai dengan 60 pertanyaan dari skenario dunia nyata yang dihadapi oleh pengembang dan peneliti profesional. Kemudian mereka memperluas kolam ini dengan… GPT-5 Untuk mensintesis kueri tambahan dari permintaan tarik GitHub.

Mereka menggunakan tim yang terdiri dari empat mahasiswa PhD ilmu komputer untuk memeriksa kualitas kueri ini dan memilih 18 contoh untuk membuat kumpulan 78 kueri berkualitas tinggi yang berfokus pada pengembangan perangkat lunak dan alur kerja penelitian.

Untuk menghasilkan trek, mahasiswa PhD yang sama berkolaborasi dengan agen pengkodean CLI yang didukung oleh GPT-5 untuk menyelesaikan 78 tugas.

Mereka mengikuti proses yang berulang-ulang, menyatukan seluruh rangkaian interaksi hingga setiap tugas berhasil diselesaikan, menangkap seluruh alur kerja sama manusia di kehidupan nyata, termasuk komunikasi dan redundansi di balik amplop. Untuk kueri yang lebih kompleks, jalur yang dikumpulkan dapat mencakup lebih dari 152.000 simbol.

“Pendekatan ini memastikan bahwa model kami belajar tidak hanya dari hasil yang sukses tetapi juga dari seluruh proses pemecahan masalah, termasuk bagaimana mengadaptasi strategi dan memulihkan kegagalan selama pelaksanaan kolaboratif,” tulis para peneliti.

Lemmy sedang bekerja

Untuk menguji kerangka kerja mereka, tim mengevaluasi model sebuah agensistandar yang dirancang untuk mengukur keterampilan agen, serta standar modifikasi lainnya untuk penggunaan alat dan pengkodean.

Mereka menangkapnya GLM-4.5model sumber terbuka yang tangguh, menggunakan kumpulan data 78 sampel dan membandingkan kinerjanya dengan beberapa model parametrik, termasuk GLM-4.5 dasar, Seperti instruksi K2Dan Pencarian Mendalam-V3.1. Model yang dilatih di Limi memperoleh skor rata-rata 73,5% di AgencyBench, secara signifikan mengungguli semua model dasar, model terbaik (GLM-4.5) memperoleh skor 45,1%.

Keunggulan ini diperluas ke tolok ukur lain yang mencakup penggunaan alat, pengkodean, dan komputasi ilmiah, di mana Limi juga mengungguli semua tolok ukur dasar.

Yang terpenting, penelitian ini menunjukkan bahwa model yang dilatih dengan hanya 78 contoh mengungguli model yang dilatih dengan 10.000 sampel dari kumpulan data lain, yang dikirimkan Performa unggul dengan data 128 kali lebih sedikit.

“Penemuan ini secara mendasar mendefinisikan kembali bagaimana sistem AI otonom dikembangkan, menunjukkan bahwa penguasaan agensi memerlukan pemahaman tentang esensinya, bukan penskalaan data pelatihan,” tulis para peneliti. “Seiring dengan peralihan industri dari pemikiran AI ke AI, Limi memberikan model untuk pengembangan berkelanjutan dari kecerdasan yang benar-benar berfungsi.”

Para peneliti mengeluarkan Simbol Untuk sintesis dan pelatihan data Bobot yang khas. Bagi perusahaan, pendekatan ini memberikan jalan praktis menuju pengembangan agen AI yang sangat terspesialisasi.

Daripada melakukan proyek pengumpulan data besar-besaran, organisasi dapat memanfaatkan talenta internal dan pakar di bidangnya untuk membuat kumpulan data kecil dan berkualitas tinggi untuk tugas agen khusus. Hal ini menurunkan hambatan masuk dan memungkinkan perusahaan menciptakan agen AI khusus yang dapat memberikan keunggulan kompetitif pada alur kerja yang paling penting bagi mereka.

Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version