Berita
EAGLET meningkatkan kinerja agen AI pada misi jangka panjang dengan membuat rencana yang disesuaikan
Seharusnya tahun 2025 tahun "agen kecerdasan buatan," Menurut CEO Nvidia Jensen Huang, dan lainnya di industri AI. Dalam banyak hal, hal ini telah terjadi, dengan banyak penyedia model AI terkemuka seperti OpenAI, Google, dan bahkan pesaing Tiongkok seperti Alibaba merilis model atau aplikasi AI terperinci yang dirancang untuk fokus pada serangkaian tugas sempit, seperti penelusuran web dan penulisan laporan.
Namun masih ada rintangan besar bagi masa depan agen AI yang berkinerja tinggi dan andal: meyakinkan mereka untuk tetap mengerjakan tugas ketika tugas tersebut mencakup beberapa langkah. Tes benchmark pihak ketiga Hal ini menunjukkan bahwa model AI yang paling kuat pun mengalami tingkat kegagalan yang lebih tinggi, semakin banyak langkah yang mereka ambil untuk menyelesaikan suatu tugas, dan semakin banyak waktu yang mereka habiskan untuk mengerjakannya (di luar jam kerja).
A Kerangka akademik baru yang disebut EAGLET Ini mengusulkan cara praktis dan efektif untuk meningkatkan kinerja tugas jangka panjang di agen berbasis LLM – tanpa memerlukan klasifikasi data manual atau pelatihan ulang.
Ini dikembangkan oleh para peneliti dari Universitas Tsinghua, Universitas Peking, DeepLang AI, dan Universitas Illinois Urbana-Champaign. Anak Garuda menawarkan a "Grafik global" Yang dapat diintegrasikan ke dalam alur kerja agen yang ada untuk mengurangi halusinasi dan meningkatkan efisiensi tugas.
EAGLET adalah model bahasa yang disempurnakan yang menafsirkan instruksi tugas—biasanya disajikan sebagai perintah oleh pengguna atau lingkungan operasi agen—dan menghasilkan rencana tingkat tinggi untuk agen (didukung oleh LLM-nya). Dia tidak melakukan intervensi selama implementasi, namun panduan awal yang diberikannya membantu mengurangi kesalahan perencanaan dan meningkatkan tingkat penyelesaian tugas.
Mengatasi masalah perencanaan pada agen jangka panjang
Banyak agen berbasis LLM kesulitan menyelesaikan tugas jangka panjang karena mereka mengandalkan pemikiran reaktif dan langkah demi langkah. Pendekatan ini sering kali mengarah pada perilaku coba-coba, perencanaan halusinasi, dan tindakan yang tidak efektif.
EAGLET mengatasi keterbatasan ini dengan memperkenalkan a Unit Perencanaan Global Yang bekerja sama dengan agen pelabuhan.
Daripada menggabungkan perencanaan dan pembangkitan pekerjaan ke dalam satu model, EAGLET memisahkan keduanya, sehingga memungkinkan strategi tingkat tugas yang lebih kohesif.
Pipeline pelatihan dua tahap tanpa anotasi manusia
Perencana EAGLET dilatih menggunakan proses dua tahap dan tidak memerlukan rencana atau anotasi yang ditulis manusia.
Fase pertama melibatkan pembuatan rencana sintesis dengan LLM berkemampuan tinggi, seperti GPT-5 dan DeepSeek-V3.1-Think.
Rencana-rencana ini kemudian disaring menggunakan strategi baru yang disebut pemfilteran konsensus simetris, yang hanya mempertahankan rencana-rencana yang meningkatkan kinerja tugas untuk agen eksekusi ahli dan pemula.
Pada tahap kedua, proses pembelajaran penguatan berbasis aturan menyempurnakan rencana lebih lanjut, menggunakan fungsi penghargaan yang dirancang khusus untuk mengevaluasi seberapa baik setiap rencana membantu keberhasilan banyak agen.
Memperkenalkan Bonus Peningkatan Kapasitas Ekspor (ECGR)
Salah satu inovasi utama EAGLET adalah Port Capability Gain Bonus (ECGR).
Imbalan ini mengukur nilai rencana yang dibuat dengan memeriksa apakah rencana tersebut membantu agen berkemampuan tinggi dan rendah untuk menyelesaikan tugas dengan lebih berhasil dan dengan langkah yang lebih sedikit.
Hal ini juga mencakup faktor pembusukan yang mendukung jalur misi yang lebih pendek dan efisien. Pendekatan ini menghindari pemberian imbalan berlebihan yang hanya berguna bagi agen yang sudah kompeten dan mendukung panduan perencanaan yang lebih umum.
Kompatibel dengan dealer dan model saat ini
Bagan EAGLET dirancang bersifat modular dan "pasang dan mainkan," Artinya, ini dapat dimasukkan ke dalam saluran proxy yang ada tanpa harus melatih ulang eksekutornya.
Dalam evaluasinya, skema ini meningkatkan kinerja di berbagai model dasar, termasuk GPT-4.1, GPT-5, Llama-3.1, dan Qwen2.5.
Ini juga terbukti efektif terlepas dari strategi stimulasinya, bekerja dengan baik dengan perintah standar gaya ReAct serta metode seperti Reflexion.
Performa mutakhir di seluruh tolok ukur
EAGLET telah diuji pada tiga tolok ukur yang banyak digunakan untuk tugas agen jangka panjang: ScienceWorld, yang mensimulasikan eksperimen ilmiah dalam lingkungan laboratorium berbasis teks; ALFWorld, yang menugaskan agen untuk menyelesaikan aktivitas rumah tangga melalui bahasa alami di lingkungan simulasi rumah; dan WebShop, yang menilai perilaku yang diarahkan pada tujuan dalam antarmuka belanja online yang realistis.
Di ketiga domain tersebut, agen implementasi yang dilengkapi EAGLET mengungguli agen implementasi non-perencanaan dan baseline perencanaan lainnya, termasuk MPO dan KnowAgent.
Dalam eksperimen yang dilakukan pada model Llama-3.1-8B-Instruct open source, EAGLET meningkatkan kinerja rata-rata dari 39,5 menjadi 59,4, peningkatan sebesar +19,9 poin di seluruh tugas.
Dalam skenario ScienceWorld yang belum terlihat, kinerja meningkat dari 42,2 menjadi 61,6.
Dalam skenario yang dilihat oleh ALFWorld, EAGLET meningkatkan skor dari 22,9 menjadi 54,3, peningkatan kinerja lebih dari 2,3x.
Peningkatan yang lebih kuat terlihat pada model yang lebih mumpuni.
Misalnya, GPT-4.1 meningkat dari rata-rata 75,5 menjadi 82,2 dengan EAGLET, dan GPT-5 meningkat dari 84,5 menjadi 88,1, meskipun performanya sudah kuat.
Pada beberapa benchmark, peningkatan performa mencapai +11,8 poin, seperti saat menggabungkan EAGLET dengan metode port ETO dalam misi tak terlihat ALFWorld.
Dibandingkan dengan dasar perencanaan lainnya seperti MPO, EAGLET secara konsisten memberikan tingkat penyelesaian tugas yang lebih tinggi. Misalnya, dalam tugas tak terlihat ALFWorld menggunakan GPT-4.1, MPO mencapai 79,1, sementara EAGLET mencetak 83,6 – keunggulan +4,5 poin.
Selain itu, makalah ini menunjukkan bahwa agen yang menggunakan EAGLET rata-rata menyelesaikan tugas dalam langkah yang lebih sedikit. Menggunakan GPT-4.1 sebagai port, jumlah hop rata-rata menurun dari 13,0 (tanpa skema) menjadi 11,1 (EAGLET). Dengan GPT-5, angkanya menurun dari 11,4 menjadi 9,4, yang mendukung klaim peningkatan efisiensi implementasi.
Peningkatan efisiensi dalam pelatihan dan implementasi
Dibandingkan dengan metode berbasis RL seperti GiGPO, yang memerlukan ratusan iterasi pelatihan, EAGLET mencapai hasil yang lebih baik atau sebanding dengan sekitar seperdelapan upaya pelatihan.
Efisiensi ini juga diterapkan pada eksekusi: agen yang menggunakan EAGLET biasanya memerlukan lebih sedikit langkah untuk menyelesaikan tugas. Hal ini berarti berkurangnya waktu inferensi dan penghitungan biaya dalam skenario produksi.
Belum ada hukum umum
Pada versi yang dikirimkan ke arXiv, penulis belum merilis implementasi EAGLET open source. Tidak jelas apakah atau kapan kode tersebut akan dirilis, di bawah lisensi apa, atau bagaimana kode tersebut akan dipelihara, yang mungkin membatasi kegunaan kerangka kerja ini untuk penerapan di perusahaan dalam waktu dekat.
VentureBeat telah menghubungi penulis untuk mengklarifikasi poin-poin ini dan akan memperbarui artikel ini ketika kami mendengarnya kembali.
Masih ada pertanyaan mengenai penerapan di tingkat perusahaan
Meskipun skema ini digambarkan sebagai perangkat lunak plug-and-play, masih belum jelas apakah EAGLET dapat dengan mudah diintegrasikan ke dalam kerangka agen perusahaan populer seperti LangChain atau AutoGen, atau apakah memerlukan tumpukan khusus untuk mendukung pemisahan eksekusi skema.
Demikian pula, pengaturan pelatihan memanfaatkan beberapa agen implementasi, yang mungkin sulit untuk direplikasi di lingkungan perusahaan dengan akses terbatas terhadap model tersebut. VentureBeat bertanya kepada para peneliti apakah metode penyaringan konsensus dapat diadaptasi untuk tim yang hanya memiliki akses ke model pelaksana tunggal atau sumber daya komputasi yang terbatas.
Para penulis EAGLET melaporkan keberhasilan di seluruh jenis dan ukuran model, namun belum diketahui skala model minimum yang layak untuk penerapan praktis. Misalnya, dapatkah tim perusahaan menggunakan skema dengan model terbuka subparameter 10B secara efektif di lingkungan yang sensitif terhadap latensi? Selain itu, kerangka kerja ini dapat memberikan nilai spesifik industri di berbagai bidang seperti dukungan pelanggan atau otomatisasi TI, namun masih harus dilihat betapa mudahnya skema ini dapat disesuaikan atau disesuaikan untuk sektor-sektor tersebut.
Perencanaan waktu nyata versus perencanaan yang dibuat sebelumnya
Pertanyaan terbuka lainnya adalah bagaimana EAGLET diterapkan dengan baik dalam praktik. Haruskah perencana waktu nyata bekerja bersama pelaksana dalam satu lingkaran, atau lebih baik menggunakannya secara offline untuk membuat rencana global terlebih dahulu untuk jenis tugas yang diketahui? Setiap pendekatan mempunyai implikasi terhadap waktu akses, biaya, dan kompleksitas operasional. VentureBeat telah mengajukan pertanyaan ini kepada penulis dan akan melaporkan kembali setiap ide yang muncul.
Pertukaran strategis untuk tim perusahaan
Bagi para pemimpin teknis di organisasi menengah hingga besar, EAGLET mewakili bukti konsep yang meyakinkan untuk meningkatkan keandalan dan efisiensi agen LLM. Namun tanpa alat atau pedoman implementasi yang umum, kerangka kerja ini masih memberikan keputusan membangun versus menunggu. Perusahaan harus mempertimbangkan potensi keuntungan dalam kinerja dan efisiensi tugas dibandingkan dengan biaya untuk mereproduksi atau memperkirakan proses pelatihan internal.
Kasus penggunaan potensial di lingkungan perusahaan
Untuk organisasi yang mengembangkan sistem AI yang efektif — terutama di lingkungan yang memerlukan perencanaan berjenjang, seperti otomatisasi TI, dukungan pelanggan, atau interaksi online — EAGLET menawarkan model cara menggabungkan perencanaan tanpa pelatihan ulang. Kemampuannya untuk menjalankan model sumber terbuka dan tertutup, ditambah dengan pendekatan pelatihan yang efisien, dapat menjadikannya titik awal yang menarik bagi tim yang ingin meningkatkan kinerja agen dengan overhead minimal.