Berita
Kerangka kerja memori baru membangun agen AI yang dapat menangani ketidakpastian di dunia nyata
Peneliti di Universitas Illinois Urbana-Champaign Dan Riset AI Google Cloud Dia mengembangkan kerangka kerja yang memungkinkan agen Model Bahasa Besar (LLM) untuk mengatur pengalaman mereka ke dalam bank memori, membantu mereka menjadi lebih baik dalam tugas-tugas kompleks dari waktu ke waktu.
Bingkai, disebut Bank Penalaranmengekstrak “strategi inferensi yang dapat digeneralisasikan” dari upaya agen yang berhasil dan gagal dalam memecahkan masalah. Agen kemudian menggunakan memori ini selama penalaran untuk menghindari pengulangan kesalahan masa lalu dan membuat keputusan yang lebih baik ketika menghadapi masalah baru. Para peneliti menunjukkan bahwa ketika dikombinasikan dengan… Teknik pengukuran waktu tes,Ketika seorang agen melakukan beberapa upaya untuk memecahkan suatu masalah, ReasoningBank, secara signifikan meningkatkan kinerja dan efisiensi agen LLM.
Temuan mereka menunjukkan bahwa ReasoningBank secara konsisten mengungguli mekanisme memori klasik di seluruh penelusuran web dan tolok ukur rekayasa perangkat lunak, sehingga memberikan jalur praktis untuk membangun agen AI yang lebih adaptif dan andal untuk aplikasi perusahaan.
Tantangan memori agen LLM
Saat agen LLM dikerahkan dalam aplikasi yang berjalan dalam jangka waktu lama, mereka dihadapkan pada serangkaian tugas yang konstan. Keterbatasan utama LLM saat ini adalah kegagalan mereka untuk belajar dari akumulasi pengalaman ini. Dengan melakukan setiap tugas secara individual, mereka pasti akan mengulangi kesalahan masa lalu, mengabaikan wawasan berharga dari masalah terkait, dan gagal mengembangkan keterampilan yang akan membuat mereka lebih mampu seiring berjalannya waktu.
Solusi terhadap keterbatasan ini adalah dengan memberikan agen semacam memori. Upaya sebelumnya untuk memberikan memori kepada agen berfokus pada penyimpanan interaksi masa lalu untuk digunakan kembali dengan mengatur informasi dalam berbagai bentuk mulai dari teks biasa hingga grafik terstruktur. Namun, cara-cara ini sering kali gagal. Banyak dari mereka menggunakan log interaksi mentah atau hanya menyimpan contoh tugas yang berhasil. Ini berarti bahwa mereka tidak dapat mengekstraksi pola pikir tingkat tinggi yang dapat ditransfer dan, yang lebih penting, mereka tidak mengekstraksi dan menggunakan informasi berharga dari kegagalan agen. Seperti yang dicatat oleh para peneliti dalam makalah mereka, “Desain memori saat ini sering kali masih terbatas pada pencatatan pasif daripada memberikan pedoman yang dapat ditindaklanjuti dan digeneralisasikan untuk pengambilan keputusan di masa depan.”
Bagaimana cara kerja Bank Penalaran?
ReasoningBank adalah kerangka memori yang dirancang untuk mengatasi keterbatasan ini. Ide utamanya adalah mengekstraksi strategi berguna dan petunjuk logis dari pengalaman masa lalu dan mengubahnya menjadi elemen memori terstruktur yang dapat disimpan dan digunakan kembali.
Menurut Jun Yan, seorang ilmuwan riset di Google dan salah satu penulis makalah ini, hal ini menunjukkan perubahan mendasar dalam cara kerja agen. "Agen tradisional beroperasi secara statis, dengan setiap tugas diproses secara individual." Yan menjelaskan. "ReasoningBank mengubahnya dengan mengubah setiap pengalaman penting (berhasil atau gagal) menjadi memori penalaran yang terorganisir dan dapat digunakan kembali. Akibatnya, agen tidak memulai dari awal dengan setiap klien; Ia mengingat dan mengadaptasi strategi yang telah terbukti dari situasi serupa sebelumnya."
Kerangka kerja ini membahas pengalaman keberhasilan dan kegagalan dan mengubahnya menjadi serangkaian strategi yang berguna dan pembelajaran pencegahan. Agen menilai keberhasilan dan kegagalan berdasarkan… LLM berencana sebagai juri Untuk menghindari perlunya pelabelan manusia.
Yan memberikan contoh praktis penerapan proses ini. Dealer yang bertugas menemukan headphone Sony mungkin gagal karena kueri penelusuran luas mereka menampilkan lebih dari 4.000 produk yang tidak terkait. "ReasoningBank pertama-tama akan mencoba mencari tahu mengapa pendekatan ini gagal," kata Yan. "Kemudian, strategi seperti “memperbaiki permintaan pencarian Anda” dan “membatasi produk ke filter kategori” akan diekstraksi. Strategi-strategi ini akan sangat berguna untuk berhasil menyelesaikan tugas serupa di masa depan."
Prosesnya bekerja dalam loop tertutup. Saat agen menghadapi tugas baru, agen menggunakan pencarian berbasis penyematan untuk mengambil memori yang relevan dari ReasoningBank untuk memandu tindakannya. Kenangan ini dimasukkan ke dalam sistem prompt klien, memberikan konteks untuk proses pengambilan keputusan. Setelah tugas selesai, kerangka kerja membuat elemen memori baru untuk mengekstraksi wawasan dari keberhasilan dan kegagalan. Pengetahuan baru ini kemudian dianalisis, disaring, dan diintegrasikan ke dalam ReasoningBank, memungkinkan agen untuk terus berkembang dan meningkatkan kemampuannya.
Bebaskan memori dengan penskalaan
Para peneliti telah menemukan sinergi yang kuat antara memori dan… Menskalakan waktu tes. Pengukuran waktu pengujian klasik melibatkan menghasilkan beberapa jawaban independen terhadap pertanyaan yang sama, namun para peneliti berpendapat bahwa “format vanilla ini kurang optimal karena tidak memanfaatkan sinyal diferensial bawaan yang muncul dari eksplorasi berlebihan pada masalah yang sama.”
Untuk mengatasi masalah ini, mereka mengusulkan Memory-Aware Test Time Scale (MaTTS), yang mengintegrasikan pengukuran tersebut dengan ReasoningBank. MaTTS hadir dalam dua bentuk. Dalam “penskalaan paralel”, sistem membuat beberapa jalur ke kueri yang sama, lalu membandingkan dan membedakannya untuk mengidentifikasi pola penalaran yang konsisten. Dalam penskalaan sekuensial, agen meningkatkan penalarannya secara berulang-ulang dalam satu upaya, dengan umpan balik dan koreksi perantara juga berfungsi sebagai isyarat memori yang berharga.
Hal ini menciptakan lingkaran yang baik: memori di ReasoningBank mengarahkan agen menuju solusi yang lebih menjanjikan, sementara beragam pengalaman yang dihasilkan melalui ekspansi memungkinkan agen menciptakan memori berkualitas lebih tinggi untuk disimpan di ReasoningBank.
“Umpan balik positif ini memposisikan perluasan pengalaman berbasis memori sebagai dimensi pengukuran baru bagi agen,” tulis para peneliti.
ReasoningBank beraksi
Para peneliti menguji kerangka kerja mereka jaring (menjelajahi web) dan SWE-Bench Terverifikasi (Rekayasa Perangkat Lunak) menggunakan model seperti Google Gemini 2.5 Pro dan Claude 3.7 Sonnet dari Anthropic. Mereka membandingkan ReasoningBank dengan baseline termasuk agen bebas memori dan agen yang menggunakan kerangka memori berbasis jalur atau alur kerja.
Hasilnya menunjukkan bahwa ReasoningBank secara konsisten mengungguli baseline ini di seluruh dataset dan tulang punggung LLM. Di WebArena, ini meningkatkan tingkat keberhasilan keseluruhan hingga 8,3 poin persentase dibandingkan dengan proxy bebas memori. Mereka juga menggeneralisasi tugas-tugas multi-domain yang lebih sulit dengan lebih baik, sekaligus mengurangi jumlah langkah interaksi yang diperlukan untuk menyelesaikan tugas-tugas tersebut. Ketika dikombinasikan dengan MaTTS, benchmarking paralel dan serial meningkatkan kinerja, secara konsisten mengungguli benchmark waktu pengujian standar.
Peningkatan efisiensi ini berdampak langsung pada biaya operasional. Yan menunjuk pada kasus di mana agen bebas memori mengambil delapan langkah coba-coba hanya untuk menemukan kandidat produk yang tepat di situs web. "Biaya coba-coba ini dapat dihindari dengan memanfaatkan wawasan yang relevan dari ReasoningBank," Dia menunjukkan. "Dalam hal ini, kami menghemat hampir dua kali lipat biaya pengoperasian," Yang juga meningkatkan pengalaman pengguna dengan menyelesaikan masalah lebih cepat.
Untuk perusahaan, ReasoningBank dapat membantu mengembangkan agen hemat biaya yang dapat belajar dari pengalaman dan beradaptasi seiring waktu dalam alur kerja dan bidang yang kompleks seperti pengembangan perangkat lunak, dukungan pelanggan, dan analisis data. Penelitian ini menyimpulkan, “Temuan kami menunjukkan jalan praktis menuju pembangunan ketahanan dan pembelajaran seumur hidup.”
Yan menekankan bahwa temuan mereka menunjukkan masa depan kecerdasan sintetik yang sebenarnya. Misalnya, agen pengkodean dapat mempelajari keterampilan terpisah seperti integrasi API dan administrasi basis data dari tugas terpisah. "Seiring waktu, keterampilan modular ini…menjadi elemen penyusun yang dapat disusun kembali secara fleksibel oleh agen untuk menyelesaikan tugas yang lebih kompleks," katanya, menunjukkan masa depan di mana agen dapat secara mandiri mengumpulkan pengetahuan mereka untuk mengelola seluruh alur kerja dengan pengawasan manusia yang minimal.