Berita
ACE mencegah keruntuhan konteks dengan menggunakan “aturan main yang terus berkembang” untuk agen AI yang dapat mengembangkan dirinya sendiri
Bingkai baru dari Universitas Stanford Dan Samba Nova Hal ini menjawab tantangan penting dalam membangun agen AI yang kuat: rekayasa konteks. Bernama Rekayasa konteks proxy (ACE), kerangka kerja secara otomatis mengisi dan memodifikasi jendela konteks aplikasi model bahasa besar (LLM) dengan memperlakukannya sebagai “buku pedoman yang berkembang” yang menciptakan dan mengoptimalkan strategi seiring dengan bertambahnya pengalaman agen di lingkungannya.
ACE dirancang untuk mengatasi keterbatasan utama kerangka rekayasa konteks lainnya, mencegah konteks model menurun seiring dengan semakin banyaknya informasi yang terakumulasi. Eksperimen menunjukkan bahwa ACE meningkatkan perintah sistem dan manajemen memori proxy, mengungguli metode lain sekaligus jauh lebih efisien.
Tantangan rekayasa konteks
Aplikasi AI tingkat lanjut yang menggunakan LLM sangat bergantung pada… "beradaptasi dengan konteksnya," Atau rancang konteks untuk memandu perilaku mereka. Alih-alih proses pelatihan ulang atau peningkatan model yang mahal, pengembang menggunakan LLM Kemampuan belajar dalam konteks Untuk mengarahkan perilakunya dengan memodifikasi perintah masukan dengan instruksi spesifik, langkah penalaran, atau pengetahuan khusus domain. Informasi tambahan ini biasanya diperoleh ketika agen berinteraksi dengan lingkungannya dan mengumpulkan data dan pengalaman baru. Tujuan utama rekayasa konteks adalah untuk mengatur informasi baru ini sedemikian rupa sehingga meningkatkan kinerja model dan mencegahnya menjadi berlebihan. Pendekatan ini telah menjadi paradigma utama untuk membangun sistem AI yang mampu, terukur, dan dapat berkembang dengan sendirinya.
Rekayasa konteks memiliki banyak keuntungan untuk aplikasi perusahaan. Konteks dapat ditafsirkan oleh pengguna dan pengembang, dapat diperbarui dengan pengetahuan baru saat runtime, dan dapat dibagikan ke berbagai model. Rekayasa konteks juga mendapat manfaat dari perkembangan berkelanjutan dalam perangkat keras dan perangkat lunak, misalnya Peningkatan jendela konteks LLM dan teknik inferensi yang efisien seperti caching langsung dan konteks.
Ada banyak teknik rekayasa konteks otomatis, namun kebanyakan dari mereka menghadapi dua kelemahan utama. Yang pertama adalah “bias singkat”, yaitu metode perbaikan yang cepat cenderung lebih mengutamakan instruksi yang singkat dan umum dibandingkan instruksi yang komprehensif dan terperinci. Hal ini dapat menurunkan kinerja di domain yang kompleks.
Masalah kedua adalah yang paling serius "Keruntuhan konteks." Ketika seorang LLM ditugaskan untuk berulang kali menulis ulang seluruh akumulasi konteksnya, dia dapat menderita semacam amnesia digital.
“Apa yang kami sebut ‘keruntuhan konteks’ terjadi ketika AI mencoba menulis ulang atau memampatkan semua yang telah dipelajarinya ke dalam satu salinan vektor atau memori baru,” kata para peneliti dalam komentar tertulisnya kepada VentureBeat. “Seiring waktu, proses penulisan ulang menghapus detail-detail penting – seperti penimpaan dokumen berkali-kali hingga catatan penting hilang. Dalam sistem yang berhubungan dengan pelanggan, hal ini dapat berarti bahwa agen pendukung tiba-tiba kehilangan kesadaran akan interaksi sebelumnya… menyebabkan perilaku yang tidak menentu atau tidak konsisten.”
Para peneliti berargumentasi bahwa “konteks tidak boleh berfungsi sebagai ringkasan yang ringkas, melainkan sebagai panduan yang komprehensif dan terus berkembang – terperinci, komprehensif, dan kaya akan wawasan lapangan.” Pendekatan ini dibangun berdasarkan kekuatan LLM modern, yang secara efektif dapat mengekstraksi relevansi dari konteks yang panjang dan terperinci.
Cara kerja Agen Konteks Rekayasa (ACE).
ACE adalah kerangka kerja untuk adaptasi konteks komprehensif, yang dirancang untuk tugas offline, misalnya Optimalisasi sistem instan,Skenario online, seperti pembaruan memori waktu nyata untuk klien. Daripada memampatkan informasi, ACE memperlakukan konteks sebagai panduan dinamis yang mengumpulkan dan mengatur strategi dari waktu ke waktu.
Kerangka kerja ini membagi pekerjaan menjadi tiga peran khusus: generator, reflektor, dan koordinator. Desain modular ini terinspirasi oleh “cara manusia belajar – bereksperimen, berefleksi, dan mengintegrasikan – sambil menghindari hambatan yang membebani satu model dengan semua tanggung jawabnya,” menurut makalah tersebut.
Alur kerja dimulai dengan generator, yang menghasilkan jalur logis ke perintah masukan, menyoroti strategi efektif dan kesalahan umum. Reflektor kemudian menganalisis jalur ini untuk mengambil pelajaran penting. Terakhir, koordinator menyusun pembelajaran ini ke dalam pembaruan yang terkonsolidasi dan mengintegrasikannya ke dalam manual pengoperasian yang ada.
Untuk mencegah keruntuhan konteks dan bias singkatnya, ACE menyertakan dua prinsip desain utama. Pertama, ia menggunakan pembaruan tambahan. Konteks direpresentasikan sebagai serangkaian poin yang terorganisir dan terperinci, bukan satu blok teks. Hal ini memungkinkan ACE membuat perubahan terperinci dan mengambil informasi paling relevan tanpa menulis ulang seluruh konteks.
Kedua, ACE menggunakan mekanisme “tumbuh dan berkembang”. Saat eksperimen baru dikumpulkan, poin baru ditambahkan ke Playbook dan eksperimen yang ada diperbarui. Langkah deduplikasi secara teratur menghapus entri duplikat, memastikan bahwa konteksnya tetap komprehensif namun relevan dan kompak dari waktu ke waktu.
As di tempat kerja
Para peneliti mengevaluasi ACE berdasarkan dua jenis tugas yang memanfaatkan konteks yang berkembang: tolok ukur agen yang memerlukan penalaran multi-turn dan penggunaan alat, dan tolok ukur analisis keuangan khusus domain yang memerlukan pengetahuan khusus. Bagi industri berisiko tinggi seperti keuangan, manfaatnya lebih dari sekadar kinerja semata. Seperti yang dikatakan para peneliti, kerangka kerja ini “jauh lebih transparan: petugas kepatuhan benar-benar dapat membaca apa yang telah dipelajari AI, disimpan dalam teks yang dapat dibaca manusia daripada disembunyikan dalam miliaran parameter.”
Hasilnya menunjukkan bahwa ACE secara konsisten mengungguli baseline yang kuat, misalnya Sebuah saku dan pembelajaran klasik dalam konteks, mencapai peningkatan kinerja rata-rata sebesar 10,6% pada tugas agen dan 8,6% pada tolok ukur khusus domain dalam pengaturan online dan offline.
Yang paling penting, ACE dapat membangun konteks yang efektif dengan menganalisis umpan balik dari prosedur dan lingkungannya dibandingkan memerlukan data yang dipilah secara manual. Peneliti mengemukakan bahwa kemampuan ini adalah a "Komponen kunci pengembangan diri untuk LLM dan agen." Di depan umum Dunia aplikasi Sebuah benchmark yang dirancang untuk mengevaluasi sistem proxy, sebuah proxy yang menggunakan ACE dengan model open source yang lebih kecil (DeepSeek-V3.1) cocok dengan kinerja peringkat tertinggi, Agen bertenaga GPT-4.1 Rata-rata dan melampauinya dalam rangkaian tes tersulit.
Kesimpulan perusahaan sangat bagus. “Ini berarti bahwa perusahaan tidak harus bergantung pada model kepemilikan yang besar untuk tetap kompetitif,” kata tim peneliti. “Mereka dapat menerapkan model lokal, melindungi data sensitif, dan tetap mendapatkan hasil tingkat tinggi dengan terus meningkatkan konteks daripada melatih ulang bobot.”
Selain akurasi, ACE terbukti sangat efisien. Metode ini beradaptasi dengan tugas-tugas baru dengan latensi rata-rata 86,9% lebih rendah dibandingkan metode yang ada dan memerlukan lebih sedikit langkah dan kode. Para peneliti menunjukkan bahwa efisiensi ini menunjukkan bahwa “perbaikan diri yang terukur dapat dicapai dengan akurasi yang lebih tinggi dan biaya yang lebih rendah.”
Bagi organisasi yang peduli dengan biaya inferensi, para peneliti menunjukkan bahwa konteks yang lebih panjang yang dihasilkan oleh ACE tidak berarti biaya yang relatif lebih tinggi. Infrastruktur layanan modern semakin dioptimalkan untuk beban kerja konteks panjang menggunakan teknik seperti penggunaan kembali cache KV, kompresi, dan pembongkaran, yang menghilangkan biaya penanganan konteks ujung ke ujung.
Pada akhirnya, ACE menunjuk pada masa depan dimana sistem AI bersifat dinamis dan terus berkembang. "Saat ini, para insinyur AI hanya dapat memperbarui model, namun rekayasa konteks membuka pintu bagi para ahli domain—pengacara, analis, dan dokter—untuk secara langsung membentuk apa yang diketahui AI dengan membebaskan aturan main kontekstualnya." Kata para peneliti. Hal ini juga membuat tata kelola menjadi lebih praktis. "Penghentian pembelajaran secara selektif menjadi lebih mudah dilakukan: jika suatu informasi sudah usang atau sensitif secara hukum, informasi tersebut dapat dengan mudah dihapus atau diganti sesuai konteksnya, tanpa melatih ulang modelnya.