Berita
Di Bawah Terpal Agen AI: Panduan Teknologi Menuju Frontier Generasi AI Berikutnya
Agen adalah topik paling trendi dalam AI saat ini, dan untuk alasan yang bagus. Agen AI bertindak atas nama penggunanya, secara mandiri menangani tugas-tugas seperti melakukan pembelian online, membuat perangkat lunak, meneliti tren bisnis, atau memesan perjalanan. Dengan mengeluarkan AI generatif dari antarmuka obrolan dan memungkinkannya bertindak langsung terhadap dunia, AI agen mewakili lompatan maju dalam kekuatan dan kegunaan AI. Membawa AGI keluar dari sandbox yang dilindungi pada antarmuka obrolan dan memungkinkannya bertindak langsung di dunia merupakan lompatan maju dalam kekuatan dan kegunaan AI.
Agen AI telah berkembang sangat cepat: misalnya, salah satu elemen penyusun agen saat ini, Model Context Protocol (MCP), baru berusia satu tahun! Seperti halnya bidang yang bergerak cepat, terdapat banyak definisi yang saling bersaing, opini yang memanas, dan opini yang salah arah.
Untuk mengatasi hype tersebut, saya ingin menjelaskan komponen dasar sistem AI agen dan bagaimana komponen tersebut cocok satu sama lain: Sebenarnya tidak serumit kelihatannya. Semoga setelah Anda selesai membaca postingan ini, pelanggan tidak terkesan misterius.
Ekosistem agen
Ada banyak definisi dari kata “agen”, tapi saya menyukai sedikit variasi pada konsep sederhana programmer Inggris Simon Willison:
Agen LLM menjalankan alat dalam satu lingkaran untuk mencapai tujuan.
Model bahasa besar (LLM) mengarahkan pengguna dengan tujuan: misalnya, memesan meja di restoran dekat teater tertentu. Seiring dengan tujuannya, model menerima daftar alat yang tersedia, seperti database lokasi restoran atau catatan preferensi makanan pengguna. Model tersebut kemudian merencanakan cara mencapai tujuan dan memanggil salah satu alat yang memberikan respons; Formulir tersebut kemudian memanggil alat baru. Melalui pengulangan, agen bergerak menuju pencapaian tujuan. Dalam beberapa kasus, opsi pemformatan dan tata letak formulir dilengkapi atau ditingkatkan dengan kode penting.
Namun infrastruktur seperti apa yang diperlukan untuk mencapai pendekatan ini? Sistem proxy memerlukan beberapa komponen dasar:
-
cara untuk Bangun agennya. Saat Anda menerapkan proxy, Anda tidak ingin membuat kode dari awal. Ada banyak kerangka pengembangan agen.
-
suatu tempat ke Jalankan model kecerdasan buatan. Pengembang AI berpengalaman dapat mengunduh LLM open-weight, namun dibutuhkan pengalaman untuk melakukannya dengan benar. Hal ini juga memerlukan perangkat keras mahal yang tidak akan dimanfaatkan dengan baik oleh rata-rata pengguna.
-
suatu tempat ke Jalankan kode proksi. Dengan menggunakan kerangka kerja yang ada, pengguna membuat kode untuk objek proxy dengan serangkaian fungsi yang ditentukan. Sebagian besar pekerjaan ini melibatkan pengiriman perintah ke model AI, tetapi kodenya harus dijalankan di suatu tempat. Dalam praktiknya, sebagian besar agen akan berjalan di cloud, karena kami ingin agen tersebut tetap berjalan saat laptop kami dimatikan, dan kami ingin agen tersebut meningkatkan skala dan melakukan pekerjaan mereka.
-
Mekanisme penerjemahan antara berbasis teks dan LLM Panggilan alat.
-
A jangka pendek ingatan Untuk melacak konten interaksi agen.
-
A Memori jangka panjang Untuk melacak preferensi dan minat pengguna di seluruh sesi.
-
cara untuk Trek Implementasi sistem, untuk mengevaluasi kinerja agen.
Mari selami lebih detail tentang masing-masing bahan ini.
Bangun agen
Meminta LLM untuk menjelaskan bagaimana dia berencana melakukan pendekatan terhadap tugas tertentu akan meningkatkan kinerjanya pada tugas tersebut. “Penalaran berantai” ini sekarang ada di mana-mana dalam AI.
Analog dalam sistem agen adalah model ReAct (inferensi + tindakan), di mana agen memiliki ide (“Saya akan menggunakan fungsi peta untuk menemukan restoran terdekat”), melakukan tindakan (mengeluarkan panggilan API ke fungsi peta), dan kemudian melakukan observasi (“Ada dua restoran pizza dan satu restoran India dalam dua blok dari bioskop”).
ReAct bukan satu-satunya cara untuk membangun agen, namun merupakan inti dari sebagian besar sistem agen yang sukses. Saat ini, proxy biasanya merupakan loop overhead Pikiran, tindakan dan observasi urutan.
Alat yang tersedia untuk agen dapat mencakup alat lokal dan alat jarak jauh seperti database, layanan mikro, dan SaaS. Spesifikasi alat ini mencakup penjelasan bahasa alami tentang bagaimana dan kapan menggunakannya serta sintaksis panggilan API-nya.
Pengembang juga dapat meminta agen untuk membuat alatnya sendiri dengan cepat. Misalkan sebuah alat mengambil tabel yang disimpan sebagai teks yang dipisahkan koma, dan untuk mencapai tujuannya, agen perlu mengurutkan tabel tersebut.
Menyortir tabel dengan mengirimkannya berulang kali melalui LLM dan mengevaluasi hasilnya akan membuang-buang sumber daya – bahkan tidak ada jaminan untuk memberikan hasil yang benar. Alternatifnya, pengembang cukup meminta agen untuk membuat kode Python-nya sendiri ketika dihadapkan pada tugas yang sederhana namun berulang. Cuplikan kode ini dapat dijalankan secara lokal bersama agen atau di alat kompiler kode aman khusus.
Alat yang tersedia dapat membagi tanggung jawab antara LLM dan pengembang. Setelah alat yang tersedia untuk agen diidentifikasi, pengembang cukup menginstruksikan agen alat mana yang harus digunakan bila diperlukan. Atau, pengembang bisa menentukan alat mana yang akan digunakan untuk tipe data tertentu, dan bahkan elemen data mana yang akan digunakan sebagai argumen selama pemanggilan fungsi.
Demikian pula, pengembang cukup meminta agen untuk membuat kode Python bila diperlukan untuk mengotomatisasi tugas yang berulang, atau sebagai alternatif, memberi tahu algoritma mana yang akan digunakan untuk tipe data apa dan bahkan menyediakan kodesemu. Pendekatannya dapat bervariasi dari satu agen ke agen lainnya.
Waktu pengoperasian
Secara historis, ada dua metode utama untuk mengisolasi kode yang berjalan di server bersama: containerization, yang efektif namun kurang memberikan keamanan; dan mesin virtual, yang aman tetapi menimbulkan banyak beban komputasi.
Pada tahun 2018, layanan komputasi tanpa server Lambda Amazon Web Services (AWS) dikerahkan. petasanParadigma baru dalam isolasi server. Firecracker menciptakan “microVM”, lengkap dengan isolasi perangkat keras dan kernel Linux-nya sendiri tetapi dengan pengurangan overhead (serendah beberapa megabyte) dan waktu startup (serendah beberapa milidetik). Overhead rendah berarti setiap fungsi yang dijalankan di server Lambda dapat memiliki mikroVM sendiri.
Namun, karena pembuatan agen memerlukan penerapan LLM, bersama dengan sumber daya memori untuk melacak input dan output LLM, model isolasi per fungsi tidak praktis. Sebaliknya, dengan isolasi berbasis sesi, setiap sesi diberi mikroVMnya sendiri. Saat sesi berakhir, informasi status LLM disalin ke memori jangka panjang, dan microVM dimusnahkan. Hal ini memastikan penyebaran host agen yang aman dan efisien.
Panggilan alat
Sama seperti banyak kerangka pengembangan untuk pembuatan agen, ada banyak standar untuk komunikasi antara agen dan alat, yang paling populer – saat ini – adalah Model Context Protocol (MCP).
MCP membuat koneksi satu-ke-satu antara LLM agen dan server MCP khusus yang menjalankan panggilan alat, dan juga membuat format standar untuk meneruskan berbagai jenis data bolak-balik antara LLM dan servernya.
Banyak platform menggunakan MCP secara default, tetapi MCP juga dapat dikonfigurasi, sehingga mereka akan mendukung semakin banyak protokol seiring berjalannya waktu.
Namun, terkadang, alat yang diperlukan bukanlah alat yang memiliki API yang tersedia. Dalam kasus seperti itu, satu-satunya cara untuk mengambil data atau melakukan suatu tindakan adalah melalui gerakan kursor dan klik pada situs web. Ada sejumlah layanan yang tersedia untuk melakukan hal ini Penggunaan komputer. Hal ini menjadikan situs web mana pun sebagai alat potensial bagi agen, yang membuka konten dan layanan berharga selama puluhan tahun yang belum tersedia secara langsung melalui API.
Lisensi
Dengan agen, delegasi bekerja dalam dua arah. Pertama, pengguna tentunya memerlukan izin untuk menjalankan agen yang mereka buat. Namun karena proxy bertindak atas nama pengguna, biasanya proxy memerlukan otorisasinya sendiri untuk mengakses sumber daya jaringan.
Ada beberapa cara berbeda untuk menangani masalah perizinan. Salah satunya adalah menggunakan algoritma otorisasi akses seperti OAuth, yang pada dasarnya mengkomunikasikan proses otorisasi melalui sistem proxy. Pengguna memasukkan kredensial masuk OAuth, dan sistem proksi menggunakan OAuth untuk masuk ke sumber daya yang dilindungi, namun sistem proksi tidak pernah memiliki akses langsung ke kata sandi pengguna.
Dalam metode lain, pengguna login ke sesi aman di server, dan server memiliki kredensial login mereka pada sumber daya yang dilindungi. Izin memungkinkan pengguna memilih dari berbagai strategi otorisasi dan algoritme untuk menerapkan strategi tersebut.
Memori dan jejak
Memori jangka pendek
LLM adalah mesin prediksi kata berikutnya. Apa yang membuat mereka sangat serbaguna adalah bahwa prediksi mereka didasarkan pada rangkaian panjang kata-kata yang telah mereka lihat, yang disebut Konteks. Konteks itu sendiri adalah semacam memori. Tapi itu bukan satu-satunya jenis yang dibutuhkan sistem proxy.
Katakanlah, sekali lagi, seorang agen mencoba memesan restoran di dekat bioskop, dan melalui alat pemetaan, beberapa lusin restoran diambil dalam radius satu mil. Dia tidak ingin membuang informasi tentang semua restoran tersebut ke dalam konteks LLM: semua informasi asing tersebut dapat merusak kemungkinan kata berikutnya.
Sebagai alternatif, ia dapat menyimpan seluruh menu dalam memori jangka pendek dan mengambil satu atau dua catatan sekaligus, berdasarkan harga pengguna, preferensi dapur, dan kedekatannya dengan panggung, misalnya. Jika tidak ada satu pun restoran yang berhasil, agen dapat kembali ke memori jangka pendek, daripada harus menjalankan panggilan alat lain.
Memori jangka panjang
Agen juga perlu mengingat interaksi mereka sebelumnya dengan kliennya. Jika saya memberi tahu agen reservasi restoran minggu lalu jenis makanan apa yang saya suka, saya tidak ingin memberi tahu dia lagi minggu ini. Hal yang sama berlaku untuk toleransi harga saya, jenis suasana yang saya cari, dll.
Memori jangka panjang memungkinkan agen mencari apa yang perlu diketahui tentang percakapan sebelumnya dengan pengguna. Namun, agen biasanya tidak menciptakan kenangan jangka panjang sendiri. Sebaliknya, setelah sesi selesai, seluruh percakapan berpindah ke model AI terpisah, menciptakan kenangan jangka panjang baru atau memperbarui kenangan yang sudah ada.
Pembuatan memori dapat mencakup peringkasan LLM dan “chunking”, di mana dokumen dibagi menjadi beberapa bagian yang dikelompokkan menurut topik untuk memudahkan pengambilan selama sesi berikutnya. Sistem yang tersedia memungkinkan pengguna untuk memilih strategi dan algoritma untuk peringkasan, segmentasi, dan teknik ekstraksi informasi lainnya.
Observabilitas
Agen adalah sistem perangkat lunak jenis baru, dan mereka memerlukan cara berpikir baru dalam mengamati, memantau, dan meninjau perilaku mereka. Beberapa pertanyaan yang kami ajukan mungkin terdengar familier: apakah agen bekerja cukup cepat, berapa biayanya, berapa banyak panggilan alat yang mereka lakukan, dan apakah pengguna puas. Namun pertanyaan-pertanyaan baru juga akan muncul, dan kita tidak bisa serta merta memprediksi data apa yang kita perlukan untuk menjawabnya.
Alat pemantauan dan pelacakan dapat memberikan pandangan komprehensif tentang eksekusi sesi dengan agen, merinci langkah demi langkah tindakan apa yang diambil dan alasannya. Bagi pembuat agen, jejak ini adalah kunci untuk memahami seberapa baik agen bekerja — dan menyediakan data untuk membuatnya bekerja lebih baik.
Saya harap penjelasan ini cukup memperjelas agen AI sehingga Anda siap mencoba membangun agen Anda sendiri!