Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang
Lembaga mulai mengadopsi bentuk konteks konteks model (MCP) di tempat pertama untuk memfasilitasi identifikasi dan arah penggunaan alat agen. Namun, peneliti dari Salesforce Temukan cara lain untuk menggunakan teknologi MCP, kali ini untuk membantu mengevaluasi agen kecerdasan buatan itu sendiri.
Para peneliti telah meluncurkan MCPEval, metode baru dan kelompok alat open source berdasarkan struktur sistem MCP yang menguji kinerja agen saat menggunakan alat. Mereka menunjukkan bahwa metode evaluasi faktor saat ini terbatas bahwa ini “sering bergantung pada tugas -tugas tetap dan yang ditentukan sebelumnya, dan dengan demikian gagal menangkap alur kerja interaktif dari dunia nyata.”
“McPeval melampaui ukuran keberhasilan/kegagalan tradisional dengan mengumpulkan tugas -tugas terperinci dan data reaksi terperinci secara sistematis, menciptakan visi yang belum pernah terjadi sebelumnya dalam perilaku agen dan menghasilkan kelompok data yang berharga untuk peningkatan berulang,” kata para peneliti. Di koran. “Selain itu, karena kedua tugas dan memverifikasi sepenuhnya diautentikasi, jalur tinggi yang dihasilkan dapat digunakan segera untuk stabilisasi cepat dan peningkatan model faktor yang terus menerus. Laporan evaluasi komprehensif yang dibuat oleh McPeval juga memberikan visi yang terlihat terhadap komunikasi yang sehat dengan faktor -faktor pada tingkat yang dicintai.”
MCPEVAL membedakan dirinya dengan menjadi proses yang sepenuhnya otomatis, yang diklaim para peneliti memungkinkan penilaian cepat alat dan server MCP baru. Keduanya mengumpulkan informasi tentang bagaimana agen berinteraksi dengan alat dalam server MCP, membuat data buatan dan membuat database untuk faktor standar. Pengguna dapat memilih server dan alat MCP di dalam server ini untuk menguji kinerja agen.
AI Impact Series kembali ke San Francisco – 5 Agustus
Tahap selanjutnya dari kecerdasan buatan di sini – apakah Anda siap? Bergabunglah dengan para pemimpin dari Block, GSK dan SAP untuk mengambil tampilan eksklusif tentang cara memulai kembali agen independen dari tugas alur kerja yayasan-dari keputusan dalam waktu yang sebenarnya untuk otomatisasi komprehensif.
Mengamankan tempat Anda sekarang – ruang terbatas: https://bit.ly/3guPlf
Shelby Hink, Kepala Manajer Penelitian Kecerdasan Buatan di Salesforce dan salah satu penulis makalah ini, VentureBeat sulit untuk mendapatkan data yang akurat tentang kinerja agen, terutama untuk agen dalam peran lapangan.
“Kami telah mencapai titik bahwa jika Anda melihatnya melalui industri teknologi, banyak dari kami telah menemukan cara menerbitkannya. Kami sekarang perlu tahu cara mengevaluasinya dengan benar,” kata Henick. “MCP adalah ide yang sangat baru, model yang sangat baru. Jadi, sangat bagus bagi agen untuk dapat mengakses alat, tetapi kami lagi perlu mengevaluasi agen pada alat -alat ini. Inilah tepatnya tentang McPeval.”
Bagaimana bekerja
Kerangka kerja McPeval mengambil generasi tugas, verifikasi, dan desain evaluasi formulir. Manfaatkan beberapa model bahasa besar (LLM) sehingga pengguna dapat memilih untuk bekerja dengan model yang lebih akrab dengannya, agen dapat dievaluasi melalui berbagai LLM yang tersedia di pasar.
Lembaga dapat mengakses McPeval melalui alat open source yang ditetapkan oleh Salesforce. Melalui dasbor, pengguna mengkonfirmasi server dengan mengidentifikasi model, yang secara otomatis membuat tugas agen untuk mengikuti server MCP yang dipilih.
Setelah pengguna memeriksa dari tugas, McPeval mengambil tugas dan menentukan panggilan alat yang diperlukan sebagai realitas tanah. Tugas -tugas ini akan digunakan sebagai dasar untuk tes. Pengguna memilih model apa pun yang mereka sukai untuk menjalankan evaluasi. McPeval dapat membuat laporan tentang kualitas pekerjaan agen dan model uji dalam mengakses dan menggunakan alat -alat ini.
Heinecke mengatakan bahwa McPeval tidak hanya mengumpulkan data tentang agen standar, tetapi juga dapat menentukan kesenjangan dalam kinerja agen. Informasi yang dikumpulkan dengan mengevaluasi agen melalui McPeval bekerja tidak hanya untuk uji kinerja tetapi juga untuk melatih agen untuk penggunaan di masa depan.
“Kami melihat McPeval tumbuh ke toko yang komprehensif untuk mengevaluasi dan memperbaikinya,” kata Hink.
Dia menambahkan bahwa apa yang membuat McPeval menonjol oleh penduduk lain adalah bahwa hal itu membawa tes ke lingkungan yang sama di mana agen akan bekerja. Agen dievaluasi untuk kualitas akses ke alat dalam server MCP yang kemungkinan akan dipublikasikan.
Makalah ini memperhatikan bahwa dalam percobaan, model GPT-4 sering memberikan hasil evaluasi terbaik.
Evaluasi Kinerja Agen
Kebutuhan lembaga untuk mulai menguji agen pemantauan telah menyebabkan booming kerangka kerja dan teknik. Beberapa platform memberikan tes dan beberapa cara lain untuk menilai kinerja agen jangka pendek dan jangka panjang.
Agen kecerdasan buatan akan melakukan tugas atas nama pengguna, seringkali tanpa perlu seseorang untuk menuntut mereka. Sampai saat ini, agen telah membuktikan bahwa mereka berguna, tetapi mereka dapat mengatasi jumlah alat absolut yang mereka miliki.
GalileoStartup, menyediakan kerangka kerja yang memungkinkan lembaga untuk menilai kualitas pemilihan alat agen dan menentukan kesalahan. Salesforce telah meluncurkan kemampuan di dasbor Agenforce untuk menguji agen. Para peneliti dari University of Singapura mengeluarkan manajemen agen untuk mencapai dan memantau keandalan agen. Beberapa studi akademik juga telah diterbitkan pada evaluasi MCP, termasuk MCP-Gradar Dan McPworld.
MCP-Radar, yang dikembangkan oleh para peneliti dari University of Massachusetts Amharees dan Universitas Xi’an Jiaotong, berfokus pada lebih banyak keterampilan dunia publik, seperti rekayasa perangkat lunak atau matematika. Kerangka kerja ini memberikan prioritas pada efisiensi dan keakuratan guru.
Di sisi lain, McPworld dari Beijing University untuk pekerjaan dan komunikasi nirkabel membawa mengukur ke antarmuka grafis pengguna, antarmuka pemrograman aplikasi dan agen penggunaan komputer lainnya.
Henick akhirnya mengatakan, bagaimana agen dievaluasi akan tergantung pada perusahaan dan keadaan penggunaan. Namun, yang penting adalah bahwa perusahaan memilih kerangka evaluasi yang paling tepat untuk memenuhi kebutuhan spesifik mereka. Untuk institusi, saya menyarankan untuk melihat kerangka kerja khusus untuk lapangan untuk menguji bagaimana agen bekerja dalam skenario dunia nyata.
“Ada nilai dalam semua kerangka kerja evaluasi ini, dan ini adalah titik awal yang bagus karena mereka memberikan beberapa tanda awal kekuatan ikatan,” kata Henick. “Tapi saya percaya bahwa evaluasi yang paling penting adalah evaluasi lapangan Anda dan data evaluasi yang mencerminkan lingkungan di mana agen akan bekerja.”
Tautan sumber









