Berita

Benchmark MCP-Hiverse menawarkan GPT-5. Lebih dari setengah tugas sinkronisasi di dunia nyata

Published

on

Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang


Kriteria untuk interkoneksi dapat diadopsi, seperti bentuk konteks konteks model (MCP), memberikan institusi dengan isotop tentang bagaimana agen dan model bekerja di luar perbatasan bertembok mereka. Namun, banyak kriteria gagal menangkap reaksi nyata dengan MCP.

Salesforce AI Research telah mengembangkan standar open source baru yang Anda sebut MCP-Inserse, yang bertujuan untuk melacak LLMS karena server MCP ini berinteraksi di dunia nyata, dengan dalih bahwa mereka akan menggambar gambaran yang lebih baik dari interaksi realistis dan waktu nyata model dengan alat-alat lembaga yang sudah Anda gunakan. Dalam tes awal, ditemukan bahwa model itu seperti OpenaiBaru-baru ini GPT-5 Ambil Kuat, tetapi masih tidak mengarah pada skenario kehidupan nyata.

“Standar saat ini sebagian besar fokus pada aspek -aspek terisolasi dari kinerja LLM, seperti instruksi berikut, memikirkan matematika, atau memanggil pekerjaan, tanpa memberikan evaluasi komprehensif tentang bagaimana model berinteraksi dengan server MCP di dunia nyata melalui berbagai skenario,” kata Salesforce In. kertas.

MCP-Hivrese mengambil kinerja model dengan menggunakan alat, panggilan alat multi-turn, jendela konteks panjang dan ruang alat besar. Ini didasarkan pada server MCP saat ini dengan akses ke sumber data aktual dan lingkungan.


Kecerdasan buatan membatasi batasnya

Tutup daya, biaya tinggi simbol, dan keterlambatan inferensi dibentuk kembali. Bergabunglah dengan salon eksklusif kami untuk menemukan bagaimana perbedaan besar:

  • Mengubah energi menjadi keuntungan strategis
  • Mengajar penalaran yang efektif untuk keuntungan produktivitas nyata
  • Membuka Pengembalian Investasi Kompetitif dengan Sistem Kecerdasan Buatan Berkelanjutan

Mengamankan tempat Anda untuk tinggal di latar depan: https://bit.ly/4mwngngo


Junnan Li, manajer penelitian AI di Salesforce, VentureBeat mengatakan bahwa banyak model “masih menghadapi pembatasan yang menghambat mereka di tingkat institusi.”

“Dua yang terbesar adalah: tantangan dari konteks panjang, Anda dapat kehilangan model yang melacak informasi atau kesulitan untuk terus berpikir ketika berhadapan dengan input panjang atau sangat kompleks.” “Tantangan yang tidak diketahui dari alat -alat ini, model sering tidak dapat menggunakan alat atau sistem yang tidak dikenal dengan cara yang dapat diadaptasi oleh manusia selama terbang. Karena alasan ini penting bagi tempat untuk tidak mengikuti pendekatan DIY dengan satu model agen otoritas saja, tetapi untuk memenuhi kebutuhan -kebutuhan dari kebutuhan yang mengandalkannya.

MCP-Gerakan bergabung dengan standar yang diusulkan lainnya yang bergantung pada MCPmenyukai MCP-Gradar Dari University of Massachusetts Amhhest dan University of Xian Jiaotong, serta Universitas Beijing untuk pekerjaan dan telekomunikasi McPworld. Itu juga tergantung pada McPevals, yang dirilis SLESFORCE pada bulan Juli, yang berfokus terutama pada agen. Dia mengatakan kepada saya bahwa perbedaan terbesar antara MCP-Insterse dan MCPevals adalah bahwa yang terakhir dievaluasi dengan tugas-tugas buatan.

Bagaimana bekerja

MCP-Hiverse mengevaluasi kinerja setiap seri serangkaian tugas yang meniru perusahaan. Salesforce mengatakan dia merancang MCP-gawang untuk memasukkan enam bidang dasar yang digunakan oleh perusahaan: mobilitas situs, manajemen gudang, analisis keuangan, desain 3D, otomatisasi browser dan pencarian web. Saya mencapai 11 server MCP dengan total 231 tugas.

  • Navigasi berfokus pada situs pemikiran geografis dan merawat tugas -tugas spasial. Para peneliti memanfaatkan server MCP Google Maps untuk proses ini.
  • Bidang manajemen gudang sedang melihat operasi basis kode dan terhubung ke Github MCP untuk mengekspos alat kontrol rilis seperti mencari ribo, melacak masalah dan mengedit instruksi perangkat lunak.
  • Analisis keuangan terhubung ke server yahoo keuangan MCP untuk mengevaluasi pemikiran kuantitatif dan membuat keputusan di pasar keuangan.
  • Desain 3D mengevaluasi penggunaan alat desain dengan bantuan komputer melalui blender MCP.
  • Otomatisasi browser, terhubung ke MCP untuk penulis teater, menguji interaksi browser.
  • Google Search MCP dan Fetch MCP Server digunakan untuk memeriksa “informasi lapangan terbuka” dan diatur sebagai tugas yang lebih terbuka.

Salesforce mengatakan harus merancang tugas MCP baru yang mencerminkan kasus penggunaan nyata. Untuk setiap bidang, mereka menciptakan empat hingga lima jenis tugas yang oleh para peneliti percaya bahwa LLM dapat dengan mudah diselesaikan. Misalnya, para peneliti menetapkan model sebagai target perencanaan jalan, mengidentifikasi stasiun yang optimal dan kemudian menemukan tujuan.

Setiap model dievaluasi tentang cara menyelesaikan tugas. Lee dan timnya memilih untuk mengikuti model evaluasi implementasi alih-alih LLM-AS-A-Hakim yang paling umum. Para peneliti memperhatikan model LLM-as-A-JUGE “Tidak cocok untuk skenario MCP-riverse kami, karena beberapa tugas dirancang untuk menggunakan data dalam waktu aktual, sedangkan pengetahuan juri LLM diperbaiki.”

Peneliti Salsforce menggunakan tiga jenis penghuni: mengoordinasikan penduduk untuk melihat apakah agen dan model melacak persyaratan koordinasi, penduduk tetap untuk menilai tepat waktu dan penduduk yang dinamis untuk mendapatkan jawaban yang mudah menguap seperti harga penerbangan atau masalah gitub.

“MCP-HIVRSE berfokus pada menciptakan tugas di dunia nyata dengan penduduk berbasis implementasi, yang dapat menguji pelanggan dalam skenario yang kompleks. Selain itu, MCP-Hiverse menawarkan basis ekstensi/kode untuk membangun dan mengevaluasi faktor.”

Bahkan model besar menghadapi masalah

Untuk tes MCP-Hiverse, Salesforce telah mengevaluasi banyak bentuk kepemilikan dan sumber yang terkenal. Ini termasuk grok-4 dari xiDan priaS-Claude-4 Sunt dan Claude 3.7 Sunt, Onai’s GPT-5, O4-Mini, O3, GPT-4.1, GPT-ATP, GoogleDiaDan MonchotKimi-k2, QwenDibsikis. Setiap model diuji setidaknya 120B.

Dalam pengujiannya, Salesforce GPT-5 menemukan tingkat keberhasilan terbaik, terutama untuk tugas-tugas analisis keuangan. GROK-4 diikuti, mengatasi semua model otomatisasi browser, dan sonnet Claude-4.0 berputar di sekitar tiga yang pertama, meskipun belum menerbitkan angka kinerja yang lebih tinggi daripada model yang diikuti. Di antara model open source, GLM-4.5 melakukan yang terbaik.

Namun, MCP-HIVRSE menunjukkan bahwa model mengalami kesulitan berurusan dengan konteks yang panjang, terutama untuk mobilitas lokasi, otomatisasi browser dan analisis keuangan, dengan efisiensi secara dramatis. Saat LLMS menghadapi alat yang tidak diketahui, kinerjanya juga berkurang. LLMS telah menunjukkan kesulitan dalam menyelesaikan lebih dari setengah tugas yang biasanya dilakukan lembaga.

“Hasil ini menyoroti bahwa LLMS saat ini masih pendek dalam melaksanakan tugas dengan andal melalui beragam tugas MCP di dunia nyata. Dengan demikian, standar MCP-HIVRSE memberikan, oleh karena itu, tes yang sulit dan perlu untuk mengevaluasi kinerja LLM di daerah dengan standar saat ini,” kata surat kabar itu.

Lee VentureBeat mengatakan bahwa ia berharap bahwa perusahaan akan menggunakan MCP-gawang untuk mendapatkan pemahaman yang lebih dalam tentang tempat di mana agen dan model gagal dalam tugas sehingga mereka dapat meningkatkan kerangka kerja mereka atau melakukan alat MCP mereka.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version