Berita

Henti

Published

on

Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang


Model uji standar menjadi perlu bagi institusi, memungkinkan mereka untuk memilih jenis kinerja yang sering berkebutuhan. Tetapi tidak semua kriteria seperti mereka, dan banyak model uji didasarkan pada set data tetap atau lingkungan pengujian.

Peneliti kecerdasan buatan, yang menjadi milik Ali Baba SemutSekelompok pemimpin dan standar baru yang lebih berfokus pada kinerja model dalam skenario kehidupan nyata. Mereka berpendapat bahwa LLMS membutuhkan piring terkemuka untuk memperhitungkan bagaimana orang menggunakannya dan bagaimana orang lebih suka jawaban mereka dibandingkan dengan kemampuan pengetahuan tetap.

di dalam kertasPara peneliti meletakkan dasar dari arena enlusi, yang mengklasifikasikan model berdasarkan preferensi pengguna.

“Untuk memproses kesenjangan ini, kami menyarankan suplemen ARNA, panel ternak yang memblokir aplikasi yang bekerja dengan bahan kecerdasan buatan di dunia nyata dengan LLM dan MLM terbaru. Tidak seperti platform kolektif, makalah tersebut secara acak mengatakan pertempuran khas selama beberapa dialog manusia dalam aplikasi nyata.”


Kecerdasan buatan membatasi batasnya

Tutup daya, biaya tinggi simbol, dan penundaan dibentuk kembali. Bergabunglah dengan salon eksklusif kami untuk menemukan bagaimana perbedaan besar:

  • Mengubah energi menjadi keuntungan strategis
  • Mengajar penalaran yang efektif untuk keuntungan produktivitas nyata
  • Membuka Pengembalian Investasi Kompetitif dengan Sistem Kecerdasan Buatan Berkelanjutan

Mengamankan tempat Anda untuk tinggal di latar depan: https://bit.ly/4mwngngo


Arena Arena menyoroti papan atas khas lainnya, seperti MMLU dan OpenLM, karena kehidupan nyata dan cara klasifikasi yang unik. Metode pemodelan Bradley-Terry digunakan, mirip dengan yang digunakan oleh Chatbot Arena.

ARNA bekerja dengan memasukkan standar ke dalam aplikasi kecerdasan buatan untuk mengumpulkan kelompok data dan melakukan penilaian manusia. Para peneliti mengakui bahwa “jumlah aplikasi terintegrasi yang terintegrasi yang beroperasi di Amnesty International terbatas, tetapi kami bertujuan untuk membangun aliansi terbuka untuk memperluas ekosistem.”

Sekarang, kebanyakan orang terbiasa dengan puncak para pemimpin dan standar yang mempromosikan kinerja setiap perusahaan LLM baru, perusahaan seperti OpenaiDan Google atau pria. VentureBeat bukanlah orang asing bagi papan atas ini karena beberapa model, seperti xi Grok 3, kekuatannya muncul dengan memimpin pelat arena chatbot. Peneliti AI berpendapat bahwa pelat pemimpin baru “memastikan bahwa penilaian mencerminkan skenario penggunaan praktis”, sehingga lembaga memiliki informasi yang lebih baik tentang model yang mereka rencanakan untuk dipilih.

Menggunakan metode Bradley-Terry

Arena Arena terinspirasi oleh inspirasi dari Chatbot Arena, menggunakan metode Bradley-Terry, sementara Chatbot Arena juga menggunakan metode mengatur ELO secara bersamaan.

Sebagian besar panel pemimpin bergantung pada metode ELO untuk menentukan klasifikasi dan kinerja. ELO mengacu pada klasifikasi ELO dalam catur, yang menentukan keterampilan relatif pemain. Baik Elo dan Bradley-Terry adalah kerangka kerja kemungkinan, tetapi para peneliti mengatakan bahwa Bradli Terry menghasilkan klasifikasi yang lebih stabil.

Koran itu mengatakan: “Model Bradley-Terry memberikan kerangka kerja yang kuat untuk kemampuan yang melekat dari hasil perbandingan perkawinan,” kata surat kabar itu. “Namun, dalam skenario praktis, terutama dengan jumlah model yang besar dan meningkat, kemungkinan membandingkan perbandingan untuk suami menjadi sumber yang berlebihan dan tebal. Ini menyoroti kebutuhan mendesak untuk strategi pertempuran pintar yang meningkatkan informasi ke anggaran terbatas maksimum.”

Untuk membuat pengaturan lebih efisien dalam menghadapi sejumlah besar LLM, dimasukkannya dua komponen lain berisi mekanisme tempat yang cocok dan mengambil sampel kedekatan. Mekanisme kecocokan rekrutmen diperkirakan menjadi klasifikasi awal model baru yang terdaftar di para pemimpin. Mengambil kedekatan kemudian membatasi perbandingan ini dengan model dalam bidang kepercayaan yang sama.

Bagaimana bekerja

Bagaimana cara kerjanya?

Kerangka kerja insert ARNA diintegrasikan ke dalam aplikasi kecerdasan buatan. Saat ini, ada dua aplikasi yang tersedia di arena arena: obrolan karakter joyland dan t-box. Ketika orang menggunakan aplikasi, klaim dikirim ke beberapa LLM di belakang layar untuk tanggapan. Kemudian pengguna memilih jawaban yang mereka sukai lebih baik, meskipun mereka tidak tahu bentuk yang menghasilkan respons.

Bingkai terlihat di preferensi pengguna untuk membuat pasangan model perbandingan. Algoritma Bradley-Terry kemudian digunakan untuk menghitung derajat untuk setiap model, yang kemudian mengarah ke pemimpin akhir.

Inklusi AI memahkotai pengalamannya dalam data hingga Juli 2025, yang mencakup 501.003 perbandingan perkawinan.

Menurut eksperimen awal dengan suplemen arena, model kinerja paling banyak adalah Claude 3.7 Sonnet, Deepseek V3-0324, Claude 3.5 Sonnet, Deepseek V3 dan Qwen MAX-0125.

Tentu saja, ini adalah data dari dua aplikasi dengan lebih dari 46.611 pengguna aktif, menurut kertas. Para peneliti mengatakan mereka dapat membuat papan utama yang lebih kuat dan akurat dengan lebih banyak data.

Lebih banyak pemimpin, lebih banyak opsi

Meningkatnya jumlah model yang dirilis membuat lebih sulit bagi institusi untuk menentukan LLM untuk memulai evaluasi. Pemimpin dan standar pembuat keputusan teknis langsung ke model yang dapat memberikan kinerja terbaik dari kebutuhan mereka. Tentu saja, organisasi harus melakukan penilaian internal untuk memastikan bahwa LLMS efektif untuk aplikasi mereka.

Ini juga memberikan gagasan tentang adegan LLM yang lebih luas, menyoroti model yang telah menjadi kompetitif dibandingkan dengan rekan -rekannya. Standar modern seperti 2 bonus dari Institut AllenSaya mencoba menyelaraskan model dengan penggunaan institusi yang realistis.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version