Berita

Model kecerdasan buatan gagal menghasilkan – di sini cara memperbaiki pemilihan formulir

Published

on

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Lembaga perlu mengetahui apakah model yang mengoperasikan aplikasi dan agen mereka bekerja dalam skenario kehidupan nyata. Jenis evaluasi ini kadang -kadang rumit karena sulit untuk memprediksi skenario yang ditentukan. Versi baru dari RawardBench Standards ingin memberi institusi gagasan yang lebih baik untuk melakukan model nyata.

itu Institut Kecerdasan Buatan Allen (AI2) RewardBench 2, versi terbaru dari bonus bonus bonus, yang mereka klaim memberikan penawaran yang lebih komprehensif untuk melakukan model dan mengevaluasi bagaimana model kompatibel dengan tujuan dan standar lembaga.

AI2 Platform ini dibangun dengan tugas -tugas klasifikasi yang mengukur tautan dengan menghitung waktu penalaran dan pelatihan. Rawardbench terutama berurusan dengan model RM (RM), yang dapat bertindak sebagai juri dan mengevaluasi output LLM. RMS menetapkan gelar atau “bonus” dari pembelajaran penguatan dengan Komentar Manusia (RHLF).

Nathan Lambert, kepala ilmuwan riset di AI2, mengatakan kepada VentureBeat bahwa bonus pertama dimaksudkan saat diluncurkan. Namun, lingkungan yang khas telah berkembang dengan cepat, serta kriteria.

Dia mengatakan: “Ketika model hadiah menjadi lebih maju dan penggunaan kasus lebih akurat, kami dengan cepat menyadari dengan masyarakat bahwa versi pertama tidak sepenuhnya mendapatkan kompleksitas preferensi manusia di dunia nyata.”

Lambert menambahkan bahwa dengan bonus Bench 2, “Kami telah mulai meningkatkan luas dan kedalaman evaluasi – yang memberikan tuntutan yang lebih beragam dan sulit serta memperbaiki metodologi untuk mencerminkan yang terbaik dari bagaimana manusia dalam praktik.” Dia mengatakan bahwa versi kedua menggunakan klaim manusia yang tidak terlihat, dan memiliki pendaftaran yang lebih menantang dan rentang baru.

Menggunakan penilaian model yang berada

Sementara model hadiah diuji seberapa sukses formulir, penting juga bagi RMS sejalan dengan nilai -nilai perusahaan; Kalau tidak, proses pembelajaran yang tepat dan promosi perilaku buruk dapat meningkat, seperti halusinasi, mengurangi generalisasi, dan mencatat respons yang sangat tinggi.

Rawardbench 2 mencakup enam bidang yang berbeda: realisme, pendidikan yang cermat, matematika, keselamatan, konsentrasi, dan hubungan.

“Lembaga harus menggunakan RawardBench 2 dengan dua cara berbeda tergantung pada aplikasi mereka. Jika mereka melakukan RLHF sendiri, mereka harus mengadopsi praktik terbaik dan kelompok data dari model terkemuka di jalur pipa mereka karena model hadiah membutuhkan resep pelatihan tubuh (yaitu, model hadiah yang mencerminkan model yang mereka coba latih dengan RL). Lambert.

Lambert mencatat bahwa standar seperti RawardBench memberi pengguna cara untuk mengevaluasi model yang mereka pilih berdasarkan “dimensi yang lebih menjadi perhatian mereka, daripada mengandalkan tingkat sempit satu ukuran.” Dia mengatakan bahwa gagasan kinerja, yang mengklaim banyak metode evaluasi untuk dievaluasi, sangat subyektif karena respons yang baik dari model tergantung pada konteks dan tujuan pengguna. Pada saat yang sama, preferensi manusia menjadi sangat akurat.

Ai 2 merilis edisi pertama Bonus di Maret 2024. Pada saat itu, perusahaan mengatakan itu adalah standar pertama dan para pemimpin model bonus. Sejak itu, beberapa cara untuk mengukur dan meningkatkan RM telah muncul. Peneliti di MatiPameran REWORDBENCH. Dibsikis Teknologi baru yang disebut kritik prinsip yang lebih cerdas dan berkembang sendiri terhadap RM.

Bagaimana modelnya

Karena RewardBench 2 adalah versi yang diperbarui dari RawardBench, AI2 menguji baik model saat ini dan yang baru dilatih untuk melihat apakah mereka terus tinggi. Ini termasuk berbagai model, seperti Gemini, Claude, GPT-4.1, dan Llama-3.1, bersama dengan koleksi data dan model seperti Qwen, Skywork, dan Tulu.

Perusahaan menemukan bahwa model hadiah besar bekerja lebih baik pada standar ini karena model dasar mereka lebih kuat. Secara umum, model kinerja terkuat adalah variabel LLAMA-3.1. Mengenai konsentrasi dan keamanan, data skywork “sangat berguna”, dan Tulu benar -benar telah dicapai.

AI2 mengatakan bahwa meskipun mereka percaya bahwa Rawwardbench 2 “adalah langkah maju dalam penilaian multi -ladang berbasis luas” dari model hadiah, mereka telah memperingatkan bahwa evaluasi model harus digunakan terutama sebagai panduan untuk memilih model yang bekerja lebih baik dengan kebutuhan institusi.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version