Berita

Lupakan Deskripsi Data: R-Zero Tence menjelaskan bagaimana LLMS dapat melatih dirinya sendiri

Published

on

Apakah Anda ingin lebih banyak visi yang lebih cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang


Kerangka Pelatihan Baru Para peneliti berkembang di Tencent AI Lab Dan Universitas Washington di Saint Lewis Model LLMS memungkinkan diri mereka untuk meningkatkan diri mereka sendiri tanpa perlu Data tanda manusia apa pun. Teknologi ini disebut R-ZeroPembelajaran penguatan digunakan untuk membuat data pelatihan mereka dari awal, dan memproses salah satu hambatan utama dalam menciptakan sistem kecerdasan buatan. R-Zero bekerja dengan memiliki dua model independen yang berkembang dengan berinteraksi satu sama lain dan menantangnya.

Eksperimen menunjukkan bahwa R-Zero sangat meningkatkan kemampuan berpikir di berbagai LLM, yang dapat mengurangi kompleksitas dan biaya pelatihan lanjutan. Untuk institusi, pendekatan ini dapat mempercepat pengembangan model khusus untuk tugas berpikir kompleks tanpa akun yang luar biasa dari pengaturan data formal.

Tantangan Pengembangan Diri LLMS

Gagasan di balik LLMS adalah untuk meningkatkan diri sendiri penciptaan sistem internasional amnesti yang dapat dibuat secara mandiri, memoles, dan belajar dari pengalaman mereka sendiri. Ini memberikan jalur pengembangan yang lebih cerdas dan mampu menuju kecerdasan buatan. Namun, tantangan utamanya adalah bahwa melatih model -model ini membutuhkan tugas dan tanda -tanda berkualitas tinggi dalam jumlah besar, yang bertindak sebagai tanda -tanda kecerdasan buatan untuk belajar dari mereka.

Ketergantungan pada kondisi manusia untuk membuat data ini tidak hanya mahal dan lambat, tetapi juga menciptakan hambatan dasar. Ini secara efektif membatasi potensi kemampuan kecerdasan buatan pada apa yang dapat diajarkan manusia. Untuk mengatasi hal ini, para peneliti telah mengembangkan metode stiker -bebas yang memperoleh sinyal bonus langsung dari output model khusus, misalnya, dengan mengukur kepercayaan mereka pada jawaban. Sementara metode ini menghilangkan kebutuhan untuk stiker eksplisit, mereka masih mengandalkan kelompok tugas yang sudah ada sebelumnya, yang membatasi kemampuan untuk menerapkannya dalam skenario pengembangan diri yang benar -benar.


Kecerdasan buatan membatasi batasnya

Tutup daya, biaya tinggi simbol, dan keterlambatan inferensi dibentuk kembali. Bergabunglah dengan salon eksklusif kami untuk menemukan bagaimana perbedaan besar:

  • Mengubah energi menjadi keuntungan strategis
  • Mengajar penalaran yang efektif untuk keuntungan produktivitas nyata
  • Membuka Pengembalian Investasi Kompetitif dengan Sistem Kecerdasan Buatan Berkelanjutan

Mengamankan tempat Anda untuk tinggal di latar depan: https://bit.ly/4mwngngo


Metode lain termasuk keberadaan model menghasilkan tugas mereka sendiri untuk belajar dari mereka. Namun, di bidang -bidang seperti pemikiran terbuka, di mana tidak ada cara sederhana untuk memeriksa hak (seperti simbol), jaminan kualitas data yang dihasilkan sendiri ini merupakan hambatan besar.

Bagaimana R-Zero bekerja

R-Zero adalah kerangka kerja yang dirancang untuk pelatihan LLMS yang dapat berkembang dari nol data eksternal. Proses dimulai dengan model dasar tunggal, dibagi menjadi rotasi: “Challenger” dan “Halal”. Kedua model ini ditingkatkan secara mandiri, tetapi mereka berkembang bersama melalui siklus reaksi yang berkelanjutan.

Tujuan lawan adalah membuat tugas baru hanya pada ambang kemampuan solusi saat ini, dan tidak mudah atau tidak mungkin. Analis, pada gilirannya, semakin menyelesaikan tugas -tugas kompleks ini. Dalam komentar tertulis kepada VentureBeat, Chengsong Huang, rekan penulis makalah dan mahasiswa PhD di Washington University di Saint Lewis, menjelaskan bahwa dinamika ini sangat penting karena menghasilkan pertanyaan berkualitas tinggi seringkali lebih rumit daripada menemukan jawaban.

“Apa yang kami temukan di lingkungan yang praktis adalah bahwa tantangan terbesar adalah tidak menghasilkan jawaban … melainkan, menghasilkan pertanyaan berkualitas tinggi, novel, dan secara bertahap lebih sulit,” kata Huang. “Kami percaya bahwa guru yang baik jarang terjadi dari siswa yang baik. Dinamika evolusi bersama diotomatisasi oleh penciptaan” guru “ini, memastikan kurikulum tetap dan dinamis yang mendorong Solver sebagian besar dapat dicapai dengan apa yang dapat dicapai oleh set data yang tetap dan pra -sekarang.

Setelah Challenger membuat pertanyaan yang cukup, mereka dinominasikan untuk keragaman dan dikumpulkan dalam kumpulan data pelatihan. Dalam tahap pelatihan di Solver, disita pada pertanyaan -pertanyaan sulit ini. Jawaban “benar” ditentukan untuk setiap pertanyaan dengan suara mayoritas dari upaya sebelumnya ke Jalfar.

Seluruh proses ini diulangi, yang mengarah pada penciptaan loop peningkatan diri yang bekerja tanpa intervensi manusia, memungkinkan kedua model untuk saling mendorong untuk menjadi lebih mampu untuk setiap pengulangan.

R-Zero di tempat kerja

Para peneliti R-Zero telah menguji beberapa LLM open source, termasuk model keluarga Qwen3 dan Octothhinker. Mereka pertama kali melatih model tentang masalah matematika dan kemudian menguji apakah keterampilan berpikir yang dipelajari dapat diedarkan ke standar kompleks lainnya seperti bidang publik Mmlu-for (Berbagai tugas pemahaman dan pemahaman) dan Supergpqa (Tugas Sains dan Logika).

Hasil penelitian menunjukkan bahwa R-Zero adalah kerangka kerja yang sangat efektif, model. Misalnya, QWEN3-4B telah memperkuat basis dengan rata-rata +6,49 melalui standar pemikiran matematika. Proses pelatihan terus -menerus dan sangat kinerja, dengan keuntungan terakumulasi pada banyak pengulangan. Model QWEN3-8B-base terbesar melihat poin matematika rata-rata sebesar +5,51 poin setelah tiga pengulangan.

Hasil utama adalah lompatan kinerja langsung setelah pengulangan pertama, yang telah valid dalam efektivitas peran lawan dalam menciptakan kurikulum pendidikan berkualitas tinggi. “Ini menegaskan bahwa kurikulum pintar yang dibuat oleh saingannya RL secara signifikan lebih efektif daripada yang bukan trainer,” tulis para peneliti dalam makalah mereka.

Perlu dicatat bahwa keterampilan yang dipelajari dari masalah matematika telah secara efektif ditransfer ke tugas pemikiran umum, sehingga meningkatkan kemampuan model dasar. Sebagai contoh, model base QWEN3-4B menunjukkan dirinya peningkatan +7,54 pada kriteria untuk berpikir dalam domain publik. Penemuan lain yang menarik adalah bahwa R-Zero dapat berfungsi sebagai langkah yang menentukan sebelum pelatihan. Model-model yang pertama kali ditingkatkan oleh R-Zero telah membuat kinerja yang lebih tinggi ketika mereka kemudian mengaturnya pada data tradisional, menunjukkan bahwa bingkai berfungsi sebagai penguat kinerja.

Untuk lembaga, pendekatan “nol data” dapat menjadi perubahan untuk permainan, terutama di bidang khusus di mana data berkualitas tinggi jarang atau tidak ada. Huang menyoroti bahwa fitur utama R-Zero adalah kemampuannya untuk menghindari bagian yang paling mahal dan membutuhkan waktu lama untuk mengembangkan kecerdasan buatan: aktivasi data.

Dia mengatakan: “Pendekatan kami melebihi leher botol dasar karena harus menemukan kelompok data berkualitas tinggi, memberi nama dan mengklasifikasikannya.” “Ini tidak hanya terkait dengan skala untuk menghemat biaya; ini adalah jalan menuju menciptakan kecerdasan buatan yang dapat melampaui kemampuan manusia, karena tidak lagi terbatas dalam ruang lingkup pengetahuan atau data manusia.”

Namun, proses evolusi bersama juga mengungkapkan tantangan yang menentukan. Karena Challenger menghasilkan masalah yang lebih sulit, kemampuan Solver untuk menghasilkan jawaban “benar” yang andal melalui suara mayoritas mulai berkurang. Para peneliti menemukan bahwa keakuratan sebenarnya dari stiker yang dibuat sendiri ini menurun dari 79 % dalam pengulangan pertama menjadi 63 % di ketigaDibandingkan dengan Oracle LLM yang kuat seperti GPT -4. Penurunan kualitas data ini merupakan perbandingan utama dan sebotol kinerja jangka panjang yang mungkin.

Huang mengakui bahwa ini adalah masalah penting untuk model pengembangan diri. Dia mengatakan: “Pekerjaan kami adalah bukti konsep yang mengklarifikasi potensi pendekatan ini, tetapi kami mengakui bahwa mempertahankan peningkatan yang stabil dalam jangka panjang tanpa dataran tinggi adalah hambatan yang hebat.” “Memecahkan masalah ini akan menjadi langkah berikutnya yang menentukan bagi seluruh komunitas riset.”

Para peneliti juga menyoroti pembatasan utama bingkai: mekanisme saat ini adalah yang paling tepat untuk bidang seperti matematika di mana kesehatan dapat ditentukan secara objektif. Jadi, bagaimana model yang kuat ini dapat meluas ke lebih banyak tugas institusional seperti membuat versi pemasaran atau meringkas laporan?

Huang menyarankan bahwa rute potensial mencakup penambahan agen Amnesty International tingkat lanjut ke campuran: “expier” atau “kritikus”.

“Alih -alih evaluasi untuk jawaban” benar “yang sederhana, verifikasi ini akan dilatih untuk mengevaluasi kualitas solusi solusi berdasarkan kriteria yang lebih akurat,” jelasnya. “Dinamika evolusi bersama kemudian akan memasukkan penciptaan Callinger, solusi yang menghasilkan respons, dan verifikasi yang memberikan sinyal kualitas, dengan ketiga model meningkat bersama.”

Meskipun ini tetap menjadi arah untuk penelitian di masa depan, ini menunjukkan masa depan di mana sistem kecerdasan buatan sepenuhnya dikuasai dapat menguasai logika objektif, tetapi juga berpikir sendiri.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version