Berita

Peneliti Nvidia meningkatkan keterampilan berpikir siswa LLM dengan membuat mereka “berpikir” selama pra-pelatihan

Published

on

Para peneliti di Nvidia telah mengembangkan teknologi baru yang membalikkan keadaan tentang bagaimana model bahasa besar (LLM) belajar bernalar.

Metode tersebut disebut Perkuat pembelajaran sebelum pelatihan (RLP), RL dimasukkan ke dalam fase pelatihan awal alih-alih menyimpannya di akhir.

Pendekatan ini Model ini mendorong “berpikir sendiri sebelum memprediksi apa yang akan terjadi selanjutnya, sehingga mengajarkan perilaku berpikir mandiri sejak awal pra-pelatihan.” Para peneliti menyatakan dalam makalah mereka.

Dengan belajar berpikir dalam teks biasa tanpa memerlukan alat verifikasi eksternal, Model yang dilatih menggunakan RLP menunjukkan peningkatan yang signifikan dalam mempelajari tugas-tugas penalaran yang kompleks Pada akhirnya, menunjuk pada masa depan AI yang lebih mampu dan mudah beradaptasi dengan tugas-tugas di dunia nyata.

Kursus model LLM

Biasanya, model bahasa besar pertama-tama dilatih sebelumnya tentang penggunaan teks dalam jumlah besar "Prediksi simbol berikutnya" Objektif, di mana mereka diberikan serangkaian teks dan diminta untuk terus menebak kata (atau token) berikutnya. Pada tahap ini, mereka mempelajari aturan dasar, fakta, dan asosiasi.

Pada fase pasca pelatihan berikutnya, model biasanya mempelajari kemampuan penalaran yang kompleks seperti Serangkaian ide (CoT) dimana model menjelaskan logikanya langkah demi langkah. Fase ini sering kali melibatkan penyempurnaan yang diawasi (SFT) atau Peningkatan pembelajaran dari umpan balik manusia (RLHF), yang memerlukan kumpulan data khusus dan terkurasi.

Penulis makalah ini berargumen bahwa proses berurutan ini tidak sesuai dengan pemahaman manusia, dan “bukan merupakan proses linier simbolis yang berlangsung satu demi satu, melainkan merupakan integrasi paralel antara masukan dengan pengetahuan sebelumnya.” Metode pra-pelatihan saat ini tidak memiliki mekanisme ini, sehingga menghambat kemampuan model untuk mengembangkan pemikiran mendalam sejak awal.

Cara kerja pembelajaran penguatan pra-pelatihan

RLP memformulasi ulang proses ini dengan memperlakukan pembuatan CoT sebagai tindakan yang diambil model sebelum memprediksi token berikutnya. Di setiap langkah, model terlebih dahulu membuat elemen dalam "keyakinan" Atau logika rantai. Dia kemudian memprediksi kata berikutnya dalam teks, menggunakan konteks asli yang ditambah dengan pemikiran barunya.

Model menerima imbalan berdasarkan seberapa besar idenya meningkatkan keakuratan prediksinya dibandingkan dengan garis dasar yang tidak menghasilkan ide (prediksi kode berikutnya murni). Sinyal imbalan ini dihitung secara otomatis berdasarkan perubahan probabilitas, sehingga menghilangkan kebutuhan akan verifikasi pihak ketiga atau data yang diberi label manusia.

Imbalannya hanya positif jika ide yang dihasilkan membantu model memprediksi token berikutnya dengan lebih baik. Dengan memberikan penghargaan terhadap wawasan berdasarkan kegunaan prediktifnya, RLP secara efektif mengajarkan model cara memberikan alasan yang berguna tentang kumpulan data besar dan tidak terstruktur yang sama yang digunakan dalam pra-pelatihan standar.

Putaran umpan balik yang konstan memungkinkan model mengetahui kapan tebakan prediktif sederhana sudah cukup dan kapan model perlu berpikir lebih dalam. Seperti yang dikatakan para peneliti, “RLP dirancang untuk membentuk pemikiran melalui model dasar Hadiahi hanya wawasan yang secara konkrit membantu memprediksi simbol berikutnya.”

Namun, pendekatan mendasar ini tidak membuat tahap-tahap penyesuaian selanjutnya menjadi usang. Menurut Brian Catanzaro, wakil presiden penelitian pembelajaran mendalam terapan di Nvidia dan salah satu penulis makalah ini, RLP dirancang untuk melengkapi, bukan menggantikan, langkah-langkah penting ini. "RLP tidak dimaksudkan untuk menggantikan tahapan pasca-pelatihan berikutnya seperti penyesuaian yang diawasi atau pembelajaran penguatan dari umpan balik manusia," Kata Catanzaro kepada Venturebeat. "Tahapan ini tetap penting untuk meningkatkan perilaku model… dan sebenarnya dirancang untuk memperkuat efektivitas tahap selanjutnya dengan memberikan model permulaan yang lebih awal."

RLP sedang beraksi

Dalam percobaan dengan Qwen3-1.7B Dan Nimotron-Nano-12BTim Nvidia menguji RLP di berbagai tolok ukur matematika dan sains. Hasilnya menunjukkan hal itu Model yang ditambah dengan RLP secara konsisten mengungguli model yang dilatih secara tradisional, dengan peningkatan yang sangat kuat pada tugas-tugas yang lebih membutuhkan pemikiran intensif.

Bagi sebuah organisasi, logika yang ditingkatkan ini dapat menghasilkan keluaran yang lebih andal dalam alur kerja multi-langkah seperti analisis keuangan atau ringkasan dokumen hukum.

"Selama pra-pelatihan, RLP mendorong model untuk berpikir sebelum membuat prediksi, sehingga membantu model mengakomodasi gaya berpikir yang lebih koheren." Kata Catanzaro. "Hal ini dapat membantu mengurangi kesalahan logika yang tidak kentara, terutama dalam alur kerja yang lebih panjang.

Meskipun Catanzaro menekankan bahwa model yang dilatih pada RLP masih memerlukan pagar pembatas biasa seperti lapisan validasi, moderasi manusia, dan pemeriksaan konsistensi, Catanzaro mengatakan bahwa “RLP memberi Anda dasar yang lebih kuat."

Yang penting, manfaat dari kompleks RLP tidak hilang selama fase penyesuaian berikutnya (lupa bencana adalah masalah umum dalam pelatihan LLM, di mana fase pelatihan berikutnya menyebabkan model melupakan keterampilan dan pengetahuan yang dipelajari sebelumnya). Model yang dilatih RLP mencapai skor keseluruhan 7-8% lebih tinggi dari nilai dasar setelah program pasca pelatihan serupa. Para peneliti menyimpulkan bahwa RLP “menetapkan alasan kuat yang tidak dihilangkan pada penyelarasan akhir, melainkan terakumulasi setelah pelatihan.”

Efisiensi teknik ini adalah hasil utamanya. Dalam model Qwen3-1.7B, RLP meningkatkan kinerja sebesar 17% dibandingkan prapelatihan berkelanjutan standar dan juga mengalahkan teknik serupa yang disebut Reinforcement Pretraining melalui Rewards Prefix Matching (RPT). Keuntungan ini tetap ada bahkan ketika model dasar dilatih menggunakan data 35 kali lebih banyak agar sesuai dengan biaya komputasi, sehingga menegaskan bahwa keuntungan berasal dari metode itu sendiri, bukan hanya pemrosesan yang lebih banyak.

Selain itu, RLP menunjukkan skalabilitas dan keserbagunaan yang luar biasa, berhasil mengekstraksi sinyal logis dari data web tujuan umum – bukan hanya kumpulan data yang diformat. Ketika diterapkan pada model hibrida Mamba-Transformer Nemotron-Nano-12B, RLP mencapai peningkatan relatif sebesar 35% dibandingkan dengan baseline yang dilatih secara intensif Meskipun hanya menggunakan sebagian kecil data.

Meskipun temuan-temuan ini menunjukkan jalan yang lebih efisien untuk membangun model yang kuat, Catanzaro memposisikan inovasi sebagai perubahan mendasar dalam proses pembelajaran itu sendiri, bukan sebagai solusi langsung terhadap tingginya biaya pelatihan.

"Penelitian ini menarik karena menyajikan perubahan dalam cara model menyerap informasi selama pra-pelatihan menuju proses pembelajaran yang lebih cerdas." Dia menjelaskan. "Hal ini tidak akan menggantikan pra-pelatihan yang ekstensif, namun menawarkan cara kreatif lain untuk membangun model terbaik."

Landasan baru untuk pelatihan kecerdasan buatan

Pada akhirnya, RLP menunjuk ke masa depan di mana pra-pelatihan tidak lagi menjadi proses monolitik dalam memprediksi token berikutnya. Sebaliknya, model generasi berikutnya dapat dibangun berdasarkan kombinasi tujuan, sehingga menciptakan AI yang belajar berpikir lebih tangguh sejak hari pertama. Catanzaro menawarkan analogi yang kuat untuk membingkai perubahan ini:

"Memprediksi simbol berikutnya akan memberi tahu model seperti apa dunia ini; Sasaran gaya penguatan seperti RLP dapat mengajarinya cara berpikir tentang apa yang dilihatnya," Dia berkata. "Menggabungkan kedua tujuan ini dapat membantu model mengembangkan pemikiran yang lebih dalam dan terstruktur sejak awal pelatihan… Alat seperti RLP dapat membangun fondasi ini, menjadikan pembelajaran lebih aktif, lebih penuh rasa ingin tahu, dan bahkan lebih efisien."

Masih banyak yang harus dipelajari tentang dinamika pembelajaran penguatan pra-pelatihan, namun yang tampak jelas adalah bahwa “memperkenalkan eksplorasi di awal pelatihan akan membuka poros perluasan baru – tidak hanya dalam skala, namun juga dalam cara model belajar berpikir,” kata Catanzaro.

Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version