Connect with us

Berita

Peneliti Nvidia meningkatkan keterampilan berpikir siswa LLM dengan membuat mereka “berpikir” selama pra-pelatihan

Published

on

Para peneliti di Nvidia telah mengembangkan teknologi baru yang membalikkan keadaan tentang bagaimana model bahasa besar (LLM) belajar bernalar.

Metode tersebut disebut Perkuat pembelajaran sebelum pelatihan (RLP), RL dimasukkan ke dalam fase pelatihan awal alih-alih menyimpannya di akhir.

Pendekatan ini Model ini mendorong “berpikir sendiri sebelum memprediksi apa yang akan terjadi selanjutnya, sehingga mengajarkan perilaku berpikir mandiri sejak awal pra-pelatihan.” Para peneliti menyatakan dalam makalah mereka.

Dengan belajar berpikir dalam teks biasa tanpa memerlukan alat verifikasi eksternal, Model yang dilatih menggunakan RLP menunjukkan peningkatan yang signifikan dalam mempelajari tugas-tugas penalaran yang kompleks Pada akhirnya, menunjuk pada masa depan AI yang lebih mampu dan mudah beradaptasi dengan tugas-tugas di dunia nyata.

Kursus model LLM

Biasanya, model bahasa besar pertama-tama dilatih sebelumnya tentang penggunaan teks dalam jumlah besar "Prediksi simbol berikutnya" Objektif, di mana mereka diberikan serangkaian teks dan diminta untuk terus menebak kata (atau token) berikutnya. Pada tahap ini, mereka mempelajari aturan dasar, fakta, dan asosiasi.

Pada fase pasca pelatihan berikutnya, model biasanya mempelajari kemampuan penalaran yang kompleks seperti Serangkaian ide (CoT) dimana model menjelaskan logikanya langkah demi langkah. Fase ini sering kali melibatkan penyempurnaan yang diawasi (SFT) atau Peningkatan pembelajaran dari umpan balik manusia (RLHF), yang memerlukan kumpulan data khusus dan terkurasi.

Penulis makalah ini berargumen bahwa proses berurutan ini tidak sesuai dengan pemahaman manusia, dan “bukan merupakan proses linier simbolis yang berlangsung satu demi satu, melainkan merupakan integrasi paralel antara masukan dengan pengetahuan sebelumnya.” Metode pra-pelatihan saat ini tidak memiliki mekanisme ini, sehingga menghambat kemampuan model untuk mengembangkan pemikiran mendalam sejak awal.

Cara kerja pembelajaran penguatan pra-pelatihan

RLP memformulasi ulang proses ini dengan memperlakukan pembuatan CoT sebagai tindakan yang diambil model sebelum memprediksi token berikutnya. Di setiap langkah, model terlebih dahulu membuat elemen dalam "keyakinan" Atau logika rantai. Dia kemudian memprediksi kata berikutnya dalam teks, menggunakan konteks asli yang ditambah dengan pemikiran barunya.

Model menerima imbalan berdasarkan seberapa besar idenya meningkatkan keakuratan prediksinya dibandingkan dengan garis dasar yang tidak menghasilkan ide (prediksi kode berikutnya murni). Sinyal imbalan ini dihitung secara otomatis berdasarkan perubahan probabilitas, sehingga menghilangkan kebutuhan akan verifikasi pihak ketiga atau data yang diberi label manusia.

Imbalannya hanya positif jika ide yang dihasilkan membantu model memprediksi token berikutnya dengan lebih baik. Dengan memberikan penghargaan terhadap wawasan berdasarkan kegunaan prediktifnya, RLP secara efektif mengajarkan model cara memberikan alasan yang berguna tentang kumpulan data besar dan tidak terstruktur yang sama yang digunakan dalam pra-pelatihan standar.

Putaran umpan balik yang konstan memungkinkan model mengetahui kapan tebakan prediktif sederhana sudah cukup dan kapan model perlu berpikir lebih dalam. Seperti yang dikatakan para peneliti, “RLP dirancang untuk membentuk pemikiran melalui model dasar Hadiahi hanya wawasan yang secara konkrit membantu memprediksi simbol berikutnya.”

Namun, pendekatan mendasar ini tidak membuat tahap-tahap penyesuaian selanjutnya menjadi usang. Menurut Brian Catanzaro, wakil presiden penelitian pembelajaran mendalam terapan di Nvidia dan salah satu penulis makalah ini, RLP dirancang untuk melengkapi, bukan menggantikan, langkah-langkah penting ini. "RLP tidak dimaksudkan untuk menggantikan tahapan pasca-pelatihan berikutnya seperti penyesuaian yang diawasi atau pembelajaran penguatan dari umpan balik manusia," Kata Catanzaro kepada Venturebeat. "Tahapan ini tetap penting untuk meningkatkan perilaku model… dan sebenarnya dirancang untuk memperkuat efektivitas tahap selanjutnya dengan memberikan model permulaan yang lebih awal."

RLP sedang beraksi

Dalam percobaan dengan Qwen3-1.7B Dan Nimotron-Nano-12BTim Nvidia menguji RLP di berbagai tolok ukur matematika dan sains. Hasilnya menunjukkan hal itu Model yang ditambah dengan RLP secara konsisten mengungguli model yang dilatih secara tradisional, dengan peningkatan yang sangat kuat pada tugas-tugas yang lebih membutuhkan pemikiran intensif.

Bagi sebuah organisasi, logika yang ditingkatkan ini dapat menghasilkan keluaran yang lebih andal dalam alur kerja multi-langkah seperti analisis keuangan atau ringkasan dokumen hukum.

"Selama pra-pelatihan, RLP mendorong model untuk berpikir sebelum membuat prediksi, sehingga membantu model mengakomodasi gaya berpikir yang lebih koheren." Kata Catanzaro. "Hal ini dapat membantu mengurangi kesalahan logika yang tidak kentara, terutama dalam alur kerja yang lebih panjang.

Meskipun Catanzaro menekankan bahwa model yang dilatih pada RLP masih memerlukan pagar pembatas biasa seperti lapisan validasi, moderasi manusia, dan pemeriksaan konsistensi, Catanzaro mengatakan bahwa “RLP memberi Anda dasar yang lebih kuat."

Yang penting, manfaat dari kompleks RLP tidak hilang selama fase penyesuaian berikutnya (lupa bencana adalah masalah umum dalam pelatihan LLM, di mana fase pelatihan berikutnya menyebabkan model melupakan keterampilan dan pengetahuan yang dipelajari sebelumnya). Model yang dilatih RLP mencapai skor keseluruhan 7-8% lebih tinggi dari nilai dasar setelah program pasca pelatihan serupa. Para peneliti menyimpulkan bahwa RLP “menetapkan alasan kuat yang tidak dihilangkan pada penyelarasan akhir, melainkan terakumulasi setelah pelatihan.”

Efisiensi teknik ini adalah hasil utamanya. Dalam model Qwen3-1.7B, RLP meningkatkan kinerja sebesar 17% dibandingkan prapelatihan berkelanjutan standar dan juga mengalahkan teknik serupa yang disebut Reinforcement Pretraining melalui Rewards Prefix Matching (RPT). Keuntungan ini tetap ada bahkan ketika model dasar dilatih menggunakan data 35 kali lebih banyak agar sesuai dengan biaya komputasi, sehingga menegaskan bahwa keuntungan berasal dari metode itu sendiri, bukan hanya pemrosesan yang lebih banyak.

Selain itu, RLP menunjukkan skalabilitas dan keserbagunaan yang luar biasa, berhasil mengekstraksi sinyal logis dari data web tujuan umum – bukan hanya kumpulan data yang diformat. Ketika diterapkan pada model hibrida Mamba-Transformer Nemotron-Nano-12B, RLP mencapai peningkatan relatif sebesar 35% dibandingkan dengan baseline yang dilatih secara intensif Meskipun hanya menggunakan sebagian kecil data.

Meskipun temuan-temuan ini menunjukkan jalan yang lebih efisien untuk membangun model yang kuat, Catanzaro memposisikan inovasi sebagai perubahan mendasar dalam proses pembelajaran itu sendiri, bukan sebagai solusi langsung terhadap tingginya biaya pelatihan.

"Penelitian ini menarik karena menyajikan perubahan dalam cara model menyerap informasi selama pra-pelatihan menuju proses pembelajaran yang lebih cerdas." Dia menjelaskan. "Hal ini tidak akan menggantikan pra-pelatihan yang ekstensif, namun menawarkan cara kreatif lain untuk membangun model terbaik."

Landasan baru untuk pelatihan kecerdasan buatan

Pada akhirnya, RLP menunjuk ke masa depan di mana pra-pelatihan tidak lagi menjadi proses monolitik dalam memprediksi token berikutnya. Sebaliknya, model generasi berikutnya dapat dibangun berdasarkan kombinasi tujuan, sehingga menciptakan AI yang belajar berpikir lebih tangguh sejak hari pertama. Catanzaro menawarkan analogi yang kuat untuk membingkai perubahan ini:

"Memprediksi simbol berikutnya akan memberi tahu model seperti apa dunia ini; Sasaran gaya penguatan seperti RLP dapat mengajarinya cara berpikir tentang apa yang dilihatnya," Dia berkata. "Menggabungkan kedua tujuan ini dapat membantu model mengembangkan pemikiran yang lebih dalam dan terstruktur sejak awal pelatihan… Alat seperti RLP dapat membangun fondasi ini, menjadikan pembelajaran lebih aktif, lebih penuh rasa ingin tahu, dan bahkan lebih efisien."

Masih banyak yang harus dipelajari tentang dinamika pembelajaran penguatan pra-pelatihan, namun yang tampak jelas adalah bahwa “memperkenalkan eksplorasi di awal pelatihan akan membuka poros perluasan baru – tidak hanya dalam skala, namun juga dalam cara model belajar berpikir,” kata Catanzaro.

Tautan sumber

Continue Reading
Click to comment

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Berita

Phil Mickelson bereaksi terhadap Presidential Medal of Freedom dari Charlie Kirk

Published

on

baruAnda sekarang dapat mendengarkan artikel Fox News!

Legenda golf Phil Mickelson berbagi reaksinya terhadap berita bahwa mendiang Charlie Kirk akan menerima Presidential Medal of Freedom secara anumerta pada ulang tahun Kirk yang ke-32 – 14 Oktober.

Mickelson mengirimkan postingan berbentuk X pada hari Sabtu untuk membagikan pemikirannya tentang berita tersebut.

“Kehadiran dan pesannya akan terus hidup selamanya, tapi saya tetap berharap dia ada di sini. Penghargaan ini memang layak diterima,” tulis Mickelson.

KLIK DI SINI UNTUK CAKUPAN OLAHRAGA LEBIH LANJUT DI FOXNEWS.COM

Mickelson sangat merayakan kehidupan Kirk sejak aktivis konservatif itu dibunuh di Utah bulan lalu. Mickelson juga menargetkan mereka yang melontarkan komentar yang menghasut setelah kematian Kirk.

Phil Mickelson menyaksikan putaran latihan sebelum Kejuaraan Terbuka ke-152 di Royal Troon pada 15 Juli 2024, di Troon, Skotlandia. (Pedro Salado/Getty Images)

“Pembunuhan Charlie Kirk memunculkan beberapa hal terbaik dalam kemanusiaan dan juga mengungkap beberapa hal terburuk,” tulisnya di X sebagai tanggapan atas pernyataan yang dikeluarkan oleh presiden Oxford Union bulan lalu. “Persatuan, cinta, dukungan dan protes atas nama beliau di seluruh dunia sungguh mengharukan.

“Jumlah orang yang mendukung perilaku mengerikan Tyler Robinson telah membuka mata saya terhadap sisi ekstremisme dengan kompleks superioritas moral yang juga menggoyahkan kepercayaan saya terhadap orang-orang pada umumnya. Saya berharap mereka bertanggung jawab atas retorika menjijikkan mereka.”

Mickelson juga membagikan postingan yang menampilkan salah satu diskusi Kirk. Percakapan dengan mahasiswa lain mengungkapkan kedekatan Kirk dengan pria usia kuliah dan “ketidaksukaannya” terhadap miliarder seperti presiden. Donald Trump Dan Elon Musk.

Bintang EX-JETS ‘muak’ dengan New Jersey Town karena gagal menghormati Charlie Kirk

Foto Charlie Kirk dikelilingi bendera Amerika dan memorabilia lainnya

Potret komentator konservatif Charlie Kirk yang terbunuh ditempatkan di peringatan untuk menghormatinya, di Universitas Utah Valley di Orem, Utah, pada tanggal 29 September. (Jim Urquhart/Reuters)

“Kemampuannya menggunakan kata-kata dan kecerdasannya untuk memenangkan perdebatanlah yang membuat mereka takut,” tulis Mickelson.

Mickelson juga menargetkan Perwakilan Ilhan Omar, Demokrat Minnesota, setelah anggota kongres kontroversial itu menghinanya. Gereja Dan warisannya dalam sebuah wawancara dengan CNN.

Saat wawancara di CNN. Dia berbicara kepada Omar Postingan media sosialnya baru-baru ini di mana dia menyebut Kirk sebagai “Dr. Frankenstein” menggandakan komentar tersebut dan mengatakan warisannya harus ditinggalkan di “tempat sampah sejarah”.

“Yang menurut saya meresahkan adalah bahwa ada banyak orang yang ingin membenarkan hal-hal paling tercela yang dia katakan, bahwa mereka setuju dengan hal itu, bahwa mereka bersedia mendirikan tugu peringatan untuknya, bahwa mereka ingin menciptakan hari untuk menghormatinya, bahwa mereka ingin mengeluarkan resolusi di Dewan Perwakilan Rakyat untuk menghormati kehidupan dan warisannya,” kata Ilhan Omar.

Dia menambahkan: “Saya tidak akan duduk di sini dan menilai keengganan saya untuk menghormati warisan apa pun yang ditinggalkan orang ini, yang seharusnya dibuang ke tong sampah sejarah, dan mudah-mudahan kita bisa bergerak maju dan melupakan kebencian yang dia keluarkan setiap hari.”

Phil Mickelson, Ilhan Omar

Legenda golf Phil Mickelson mengecam anggota parlemen Ilhan Omar atas komentarnya tentang Charlie Kirk. (Gambar Getty)

Mickelson menanggapi komentar Omar dalam sebuah postingan di X, dengan mengatakan dia berharap dia akan “segera kembali ke Somalia.”

KLIK DI SINI UNTUK MENDAPATKAN APLIKASI FOX NEWS

“Ilhan melontarkan kebencian setiap kali dia membuka mulutnya,” tulis Mickelson. “Dia datang ke sini dengan curang dan kami berharap dia akan segera dikembalikan ke Somalia.”

Ikuti Fox News Digital Liputan olahraga di X Dan berlangganan Buletin Huddle Olahraga Fox News.



Tautan sumber

Continue Reading

Berita

Petugas CHP menarik pengemudi yang tidak sadarkan diri dari kendaraan yang terbakar beberapa detik sebelum ledakan

Published

on

baruAnda sekarang dapat mendengarkan artikel Fox News!

Rekaman kamera tubuh yang baru dirilis menangkap momen dramatis petugas Patroli Jalan Raya California (CHP) dengan gagah berani bergegas menyelamatkan pengemudi yang tidak responsif dari mobil yang terbakar di Los Angeles Selatan.

Badan pemerintah merilis sebuah video pada hari Kamis yang menyoroti tindakan heroik petugas selama insiden 3 Juli.

Dalam video tersebut, terlihat seorang petugas bergegas menuju mobil yang sudah terbakar. Petugas tersebut segera bergabung dengan rekan-rekannya dan menggunakan tongkat untuk menghancurkan jendela samping pengemudi sebelum menarik pria yang tidak sadarkan diri itu ke tempat yang aman. Beberapa saat setelah operasi penyelamatan, terjadi ledakan kecil di depan kamera.

“Petugas kami yang sedang berpatroli rutin mengetahui kejadian ini dan segera bergegas memeriksa keselamatan penumpang di dalam kendaraan yang terbakar,” kata CHP kepada Fox News Digital pada hari Sabtu.

Balai Kota Los Angeles dievakuasi setelah sebuah mobil berhenti di trotoar di depan gedung; Pengemudi ditahan

Petugas memecahkan jendela mobil untuk menyelamatkan pengemudi yang tidak sadarkan diri pada 3 Juli 2025, dekat Los Angeles, California. (Patroli Jalan Raya California)

CHP mengatakan pengemudi tersebut mungkin “mengalami keadaan darurat medis yang menyebabkan dia keluar dari jalan raya menuju tanggul dan bertabrakan dengan pohon.” Badan tersebut menambahkan, kecelakaan itu kemudian menyebabkan mobil tersebut terbakar.

Rubah 11 Los Angeles Petugas yang merespons, Sal Leon Brito, sedang melakukan patroli rutin ketika dia melihat sebuah kendaraan menabrak pohon, lapornya. Saat dia tiba, mobilnya sudah dilalap api.

Leon Brito mengatakan kepada stasiun lokal bahwa dia bertindak tanpa ragu-ragu.

Dia berkata: “Saya tidak terlalu memikirkan apa yang bisa terjadi pada saya, yang saya pedulikan hanyalah mengetahui apakah masih ada orang di dalam mobil.”

Seorang pria Nebraska nyaris menghindari tertabrak mobil yang tidak terkendali di sebuah pompa bensin

Kebakaran besar melanda mobil pada malam hari saat petugas menuju lokasi kejadian

Seorang petugas bergegas menuju kendaraan yang terbakar pada 3 Juli 2025, dekat Los Angeles, California. (Patroli Jalan Raya California)

Dalam video tersebut, Leon Brito bergegas menuju mobil saat api membubung beberapa meter ke udara. Pria itu kemudian menggunakan tongkatnya untuk memecahkan beberapa jendela untuk memeriksa para penumpang, Fox 11 melaporkan.

Saya memecahkan jendela belakang, saya tidak melihat ada penumpang di belakang. Baru setelah saya memecahkan jendela pengemudi saya melihat seorang pria yang tidak sadarkan diri,” kata Leon Brito.

Rekannya pun tampak membantu mengeluarkan pria itu dari neraka. FOX 11 mengidentifikasi dia sebagai Petugas Manuel Gonzalez.

Pengemudi tersebut segera dibawa ke rumah sakit setempat dalam kondisi stabil, kata CHP kepada Fox News Digital.

Para tersangka memimpin polisi dalam pengejaran liar di Los Angeles sambil mencuri beberapa kendaraan, termasuk sebuah truk besar

Petugas tiba di kendaraan yang terbakar untuk menarik pengemudi dari kendaraan yang terbakar

Beberapa petugas menyelamatkan seorang pengemudi yang tidak sadarkan diri dari mobil yang terbakar pada 3 Juli 2025, dekat Los Angeles, California. (Patroli Jalan Raya California)

Kedua petugas yang terlibat baru-baru ini diberi penghargaan atas pengabdian mereka oleh Elks Lodge, sebuah “organisasi persaudaraan”, menurut FOX 11. Pemirsa yang menonton video online juga memuji para petugas atas tindakan heroik mereka.

“Dalam menghadapi bahaya, petugas CHP-Los Angeles Selatan bertindak tanpa ragu-ragu, menghancurkan jendela kendaraan yang terbakar menggunakan tongkat penahan cepat untuk menyelamatkan pengemudi yang tidak responsif dan terjebak di dalam,” kata badan negara tersebut pada Kamis.

KLIK DI SINI UNTUK MENDAPATKAN APLIKASI FOX NEWS

“Tindakan cepat dan berani mereka menyelamatkan nyawa dan mencegah terjadinya tragedi,” tambah CHP.

“Pengakuan itu bagus, tapi saya di sini benar-benar melakukan pekerjaan saya,” kata Leon Brito kepada FOX 11.

Tautan sumber

Continue Reading

Berita

Binaragawan India Varinder Singh Ghuman meninggal pada usia 42 tahun

Published

on

baruAnda sekarang dapat mendengarkan artikel Fox News!

Binaragawan terkenal India Varinder Singh Ghuman meninggal awal pekan ini pada usia 42 tahun setelah menderita serangan jantung selama operasi.

surat kabar India Mimbar Dia mengatakan Ghuman mengalami robekan pada otot dadanya, sehingga dia dibawa ke Rumah Sakit Fortis di Amritsar.

Outlet India lainnya, Lintas orangDia melaporkan bahwa Joman menderita nyeri bahu sebelum dirawat di rumah sakit.

KLIK DI SINI UNTUK CAKUPAN OLAHRAGA LEBIH LANJUT DI FOXNEWS.COM

Aktor dan binaragawan India Varinder Singh Ghuman memberikan penghormatan di Kuil Emas di Amritsar pada 1 Juni 2012. (Narinder Nanuav/Getty Images)

Binaragawan ini memenangkan gelar Mr. India pada tahun 2009 dan menjadi runner-up di Mr. Asia pada tahun yang sama. Dipekerjakan oleh Arnold Schwarzenegger untuk mempromosikan produk kesehatannya di Asia, dia adalah orang India pertama yang memperoleh kartu profesional dari Federasi Binaraga Internasional (IFBB).

Varinder Singh Ghuman di acara tersebut

Aktor India Varinder Singh Ghuman melenturkan ototnya bersama binaragawan lainnya saat konferensi pers di Amritsar pada 30 Agustus 2010. (Narinder Nanuav/Getty Images)

Komisaris WNBA Cathy Engelbert dicemooh fans dan dijungkirbalikkan saat mempersembahkan trofi juara

Ghuman muncul dalam empat film, termasuk “Tiger 3,” yang meraup Rs 466 crore, atau hampir $52 juta, di box office. Dia juga berpartisipasi dalam turnamen Arnold Classic.

“Mendengar berita kematian mendadak binaragawan dan aktor terkenal Punjabi Virender Singh Ghuman ji membuat hati saya sangat sedih,” kata seorang pemimpin senior Kongres. Sukjinder Singh Randhawa di Xmelalui terjemahan. “Dengan kerja keras, disiplin dan kemampuannya, beliau telah mengharumkan nama Punjab di seluruh dunia. Semoga Wahguru memberikan jiwanya tempat tinggal abadi di kakinya dan memberikan kekuatan kepada keluarga untuk menanggung pukulan menyedihkan ini.”

Ulasan Varinder Singh Ghuman

Aktor India Varinder Singh Ghuman melenturkan ototnya bersama binaragawan lainnya saat konferensi pers di Amritsar pada 30 Agustus 2010. (Narinder Nanuav/Getty Images)

KLIK DI SINI UNTUK MENDAPATKAN APLIKASI FOX NEWS

Pada satu titik, Ghuman, yang tingginya 6 kaki 2, memiliki berat 287 pon.

Ikuti Fox News Digital Liputan olahraga di Xdan berlangganan Buletin Huddle Olahraga Fox News.



Tautan sumber

Continue Reading

Trending