Berita
Kurang mengawasi, hasil yang lebih baik: Studi ini menunjukkan bahwa model kecerdasan buatan lebih efektif

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
Model bahasa dapat diedarkan lebih baik ketika mereka dibiarkan membuat solusi mereka sendiri Studi baru Diposting oleh Universitas Hong Kong dan Universitas California, Berkeley. Hasil, yang berlaku untuk model LLMS dan model VLMS, menantang salah satu kepercayaan utama dari model LLM-yang memerlukan contoh pelatihan beracun secara manual. Faktanya, para peneliti menjelaskan bahwa model pelatihan pada banyak contoh borgol dapat memiliki efek berbahaya pada kemampuan model untuk menggeneralisasi data yang tidak terlihat.
Sft vs rl dalam pelatihan khas
Untuk waktu yang lama, kontrol kontrol (SFT) adalah standar emas untuk pelatihan LLMS dan VLMS. Setelah model pra -terlatih dalam data dan gambar teks mentah, biasanya diimplementasikan di bidang data teks mentah dan laboratorium pada sejumlah besar data dari contoh buatan tangan dalam mengoordinasikan pertanyaan/jawaban atau permintaan/respons. Setelah SFT, model dapat menjalani tahapan pelatihan tambahan, seperti Belajar penguatan dari reaksi manusia (RLHF), di mana model mencoba mempelajari preferensi manusia implisit berdasarkan sinyal seperti klasifikasi jawaban atau kekaguman/pengulangan dalam respons model.
SFT berguna untuk mengarahkan perilaku model menuju jenis tugas yang dirancang oleh model kreatif. Namun, pengumpulan data adalah proses yang lambat dan mahal, yang merupakan hambatan bagi banyak perusahaan dan laboratorium.
Perkembangan modern di LLM telah menciptakan perhatian dalam pendekatan pembelajaran penguatan murni (RL), di mana model diberi tugas dan dibiarkan untuk mempelajarinya sendiri tanpa contoh buatan tangan. Contoh yang paling penting adalah Deepseek-R1, pesaing Openai O1 yang sebagian besar menggunakan pembelajaran untuk memperkuat tugas pemikiran yang kompleks.
Melingkar terhadap menghafal
Salah satu masalah utama Sistem Pembelajaran Otomatis (ML) adalah untuk mengatasi model mengatasi, karena model bekerja dengan baik pada data pelatihannya tetapi gagal menggeneralisasi dalam contoh yang tidak terlihat. Selama pelatihan, model memberi kesan yang salah tentang mempelajari tugas, sementara dalam praktiknya ia telah menghafal contoh pelatihan. Dalam model kecerdasan buatan yang besar dan kompleks, generalisasi generalisasi bisa sulit.
Studi baru ini berfokus pada kemampuan pelatihan RL dan SFT dalam tugas -tugas berpikir tekstual dan visual. Untuk pemikiran tekstual, LLM, dilatih pada seperangkat aturan, harus dapat menggeneralisasi variabel aturan ini. Dalam pemikiran visual, VLM harus tetap konsisten dalam melakukan tugas untuk perubahan dalam berbagai aspek input visual, seperti warna dan perencanaan spasial.
Dalam pengalaman mereka, para peneliti menggunakan dua tugas yang representatif. Yang pertama adalah titik umum, standar yang mengevaluasi kemampuan berpikir komputasi model. Formulir ini diberikan empat kartu, sebagai deskripsi teks atau gambar, dan diminta untuk menggabungkannya untuk mencapai nomor target. Untuk mempelajari surat edaran berbasis berkuasa, para peneliti melatih model menggunakan satu set aturan, kemudian mengevaluasinya menggunakan basis yang berbeda. Untuk sirkulasi visual, mereka melatih model menggunakan satu kartu warna dan menguji kinerjanya pada warna lain dan rencana penomoran.
Tugas kedua V-flickYang menguji kemungkinan pemikiran spasial dari model di bidang gerakan di dunia terbuka yang menggunakan input visual yang realistis. Tugas ini juga datang dalam versi murni dan bahasa. Para peneliti menilai surat edaran dengan mengubah jenis instruksi dan representasi visual, model dilatih dan diuji.

Mereka melakukan tes mereka di LLAMA-3.2-Vision-11b, menaikkan model dengan melatihnya pada set data SFT kecil, kemudian membuat versi terpisah untuk setiap tugas dan formulir pelatihan. Untuk setiap tugas, mereka memperluas jangkauan pelatihan secara terpisah pada RL dan SFT. Model SFT dilatih dalam solusi buatan tangan, sementara RL memungkinkan model untuk membuat banyak solusi untuk setiap masalah, mengevaluasi hasil dan melatih dirinya sendiri pada jawaban yang tepat.
Hasil menunjukkan bahwa pembelajaran penguatan terus meningkatkan kinerja pada contoh yang sangat berbeda dari data pelatihan. Di sisi lain, SFT tampaknya melestarikan aturan pelatihan dan tidak digeneralisasi pada contoh di luar distribusi. Catatan ini berlaku untuk masing -masing pengaturan teks dan multi -media.

Efek dari aplikasi dunia nyata
Meskipun pengalaman mereka menunjukkan bahwa RL lebih baik dalam melingkar dari SFT, para peneliti juga menemukan bahwa SFT berguna untuk memasang format format format, yang sangat penting untuk memungkinkan RL membuat perolehan kinerja. Para peneliti menemukan bahwa tanpa tahap SFT awal, RL tidak mencapai hasil yang diinginkan.
Ini sedikit berbeda dari hasil yang diperoleh oleh Deepseek-R1-Zero, yang dilatih setelah RL murni. Para peneliti menyarankan bahwa ini bisa disebabkan oleh berbagai model tulang belakang yang mereka gunakan dalam percobaan mereka.
Jelas bahwa ada banyak kemampuan yang tidak dieksploitasi dalam pendekatan yang berat. Adapun hasil penggunaan yang diverifikasi, memungkinkan model untuk belajar sendiri dapat menyebabkan hasil yang tidak terduga yang tidak dapat dibuat oleh orang. Ini bisa sangat berguna dalam pengaturan karena dapat dibuat dengan contoh manual yang membosankan dan mahal.
Berita
Pam Bondi Fires DOJ Paralegal, diduga mengaduk seorang anggota Garda Nasional

baruAnda sekarang dapat mendengarkan Fox News!
Pada hari Jumat, Jaksa Penuntut Umum BAM Bondi meluncurkan Kementerian Kehakiman, kali ini, untuk hatinya dari seorang anggota Pengawal Nasional di Washington, DC, dalam perjalanannya untuk bekerja awal bulan ini.
Elizabeth Paxter dari Departemen Lingkungan Kementerian tiba untuk bekerja setelah pukul 8:20 pagi pada 18 Agustus di gedung “4Con” di DOJ di daerah Noma, di mana ia membual tentang penjaga gawang keamanan yang baru saja menghadirkan gerakan di Metro Metro Center dan memberi tahu para penjaga, “dan. New York Post.
“Hari ini, saya mengambil langkah -langkah untuk mengakhiri karyawan Kementerian Kehakiman karena perilaku yang tidak pantas terhadap anggota Layanan Penjaga Nasional di ibukota,” kata Bondi kepada direktur.
Mantan Pekerja Kementerian Kehakiman yang melemparkan sandwich ke seorang perwira federal yang dituduh melakukan pelanggaran ringan
Jaksa Penuntut Umum BAM Bondi meluncurkan Kementerian Kehakiman. ;
“Kementerian Kehakiman ini masih berkomitmen untuk membela agenda Presiden Trump dan berjuang untuk membuat Amerika aman lagi,” katanya. “Jika Anda menentang misi kami dan kurangnya rasa hormat terhadap penegakan hukum – Anda tidak akan bekerja lagi di Kementerian Kehakiman.”
Kemudian pada hari itu, Paxter terlihat pada klip keamanan Kementerian Kehakiman hingga jari tengahnya di Garda Nasional dan goyang, “fk you!” Saya menyebutkan port. Juga diklaim bahwa dia terlihat menunjukkan penjaga keamanan departemen bagaimana dia membawa jari tengahnya.
Pada 25 Agustus, diklaim bahwa dia telah mencapai pekerjaan dan membual lagi dengan penjaga keamanan, yang dibenci oleh penjaga nasional dan bahwa dia memberi tahu mereka bahwa “FK.
Bondi mengumumkan hampir 200 penangkapan dan “menyesuaikan” sebagai agen federal.

Elizabeth Paxter telah selesai untuk membalik anggota Garda Nasional di Washington, DC, dalam perjalanannya ke tempat kerja. (Getty Images/Tasos Katopodis)
“Anda telah dikeluarkan dari posisi Anda dari spesialis hukum, GS-0950-11, Departemen Pertahanan Lingkungan, Departemen Lingkungan dan Sumber Daya Alam, dan dari Layanan Federal, efektif,” tulis Bondi dalam sebuah surat untuk dicopot pada hari Jumat setelah penyelidikan perilakunya, menurut pelabuhan.
Dalam beberapa minggu terakhir, pemerintahan Trump telah pindah untuk meningkatkan penegakan hukum federal di ibukota dalam upaya mengurangi kejahatan. Ratusan agen federal dan pasukan Penjaga Nasional telah dikerahkan di jalan -jalan kota sebagai bagian dari akuisisi federal di kawasan itu.

Ratusan agen federal dan pasukan Garda Nasional telah dikerahkan di jalan -jalan ibukota. (Foto Jacquelyn Martin/AP)
Klik di sini untuk mendapatkan aplikasi Fox News
Pengakhiran Paxter datang setelah Sean Charles Den dikeluarkan, hukum lainnya, setelah dituduh melempar sandwich di agen perlindungan bea cukai dan perbatasan awal bulan ini di Washington, DC.
Den, yang bekerja di departemen Divisi Kriminal Internasional di gedung 4Con, pada awalnya didakwa melakukan kejahatan, tetapi dewan juri menolak untuk menyerahkan dakwaan. Dia kemudian dituduh sayap, yang dapat menyebabkan hingga satu tahun penjara.
Berita
Cara membangun algoritma evolusi baru untuk model AI Sakana AI yang kuat tanpa pelatihan ulang yang mahal

M2N2 adalah teknologi menggabungkan model yang menciptakan faktor multi -sinter yang kuat tanpa kebutuhan dan data biaya tinggi dari pelatihan ulang. Baca selengkapnya
Tautan sumber
Berita
Pentagon mendukung Anthony Tata di tengah perselisihan hukum di Florida dengan tambang

baruAnda sekarang dapat mendengarkan Fox News!
Pentagon berdiri dengan kuat di belakang menteri pertahanan karyawan dan pembaruan Anthony Tata, yang menghadapi perselisihan hukum di Florida yang terkait dengan tambang yang dijelaskan sendiri.
Sean Barnell, juru bicara Pentagon, mengatakan kepada Fox News bahwa Tata terus menikmati kepercayaan penuh dari Menteri Pertahanan Beit Higseth.
“Menteri Tata memiliki kepercayaan penuh dan komprehensif dari Al -ouziri Higseth dalam perannya dan akan terus mendapatkan dukungannya,” kata Barnell. “Mr. Tata telah melakukan pekerjaan dengan baik dalam prioritas bagian ini dan pemerintahan ini. Kami berdiri tinggi olehnya.”
Menurut keluhan 17 halaman yang diajukan di Provinsi Palm Beach dan diperoleh oleh Fox News Digitter, John Du, yang rincian pribadinya sejalan dengan Tata, menuduh suku Emmy melakukan pelecehan, pencemaran nama baik dan upaya untuk memeras. Gugatan itu mengklaim bahwa dia mengancam pernikahannya dan kehidupan profesionalnya sambil menuntut uang untuk tetap diam.
Pentagon mendiskon karyawan sipil untuk membantu menegakkan migrasi administrasi Trump
Pentagon berdiri dengan kuat di belakang karyawan terbaiknya, Jenderal Anthony Tata, setelah file pengadilan mengklaim bahwa mereka terlibat dengan tambang Florida. (Tierney L. Cross/Bloomberg via Getty Images)
Mengarsipkan State Doe dan Tripp bertemu pada bulan April 2024 di Bumble App Dating sementara Doe sedang mengerjakan buku dan berkonsultasi tentang “kepercayaan astronomi dan masalah yang relevan.”
Hubungan mereka telah berkembang menjadi “hubungan seksual informal serta hubungan profesional yang berkaitan dengan astrologi.” Kementerian Energi juga telah berinvestasi di Tripp, Starheal LLC, untuk saham 5 %.
Catatan pengadilan menunjukkan bahwa pembatasan sementara terhadap Tripp diberikan pada 7 Agustus 2025, setelah dugaan pelecehan meningkat. Pemanggilan kemudian dirilis bulan itu untuk menanggapi tuduhan dalam waktu 20 hari.
Pentagon mengungkapkan medali baru untuk pasukan yang dikerahkan dalam kampanye Trump Border Selatan

Sean Barnil, juru bicara Pentagon, dengan Fox News, telah sepenuhnya mendukung Jenderal Tata dalam pertempuran hukum. (Gambar Andrew Harnik/Getty)
Sementara kasus Florida terungkap, profesi Tata meluas ke kontrak militer dan dinas publik. Dean dan novelis di tentara pensiunan menghabiskan 28 tahun dalam seragam, termasuk layanan di Afghanistan. Setelah pensiun, ia pindah ke peran kepemimpinan sipil, termasuk tugas -tugas dalam pendidikan, Menteri Transportasi di North Carolina.
Tata, lulusan West Point, juga mengadakan Medali Layanan Angkatan Darat yang terhormat, medali Layanan Pertahanan yang unggul, “Korps Hipit, Combat Bad Carry, Kampanye Afghanistan, Kampanye Cosovo, dan Ranger Tab.
Karier publiknya bukan tanpa gangguan. Tata mengundurkan diri dari publikasi transportasi pada tahun 2015, setelah memeriksa pemerintahannya, dan pencalonannya untuk peran tertinggi di Pentagon pada tahun 2020, ia menarik perhatian pada publikasi media sosial sebelumnya seperti Itu disebutkan oleh CNN. Tata kemudian meminta maaf atas pengamatannya.

Pandangan udara Pentagon, di mana fokus Jenderal Tata tetap menjadi menteri untuk membela karyawan dan mempersiapkan diri meskipun ada pertempuran hukum. (Reuters)
Tanggung jawab Tata saat ini masih mengawasi karyawan dan kesediaan Angkatan Darat Amerika adalah prioritas Pentagon meskipun ada tantangan hukum.
Klik di sini untuk mendapatkan aplikasi Fox News
Pengacara John Du dalam keluhan Palm Beach County segera tidak menanggapi permintaan digital Fox News untuk memberikan komentar.
- Berita8 tahun ago
These ’90s fashion trends are making a comeback in 2017
- Berita8 tahun ago
The final 6 ‘Game of Thrones’ episodes might feel like a full season
- Berita8 tahun ago
According to Dior Couture, this taboo fashion accessory is back
- Berita8 tahun ago
The old and New Edition cast comes together to perform
- Berita8 tahun ago
Phillies’ Aaron Altherr makes mind-boggling barehanded play
- Berita8 tahun ago
Uber and Lyft are finally available in all of New York State
- Berita8 tahun ago
Disney’s live-action Aladdin finally finds its stars
- Berita8 tahun ago
Mod turns ‘Counter-Strike’ into a ‘Tekken’ clone with fighting chickens