Connect with us

Berita

Kurang mengawasi, hasil yang lebih baik: Studi ini menunjukkan bahwa model kecerdasan buatan lebih efektif

Published

on

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Model bahasa dapat diedarkan lebih baik ketika mereka dibiarkan membuat solusi mereka sendiri Studi baru Diposting oleh Universitas Hong Kong dan Universitas California, Berkeley. Hasil, yang berlaku untuk model LLMS dan model VLMS, menantang salah satu kepercayaan utama dari model LLM-yang memerlukan contoh pelatihan beracun secara manual. Faktanya, para peneliti menjelaskan bahwa model pelatihan pada banyak contoh borgol dapat memiliki efek berbahaya pada kemampuan model untuk menggeneralisasi data yang tidak terlihat.

Sft vs rl dalam pelatihan khas

Untuk waktu yang lama, kontrol kontrol (SFT) adalah standar emas untuk pelatihan LLMS dan VLMS. Setelah model pra -terlatih dalam data dan gambar teks mentah, biasanya diimplementasikan di bidang data teks mentah dan laboratorium pada sejumlah besar data dari contoh buatan tangan dalam mengoordinasikan pertanyaan/jawaban atau permintaan/respons. Setelah SFT, model dapat menjalani tahapan pelatihan tambahan, seperti Belajar penguatan dari reaksi manusia (RLHF), di mana model mencoba mempelajari preferensi manusia implisit berdasarkan sinyal seperti klasifikasi jawaban atau kekaguman/pengulangan dalam respons model.

SFT berguna untuk mengarahkan perilaku model menuju jenis tugas yang dirancang oleh model kreatif. Namun, pengumpulan data adalah proses yang lambat dan mahal, yang merupakan hambatan bagi banyak perusahaan dan laboratorium.

Perkembangan modern di LLM telah menciptakan perhatian dalam pendekatan pembelajaran penguatan murni (RL), di mana model diberi tugas dan dibiarkan untuk mempelajarinya sendiri tanpa contoh buatan tangan. Contoh yang paling penting adalah Deepseek-R1, pesaing Openai O1 yang sebagian besar menggunakan pembelajaran untuk memperkuat tugas pemikiran yang kompleks.

Melingkar terhadap menghafal

Salah satu masalah utama Sistem Pembelajaran Otomatis (ML) adalah untuk mengatasi model mengatasi, karena model bekerja dengan baik pada data pelatihannya tetapi gagal menggeneralisasi dalam contoh yang tidak terlihat. Selama pelatihan, model memberi kesan yang salah tentang mempelajari tugas, sementara dalam praktiknya ia telah menghafal contoh pelatihan. Dalam model kecerdasan buatan yang besar dan kompleks, generalisasi generalisasi bisa sulit.

Studi baru ini berfokus pada kemampuan pelatihan RL dan SFT dalam tugas -tugas berpikir tekstual dan visual. Untuk pemikiran tekstual, LLM, dilatih pada seperangkat aturan, harus dapat menggeneralisasi variabel aturan ini. Dalam pemikiran visual, VLM harus tetap konsisten dalam melakukan tugas untuk perubahan dalam berbagai aspek input visual, seperti warna dan perencanaan spasial.

Dalam pengalaman mereka, para peneliti menggunakan dua tugas yang representatif. Yang pertama adalah titik umum, standar yang mengevaluasi kemampuan berpikir komputasi model. Formulir ini diberikan empat kartu, sebagai deskripsi teks atau gambar, dan diminta untuk menggabungkannya untuk mencapai nomor target. Untuk mempelajari surat edaran berbasis berkuasa, para peneliti melatih model menggunakan satu set aturan, kemudian mengevaluasinya menggunakan basis yang berbeda. Untuk sirkulasi visual, mereka melatih model menggunakan satu kartu warna dan menguji kinerjanya pada warna lain dan rencana penomoran.

Tugas kedua V-flickYang menguji kemungkinan pemikiran spasial dari model di bidang gerakan di dunia terbuka yang menggunakan input visual yang realistis. Tugas ini juga datang dalam versi murni dan bahasa. Para peneliti menilai surat edaran dengan mengubah jenis instruksi dan representasi visual, model dilatih dan diuji.

Mereka melakukan tes mereka di LLAMA-3.2-Vision-11b, menaikkan model dengan melatihnya pada set data SFT kecil, kemudian membuat versi terpisah untuk setiap tugas dan formulir pelatihan. Untuk setiap tugas, mereka memperluas jangkauan pelatihan secara terpisah pada RL dan SFT. Model SFT dilatih dalam solusi buatan tangan, sementara RL memungkinkan model untuk membuat banyak solusi untuk setiap masalah, mengevaluasi hasil dan melatih dirinya sendiri pada jawaban yang tepat.

Hasil menunjukkan bahwa pembelajaran penguatan terus meningkatkan kinerja pada contoh yang sangat berbeda dari data pelatihan. Di sisi lain, SFT tampaknya melestarikan aturan pelatihan dan tidak digeneralisasi pada contoh di luar distribusi. Catatan ini berlaku untuk masing -masing pengaturan teks dan multi -media.

Model terlatih SFT Contoh pelatihan yang dilakukan dengan baik (distribusi) sambil menunjukkan kinerja yang lemah pada contoh yang tidak terlihat (di luar distribusi) (sumber: arxiv)

Efek dari aplikasi dunia nyata

Meskipun pengalaman mereka menunjukkan bahwa RL lebih baik dalam melingkar dari SFT, para peneliti juga menemukan bahwa SFT berguna untuk memasang format format format, yang sangat penting untuk memungkinkan RL membuat perolehan kinerja. Para peneliti menemukan bahwa tanpa tahap SFT awal, RL tidak mencapai hasil yang diinginkan.

Ini sedikit berbeda dari hasil yang diperoleh oleh Deepseek-R1-Zero, yang dilatih setelah RL murni. Para peneliti menyarankan bahwa ini bisa disebabkan oleh berbagai model tulang belakang yang mereka gunakan dalam percobaan mereka.

Jelas bahwa ada banyak kemampuan yang tidak dieksploitasi dalam pendekatan yang berat. Adapun hasil penggunaan yang diverifikasi, memungkinkan model untuk belajar sendiri dapat menyebabkan hasil yang tidak terduga yang tidak dapat dibuat oleh orang. Ini bisa sangat berguna dalam pengaturan karena dapat dibuat dengan contoh manual yang membosankan dan mahal.

 

Continue Reading
Click to comment

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Berita

Pam Bondi Fires DOJ Paralegal, diduga mengaduk seorang anggota Garda Nasional

Published

on

baruAnda sekarang dapat mendengarkan Fox News!

Pada hari Jumat, Jaksa Penuntut Umum BAM Bondi meluncurkan Kementerian Kehakiman, kali ini, untuk hatinya dari seorang anggota Pengawal Nasional di Washington, DC, dalam perjalanannya untuk bekerja awal bulan ini.

Elizabeth Paxter dari Departemen Lingkungan Kementerian tiba untuk bekerja setelah pukul 8:20 pagi pada 18 Agustus di gedung “4Con” di DOJ di daerah Noma, di mana ia membual tentang penjaga gawang keamanan yang baru saja menghadirkan gerakan di Metro Metro Center dan memberi tahu para penjaga, “dan. New York Post.

“Hari ini, saya mengambil langkah -langkah untuk mengakhiri karyawan Kementerian Kehakiman karena perilaku yang tidak pantas terhadap anggota Layanan Penjaga Nasional di ibukota,” kata Bondi kepada direktur.

Mantan Pekerja Kementerian Kehakiman yang melemparkan sandwich ke seorang perwira federal yang dituduh melakukan pelanggaran ringan

Jaksa Penuntut Umum BAM Bondi meluncurkan Kementerian Kehakiman. ;

“Kementerian Kehakiman ini masih berkomitmen untuk membela agenda Presiden Trump dan berjuang untuk membuat Amerika aman lagi,” katanya. “Jika Anda menentang misi kami dan kurangnya rasa hormat terhadap penegakan hukum – Anda tidak akan bekerja lagi di Kementerian Kehakiman.”

Kemudian pada hari itu, Paxter terlihat pada klip keamanan Kementerian Kehakiman hingga jari tengahnya di Garda Nasional dan goyang, “fk you!” Saya menyebutkan port. Juga diklaim bahwa dia terlihat menunjukkan penjaga keamanan departemen bagaimana dia membawa jari tengahnya.

Pada 25 Agustus, diklaim bahwa dia telah mencapai pekerjaan dan membual lagi dengan penjaga keamanan, yang dibenci oleh penjaga nasional dan bahwa dia memberi tahu mereka bahwa “FK.

Bondi mengumumkan hampir 200 penangkapan dan “menyesuaikan” sebagai agen federal.

Pasukan Penjaga Nasional bersenjata berpatroli di Capitol Amerika di latar belakang, di tengah peningkatan keinginan di Washington.

Elizabeth Paxter telah selesai untuk membalik anggota Garda Nasional di Washington, DC, dalam perjalanannya ke tempat kerja. (Getty Images/Tasos Katopodis)

“Anda telah dikeluarkan dari posisi Anda dari spesialis hukum, GS-0950-11, Departemen Pertahanan Lingkungan, Departemen Lingkungan dan Sumber Daya Alam, dan dari Layanan Federal, efektif,” tulis Bondi dalam sebuah surat untuk dicopot pada hari Jumat setelah penyelidikan perilakunya, menurut pelabuhan.

Dalam beberapa minggu terakhir, pemerintahan Trump telah pindah untuk meningkatkan penegakan hukum federal di ibukota dalam upaya mengurangi kejahatan. Ratusan agen federal dan pasukan Penjaga Nasional telah dikerahkan di jalan -jalan kota sebagai bagian dari akuisisi federal di kawasan itu.

Trump berbicara dengan Staf Pengawal Nasional dan Penegakan Hukum

Ratusan agen federal dan pasukan Garda Nasional telah dikerahkan di jalan -jalan ibukota. (Foto Jacquelyn Martin/AP)

Klik di sini untuk mendapatkan aplikasi Fox News

Pengakhiran Paxter datang setelah Sean Charles Den dikeluarkan, hukum lainnya, setelah dituduh melempar sandwich di agen perlindungan bea cukai dan perbatasan awal bulan ini di Washington, DC.

Den, yang bekerja di departemen Divisi Kriminal Internasional di gedung 4Con, pada awalnya didakwa melakukan kejahatan, tetapi dewan juri menolak untuk menyerahkan dakwaan. Dia kemudian dituduh sayap, yang dapat menyebabkan hingga satu tahun penjara.

Tautan sumber

Continue Reading

Berita

Cara membangun algoritma evolusi baru untuk model AI Sakana AI yang kuat tanpa pelatihan ulang yang mahal

Published

on


M2N2 adalah teknologi menggabungkan model yang menciptakan faktor multi -sinter yang kuat tanpa kebutuhan dan data biaya tinggi dari pelatihan ulang. Baca selengkapnya

Tautan sumber

Continue Reading

Berita

Pentagon mendukung Anthony Tata di tengah perselisihan hukum di Florida dengan tambang

Published

on

baruAnda sekarang dapat mendengarkan Fox News!

Pentagon berdiri dengan kuat di belakang menteri pertahanan karyawan dan pembaruan Anthony Tata, yang menghadapi perselisihan hukum di Florida yang terkait dengan tambang yang dijelaskan sendiri.

Sean Barnell, juru bicara Pentagon, mengatakan kepada Fox News bahwa Tata terus menikmati kepercayaan penuh dari Menteri Pertahanan Beit Higseth.

“Menteri Tata memiliki kepercayaan penuh dan komprehensif dari Al -ouziri Higseth dalam perannya dan akan terus mendapatkan dukungannya,” kata Barnell. “Mr. Tata telah melakukan pekerjaan dengan baik dalam prioritas bagian ini dan pemerintahan ini. Kami berdiri tinggi olehnya.”

Menurut keluhan 17 halaman yang diajukan di Provinsi Palm Beach dan diperoleh oleh Fox News Digitter, John Du, yang rincian pribadinya sejalan dengan Tata, menuduh suku Emmy melakukan pelecehan, pencemaran nama baik dan upaya untuk memeras. Gugatan itu mengklaim bahwa dia mengancam pernikahannya dan kehidupan profesionalnya sambil menuntut uang untuk tetap diam.

Pentagon mendiskon karyawan sipil untuk membantu menegakkan migrasi administrasi Trump

Pentagon berdiri dengan kuat di belakang karyawan terbaiknya, Jenderal Anthony Tata, setelah file pengadilan mengklaim bahwa mereka terlibat dengan tambang Florida. (Tierney L. Cross/Bloomberg via Getty Images)

Mengarsipkan State Doe dan Tripp bertemu pada bulan April 2024 di Bumble App Dating sementara Doe sedang mengerjakan buku dan berkonsultasi tentang “kepercayaan astronomi dan masalah yang relevan.”

Hubungan mereka telah berkembang menjadi “hubungan seksual informal serta hubungan profesional yang berkaitan dengan astrologi.” Kementerian Energi juga telah berinvestasi di Tripp, Starheal LLC, untuk saham 5 %.

Catatan pengadilan menunjukkan bahwa pembatasan sementara terhadap Tripp diberikan pada 7 Agustus 2025, setelah dugaan pelecehan meningkat. Pemanggilan kemudian dirilis bulan itu untuk menanggapi tuduhan dalam waktu 20 hari.

Pentagon mengungkapkan medali baru untuk pasukan yang dikerahkan dalam kampanye Trump Border Selatan

Menteri Pertahanan Beit Higseth mencapai briefing Pentagon

Sean Barnil, juru bicara Pentagon, dengan Fox News, telah sepenuhnya mendukung Jenderal Tata dalam pertempuran hukum. (Gambar Andrew Harnik/Getty)

Sementara kasus Florida terungkap, profesi Tata meluas ke kontrak militer dan dinas publik. Dean dan novelis di tentara pensiunan menghabiskan 28 tahun dalam seragam, termasuk layanan di Afghanistan. Setelah pensiun, ia pindah ke peran kepemimpinan sipil, termasuk tugas -tugas dalam pendidikan, Menteri Transportasi di North Carolina.

Tata, lulusan West Point, juga mengadakan Medali Layanan Angkatan Darat yang terhormat, medali Layanan Pertahanan yang unggul, “Korps Hipit, Combat Bad Carry, Kampanye Afghanistan, Kampanye Cosovo, dan Ranger Tab.

Karier publiknya bukan tanpa gangguan. Tata mengundurkan diri dari publikasi transportasi pada tahun 2015, setelah memeriksa pemerintahannya, dan pencalonannya untuk peran tertinggi di Pentagon pada tahun 2020, ia menarik perhatian pada publikasi media sosial sebelumnya seperti Itu disebutkan oleh CNN. Tata kemudian meminta maaf atas pengamatannya.

Segi lima

Pandangan udara Pentagon, di mana fokus Jenderal Tata tetap menjadi menteri untuk membela karyawan dan mempersiapkan diri meskipun ada pertempuran hukum. (Reuters)

Tanggung jawab Tata saat ini masih mengawasi karyawan dan kesediaan Angkatan Darat Amerika adalah prioritas Pentagon meskipun ada tantangan hukum.

Klik di sini untuk mendapatkan aplikasi Fox News

Pengacara John Du dalam keluhan Palm Beach County segera tidak menanggapi permintaan digital Fox News untuk memberikan komentar.

Tautan sumber

Continue Reading

Trending