Connect with us

Berita

Di luar kecerdasan buatan yang kuat: Institut Teknologi Massachusetts menyediakan model untuk mengajar diri mereka sendiri

Published

on

Bergabunglah dengan acara bahwa para pemimpin lembaga telah dipercaya selama hampir dua dekade. VB Transform menggabungkan orang yang membangun strategi AI untuk institusi nyata. Pelajari lebih lanjut


Peneliti di dengan Saya mengembangkan kerangka kerja yang disebut Model bahasa self -adaptation (Seal) Model LLMS memungkinkan pembelajaran dan terus beradaptasi dengan memperbarui parameter internal mereka. Seal cenderung LLM untuk membuat data pelatihan dan memperbarui instruksi, memungkinkannya untuk menyerap pengetahuan baru secara permanen dan mempelajari tugas -tugas baru.

Kerangka kerja ini dapat berguna untuk aplikasi lembaga, terutama untuk agen kecerdasan buatan yang bekerja di lingkungan yang dinamis, di mana mereka harus terus -menerus memproses informasi baru dan menyesuaikan perilaku mereka.

Tantangan AC LLMS

Meskipun model bahasa besar telah menunjukkan kemampuan yang hebat, adaptasi mereka dengan tugas -tugas spesifik, menggabungkan informasi baru, atau penguasaan keterampilan berpikir baru, masih merupakan hambatan yang besar.

Saat ini, ketika menghadapi tugas baru, LLM biasanya belajar dari data “AS-IS” melalui metode seperti Finetung atau Lost-Context. Namun, data yang disediakan tidak selalu dalam format optimal model untuk belajar secara efisien. Metode model saat ini tidak memungkinkan pengembangan strategi sendiri untuk konversi dan pembelajaran terbaik dari informasi baru.

“Misalnya, asisten pengkodean mungkin perlu menyerap kerangka kerja program yang ditentukan perusahaan, atau model yang dihadapi pelanggan mungkin perlu mempelajari perilaku atau preferensi pengguna yang unik dari waktu ke waktu,” kata Gio Barry, seorang mahasiswa PhD di Massachusetts Institute of Technology dan rekan kerja kertas.

Dalam kasus seperti itu, pengambilan sementara terbatas, dan pengetahuan harus “dipanggang” berat model untuk mempengaruhi semua respons di masa depan.

Buat Model Bahasa yang Diri Sendiri

“Sebagai langkah menuju pengembangan dan adaptasi model bahasa yang efektif, kami menyarankan agar LLM dilengkapi dengan kemampuan untuk menghasilkan data pelatihan dan arahan mereka dalam menggunakan data ini,” kata para peneliti di Massachusetts Institute of Technology dalam makalah mereka.

Gambaran Umum Kerangka Penyegelan: Arxiv

Solusi peneliti adalah segel, kependekan dari model adaptasi diri. Algoritma Pembelajaran Penguatan (RL) digunakan untuk melatih LLM untuk membuat instruksi “pengeditan diri” dalam bahasa alami yang mendefinisikan cara memperbarui model atau bobotnya sendiri. Pemerintah mandiri ini dapat merestrukturisasi informasi baru, membuat contoh pelatihan buatan, atau bahkan mengidentifikasi parameter teknis dari proses pembelajaran itu sendiri.

Secara intuitif, SEAL mengajarkan model cara membuat panduan kustomnya. Alih -alih hanya membaca dokumen baru (data awal), formulir belajar untuk menulis ulang dan membuat kembali informasi dengan cara yang dapat menyerap dan menyerapnya dengan lebih mudah. Proses ini menyatukan banyak bidang utama penelitian kecerdasan buatan, termasuk pembuatan data buatan dan pembelajaran untuk meningkatkan dan pelatihan pada waktu tes (TTT).

Bingkai bekerja pada sistem loop. Dalam “cincin internal”, model ini menggunakan pengeditan diri untuk membuat pembaruan sementara sementara untuk bobotnya. Dalam “Episode Eksternal”, sistem mengevaluasi apakah pembaruan ini telah meningkatkan kinerja model pada misi yang ditargetkan. Jika ya, model menerima hadiah positif, yang meningkatkan kemampuannya untuk menghasilkan jenis muatan diri yang efektif ini di masa depan. Seiring waktu, LLM menjadi ahli dalam mengajar dirinya sendiri.

Dalam studi mereka, para peneliti menggunakan satu model dari seluruh bingkai perangko. Namun, mereka juga memperhatikan bahwa proses ini dapat dipisahkan dalam model “guru-siswa”. Model guru khusus dapat dilatih untuk menghasilkan pengeditan diri yang efektif untuk model siswa yang terpisah, yang akan diperbarui setelah itu. Pendekatan ini dapat memungkinkan jalur pipa adaptif yang lebih khusus dan efektif dalam pengaturan lembaga.

Segel

Para peneliti menguji segel di dua bidang utama: menggabungkan pengetahuan (kemampuan untuk mengintegrasikan fakta baru secara permanen) dan belajar sedikit bidikan (kemampuan untuk menggeneralisasi dari beberapa contoh).

Segel dalam menggabungkan pengetahuan (sumber: arxiv)
Segel dalam menggabungkan sumber pengetahuan: arxiv

Untuk mengintegrasikan pengetahuan, tujuannya adalah untuk mengetahui apakah model dapat menjawab pertanyaan tentang klip teks tanpa mencapai klip selama interogasi. Finetuning llama-3.2b disajikan pada teks mentah hanya peningkatan marjinal pada model dasar.

Namun, ketika model SEAL menciptakan “pengeditan diri” dengan menghasilkan banyak “barang antik” dari klip dan dilatih pada data buatan ini, akurasinya melonjak menjadi 47 %. Perlu dicatat bahwa hasil ini melebihi kinerja penggunaan data buatan yang dibuat oleh GPT-4.1 terbesar, yang menunjukkan model yang telah dipelajari untuk membuat bahan pelatihan yang unggul untuk dirinya sendiri.

Beberapa segel pembelajaran (sumber: arxiv)
Segel dalam sedikit pembelajaran. Sumber: Arxiv

Untuk belajar sedikit, para peneliti menguji segel pada contoh pemikiran busur, di mana model harus menyelesaikan teka -teki visual. Pada tahap self -liberasi, model harus membuat strategi adaptasi keseluruhan, termasuk bala bantuan data dan alat yang harus digunakan dan tingkat pembelajaran yang harus diterapkan.

SEAL mencapai tingkat keberhasilan 72,5 %, peningkatan yang signifikan dalam tingkat 20 % tanpa pelatihan RL dan pembelajaran standar 0 % dalam konteks.

Segel (garis merah) terus meningkat melalui siklus RL (Sumber: Arxiv)
Segel (garis merah) terus meningkat melalui sumber sumber RL: arxiv

Efek dari institusi

Beberapa ahli menawarkan bahwa menyediakan data pelatihan berkualitas tinggi yang dibuat oleh manusia dapat habis di tahun -tahun mendatang. Kemajuan mungkin segera tergantung pada “kemampuan model untuk menghasilkan sinyal pelatihan penggunaan tinggi,” kata para peneliti. Mereka menambahkan, “Langkah alami berikutnya adalah merancang bentuk generator tempat tinggal buatan yang berdedikasi yang menghasilkan perusahaan korpora prajurit baru, yang memungkinkan bahan di masa depan untuk memperluas efisiensi data dan mencapai data yang lebih besar tanpa mengandalkan teks manusia tambahan.”

Misalnya, para peneliti menyarankan agar LLM dapat memakan dokumen -dokumen kompleks seperti makalah akademik atau laporan keuangan dan menghasilkan ribuan interpretasi dan efek pada memperdalam pemahaman mereka.

“Episode berulang dari ekspresi diri dan informasi diri ini dapat memungkinkan spesifikasi untuk meningkat dalam topik langka atau aktris aktif bahkan tanpa adanya pengawasan eksternal tambahan,” jelas para peneliti.

Kemampuan ini sangat menjanjikan untuk membangun agen kecerdasan buatan. Agen harus mendapatkan pengetahuan dan menjaga mereka saat mereka berinteraksi dengan lingkungan mereka. Segel menyediakan mekanisme untuk ini. Setelah reaksi, agen dapat mensintesis pengeditan diri untuk membuat pembaruan berat badan, memungkinkannya untuk menyerap pelajaran yang dipetik. Agen ini memungkinkan pengembangan dari waktu ke waktu, meningkatkan kinerjanya berdasarkan pengalaman, dan mengurangi ketergantungannya pada pemrograman tetap atau panduan manusia yang sering.

“Seal menjelaskan bahwa model bahasa besar tidak tetap diperbaiki setelah pelatihan,” tulis para peneliti. “Dengan belajar menghasilkan data pengeditan diri mereka dan menerapkannya melalui pembaruan ringan, mereka dapat secara mandiri mengintegrasikan pengetahuan baru dan beradaptasi dengan tugas -tugas baru.”

Pembatasan segel

Namun, segel bukanlah solusi global. Misalnya, ia dapat menderita “kelupaan bencana”, di mana kursus pelatihan ulang yang berkelanjutan dapat mempelajari model sebelumnya.

“Dalam implementasi kami saat ini, kami mendorong pendekatan hibrida,” kata Barry. “Lembaga harus selektif tentang pengetahuan penting yang cukup untuk menggabungkannya secara permanen.”

Data yang realistis dan dikembangkan dapat tetap dalam memori eksternal melalui pemotongan, sementara pengetahuan jangka panjang dalam bentuk perilaku lebih cocok untuk pembaruan tingkat berat segel.

Dia berkata: “Jenis strategi memori hibrida ini memastikan bahwa informasi yang benar berlanjut tanpa melanjat model atau memberikan kelupaan yang tidak perlu.”

Perlu juga dicatat bahwa segel membutuhkan waktu yang tidak membedakan waktu untuk menetapkan contoh -contoh pembiberasi diri dan melatih model. Ini membuat pembebasan terus menerus dalam waktu aktual tidak mungkin di sebagian besar pengaturan produksi.

Barry mengatakan: “Kami membayangkan model penerbitan yang lebih praktis karena sistem mengumpulkan data untuk beberapa periode, atau beberapa jam atau sehari dan kemudian menargetkan pengeditan diri selama periode modernisasi yang dijadwalkan.” “Pendekatan ini memungkinkan lembaga untuk mengendalikan biaya adaptasi, sambil melanjutkan kemampuan torrent untuk menyerap pengetahuan baru.”


Tautan sumber
Continue Reading
Click to comment

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Berita

FBI Menyelidiki Pemogokan Sinematik Viral, Kementerian Kehakiman mengkonfirmasi

Published

on

baruAnda sekarang dapat mendengarkan Fox News!

FBI dan Kementerian Kehakiman mengkonfirmasi bahwa ada penyelidikan federal terbuka di pusat kota yang kejam pada akhir pekan lalu, yang menjadi viral online, dan itu mengejutkan negara.

“FBI dan akan berlanjut erat dengan Departemen Kepolisian Singinati dalam hal ini,” kata Fox News Digital Group pada Rabu pagi.

Pejabat Kementerian Kehakiman juga mengkonfirmasi pada hari Rabu pagi bahwa ada penyelidikan federal terbuka dalam masalah ini.

Pertempuran Jumat malam pecah di pusat Cincinnati, meninggalkan banyak orang yang terluka. (x/@anthea06274890)

Tersangka ketiga di Brutu Cincinnati Beatdown, menangkapnya, dituduh melakukan penyerangan

Pada hari Minggu malam, asisten jaksa penuntut Harmet Delon mengisyaratkan tuduhan kebencian federal potensial.

“Undang -undang kebencian federal kami berlaku untuk semua orang Amerika. Kami akan memantau (di Departemen Kehakiman Hak Sipil) dengan cermat bagaimana menangani otoritas lokal untuk serangan ini,” Katanya di x Tentang pemukulan. “Tidak seorang pun di negara besar kita yang harus menjadi korban kejahatan semacam itu, dan di mana perlombaan adalah motif, hukum federal dapat berlaku.”

Adegan kacau itu menarik perhatian Senator Bernie Moreno, Rao, yang mengkritik para penyerang sebagai “sepi” dan Ambil ke x Untuk meminta penyelidikan federal.

“Aftab Pureval tidak akan mengangkat jari untuk melindungi jalan -jalannya dan memulihkan ketertiban, jadi sudah waktunya untuk membawa para profesional yang akan melakukannya,” tulis Mourino.

Jaksa Penuntut Umum BAM Bondi Saksi di hadapan Senat

Jaksa Penuntut Umum Pam Bondi dan Kementerian Kehakiman sedang menyelidiki serangan Cincinnati viral. (Tom Williams/CQ-Roll Call, Inc. via Getty Images)

Jaksa Penuntut Umum Pam Bondi Moreno berterima kasih padanya karena menghubungkan Kementerian Kehakiman dengan salah satu korban dan “banyak mensponsori”.

Pemogokan terjadi di sudut Fourth Street dan Elm Street di area bisnis di pusat kota Cincinnati pada dini hari pada hari Sabtu. Video yang dibagikan secara luas menunjukkan sekelompok orang yang secara brutal merangkul dua orang lainnya selama konfrontasi, dengan cedera seorang wanita di jalan.

Cincinnati Street Corner dekat cinta, adegan keturunan viral

Angle Street keempat dan Elm Street di luar Love, sebuah klub malam lokal, tempat pemukulan terjadi, seperti yang terlihat pada 28 Juli 2025 di Cincinnati. (Peter de Abroska/Fox News Digital)

Dua ditangkap dalam serangan massa Singinati yang brutal. Satu dibebaskan dengan jaminan meskipun ada tuduhan serius

Pada Rabu pagi, tiga orang ditangkap dan ditahan, sementara dua lainnya didakwa tetapi belum ditangkap.

Montesianz, 34, dan Dikira Vernon, 24, ditangkap pada Selasa malam. Keduanya menghadapi serangan kriminal, dan mereka menuntut kerusuhan dan penyerangan. Merriweather ditahan dengan obligasi $ 500.000, sementara Vernon ditahan dengan nilai $ 200.000.

Tersangka ketiga, Jermin Matthews, diadakan semalam dan didakwa dengan kerusuhan dan serangan ketat. Dia ditahan dengan ikatan $ 100.000.

Meriweather berada di luar obligasi setelah dituduh menerima harta curian, senjata di bawah disabilitas, transportasi senjata api yang tidak tepat dan tuduhan lainnya awal bulan ini.

Kepala Sensinati Polisi Teresa Thetg mengutuk serangan itu pada pertemuan keselamatan publik pada Selasa malam.

Sensinati Kepala Tersa Thieg

Kepala Sensinati dari Teresa Thetg mengumumkan penangkapan dua orang yang diduga terlibat dalam pertempuran akhir pekan, yang telah mendapatkan perhatian nasional. (Digital Fox News)

“Biarkan saya jelas, jelas, itu adalah konfrontasi yang kejam dan kejam,” katanya. “Itu membuatku muak untuk melihatnya lagi dan lagi di National News khususnya. Aku tidak suka difoto oleh Cincinnati secara negatif pada berita nasional. Kita bisa melakukan apa yang lebih baik. Kita bisa jauh lebih baik.”

Klik di sini untuk mendapatkan aplikasi Fox News

Theet menolak untuk berkomentar lebih banyak setelah pertemuan, dan Departemen Kepolisian Singinati tidak memerlukan re -request pada hari Rabu pagi.

Fox News Digital Contact Pureval.

Fox News Greg Winner berkontribusi pada laporan ini.

Tautan sumber

Continue Reading

Berita

Google DeepMind mengatakan kecerdasan buatan baru dapat menetapkan seluruh planet yang belum pernah terjadi sebelumnya

Published

on


Google DeepMind mengungkapkan AlphaeAge, sistem Amnesty International yang berurusan dengan data satelit 16X lebih efisien untuk membuat peta tanah terperinci untuk melacak penghapusan hutan, perubahan iklim, dan pergeseran lingkungan.

Tautan sumber

Continue Reading

Berita

Malaikat menghadapi celah tersembunyi dari MLB Brodcaster

Published

on

baruAnda sekarang dapat mendengarkan Fox News!

John Crook memenangkan penyiar Philadelphia Velaz untuk Chicago Sky Angel Rais, selama pertandingan tim melawan Chicago White Sox pada Selasa malam.

Velez memimpin 6-0 di puncak babak keenam ketika Tom McCarthy, seorang olahragawan di Philadelphia, mengirim selamat ulang tahun kepada istri temannya. McCarthy memuji temannya karena menjadi “pemain bola basket” ketika dia bermain di Ryder dan Montmaouth.

Klik di sini untuk lebih banyak liputan olahraga di foxnews.com

Chicago Sky Angel Reese, No. 5, Wanders melawan Minnesota Linux pada kuartal pertama di pusat besar di Minneapolis pada 22 Juli 2025. (Imagn)

“Semuanya karena aku melewatkan banyak tembakan, dan dia membersihkannya,” canda McCarthy.

Kruk menjawab, “Ada seseorang di sini di Chicago yang sering melakukannya,” dia tampaknya merujuk pada Reese. McCarthy mengakui bahwa dia “mendapatkan poinnya”, sementara Crook meluncurkan “,” mendapatkan bolanya juga. “

“Kami akan mendapatkan beberapa tweet tentang hal itu, saya yakin,” tambah Krock, sebelum para penyiar kembali bekerja.

Reese meluncurkan posting di X sekitar satu jam setelah komentar Crook muncul.

WNBA diboikot sebagai benda aneh yang terbang ke pengadilan

John Crook di Velez Game

John Croc adalah yang pertama di Philadelphia Velez, John Crocok, selama akhir pekan di Velez, dan peringatan kedua puluh Taman Bank Citizen sebelum pertandingan melawan warga Washington di Taman Taman rekan senegaranya di Philadelphia pada 18 Agustus 2024. (Eric Hartline-Elay Today Sports)

“Orang -orang adalah Hilova, sama seperti itu sejauh tertentu,” tulisnya.

Reese kembali ke Formasi Langit pada Selasa malam, bermain 32 menit. Dia mencetak 22 poin, mendapat 13 rebound dan mencetak tiga operan yang menentukan. Itu juga memiliki tiga pencurian dan tiga blok. Namun, langit jatuh pada para sufi di Washington.

Di tengah -tengah merakit musim statistik yang lebih baik daripada tahun yang baru muncul. Rata -rata 14,2 poin dan 12,6 rebound untuk setiap pertandingan sejauh ini.

Sementara Reese dikenal membersihkannya dalam kerugiannya, dia menoleh ke pembuatnya menjadi kampanye pemasaran yang cerdik.

Merek “Mebounds” berharap mendapat manfaat dari kritik.

“Siapa yang mencapai sesuatu” Mebounds “, aku memakannya. Karena” Mebounds “, dia bangkit, crebound … apa pun dimulai dari lukisan ini, itu milikku.”

Angel Rais mengarah ke keranjang

Striker Langit Chicago, Angel Rais, No. 5, bergegas ke keranjang, di mana striker Washington Kiki Ervin, No. 44, bergegas di babak pertama di Kerv’s Care di Washington, DC, pada 29 Juli 2025. (Gambar Jeff Burke-Imagn)

Klik di sini untuk mendapatkan aplikasi Fox News

“وعلامة تجارية؟ هذه ستة أرقام هناك. التصيد ، أحب عندما تفعل ذلك ، لأن الأفكار ، مثل ، مثل ، عندما تضطر إلى تغيير وجهي و s — لأنني لطيف ، على ما يرام ، أيا كان ذلك. يحصل فيه على ذلك ، أو عندما λكون هناك ، أو عندما λ λ هناك ، أ أ أ sambil كو uga كون awa اك ك هAN ك هAN ك هAN ك هAN ك هAN ك هAN ك هAN ك هAN ك هAN ك هAN كAN ك هAN ك هAN ك هAN ك هAN كAN ك ه ه mengumpulkan أو ، أو ، أو ، أو ، أو ,,,,,,,,,,,,,,,,,,,, Or,, or, or, or, or, or, or,,,,,,,,,,,, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, or, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau, atau,.

Ryan Morik di Fox News berkontribusi pada laporan ini.

Digital Fox News Cakupan Olahraga di XDan berlangganan Newsletter Fox News Sport Hold.



Tautan sumber

Continue Reading

Trending