Berita

Di luar kecerdasan buatan yang kuat: Institut Teknologi Massachusetts menyediakan model untuk mengajar diri mereka sendiri

Published

on

Bergabunglah dengan acara bahwa para pemimpin lembaga telah dipercaya selama hampir dua dekade. VB Transform menggabungkan orang yang membangun strategi AI untuk institusi nyata. Pelajari lebih lanjut


Peneliti di dengan Saya mengembangkan kerangka kerja yang disebut Model bahasa self -adaptation (Seal) Model LLMS memungkinkan pembelajaran dan terus beradaptasi dengan memperbarui parameter internal mereka. Seal cenderung LLM untuk membuat data pelatihan dan memperbarui instruksi, memungkinkannya untuk menyerap pengetahuan baru secara permanen dan mempelajari tugas -tugas baru.

Kerangka kerja ini dapat berguna untuk aplikasi lembaga, terutama untuk agen kecerdasan buatan yang bekerja di lingkungan yang dinamis, di mana mereka harus terus -menerus memproses informasi baru dan menyesuaikan perilaku mereka.

Tantangan AC LLMS

Meskipun model bahasa besar telah menunjukkan kemampuan yang hebat, adaptasi mereka dengan tugas -tugas spesifik, menggabungkan informasi baru, atau penguasaan keterampilan berpikir baru, masih merupakan hambatan yang besar.

Saat ini, ketika menghadapi tugas baru, LLM biasanya belajar dari data “AS-IS” melalui metode seperti Finetung atau Lost-Context. Namun, data yang disediakan tidak selalu dalam format optimal model untuk belajar secara efisien. Metode model saat ini tidak memungkinkan pengembangan strategi sendiri untuk konversi dan pembelajaran terbaik dari informasi baru.

“Misalnya, asisten pengkodean mungkin perlu menyerap kerangka kerja program yang ditentukan perusahaan, atau model yang dihadapi pelanggan mungkin perlu mempelajari perilaku atau preferensi pengguna yang unik dari waktu ke waktu,” kata Gio Barry, seorang mahasiswa PhD di Massachusetts Institute of Technology dan rekan kerja kertas.

Dalam kasus seperti itu, pengambilan sementara terbatas, dan pengetahuan harus “dipanggang” berat model untuk mempengaruhi semua respons di masa depan.

Buat Model Bahasa yang Diri Sendiri

“Sebagai langkah menuju pengembangan dan adaptasi model bahasa yang efektif, kami menyarankan agar LLM dilengkapi dengan kemampuan untuk menghasilkan data pelatihan dan arahan mereka dalam menggunakan data ini,” kata para peneliti di Massachusetts Institute of Technology dalam makalah mereka.

Gambaran Umum Kerangka Penyegelan: Arxiv

Solusi peneliti adalah segel, kependekan dari model adaptasi diri. Algoritma Pembelajaran Penguatan (RL) digunakan untuk melatih LLM untuk membuat instruksi “pengeditan diri” dalam bahasa alami yang mendefinisikan cara memperbarui model atau bobotnya sendiri. Pemerintah mandiri ini dapat merestrukturisasi informasi baru, membuat contoh pelatihan buatan, atau bahkan mengidentifikasi parameter teknis dari proses pembelajaran itu sendiri.

Secara intuitif, SEAL mengajarkan model cara membuat panduan kustomnya. Alih -alih hanya membaca dokumen baru (data awal), formulir belajar untuk menulis ulang dan membuat kembali informasi dengan cara yang dapat menyerap dan menyerapnya dengan lebih mudah. Proses ini menyatukan banyak bidang utama penelitian kecerdasan buatan, termasuk pembuatan data buatan dan pembelajaran untuk meningkatkan dan pelatihan pada waktu tes (TTT).

Bingkai bekerja pada sistem loop. Dalam “cincin internal”, model ini menggunakan pengeditan diri untuk membuat pembaruan sementara sementara untuk bobotnya. Dalam “Episode Eksternal”, sistem mengevaluasi apakah pembaruan ini telah meningkatkan kinerja model pada misi yang ditargetkan. Jika ya, model menerima hadiah positif, yang meningkatkan kemampuannya untuk menghasilkan jenis muatan diri yang efektif ini di masa depan. Seiring waktu, LLM menjadi ahli dalam mengajar dirinya sendiri.

Dalam studi mereka, para peneliti menggunakan satu model dari seluruh bingkai perangko. Namun, mereka juga memperhatikan bahwa proses ini dapat dipisahkan dalam model “guru-siswa”. Model guru khusus dapat dilatih untuk menghasilkan pengeditan diri yang efektif untuk model siswa yang terpisah, yang akan diperbarui setelah itu. Pendekatan ini dapat memungkinkan jalur pipa adaptif yang lebih khusus dan efektif dalam pengaturan lembaga.

Segel

Para peneliti menguji segel di dua bidang utama: menggabungkan pengetahuan (kemampuan untuk mengintegrasikan fakta baru secara permanen) dan belajar sedikit bidikan (kemampuan untuk menggeneralisasi dari beberapa contoh).

Segel dalam menggabungkan sumber pengetahuan: arxiv

Untuk mengintegrasikan pengetahuan, tujuannya adalah untuk mengetahui apakah model dapat menjawab pertanyaan tentang klip teks tanpa mencapai klip selama interogasi. Finetuning llama-3.2b disajikan pada teks mentah hanya peningkatan marjinal pada model dasar.

Namun, ketika model SEAL menciptakan “pengeditan diri” dengan menghasilkan banyak “barang antik” dari klip dan dilatih pada data buatan ini, akurasinya melonjak menjadi 47 %. Perlu dicatat bahwa hasil ini melebihi kinerja penggunaan data buatan yang dibuat oleh GPT-4.1 terbesar, yang menunjukkan model yang telah dipelajari untuk membuat bahan pelatihan yang unggul untuk dirinya sendiri.

Segel dalam sedikit pembelajaran. Sumber: Arxiv

Untuk belajar sedikit, para peneliti menguji segel pada contoh pemikiran busur, di mana model harus menyelesaikan teka -teki visual. Pada tahap self -liberasi, model harus membuat strategi adaptasi keseluruhan, termasuk bala bantuan data dan alat yang harus digunakan dan tingkat pembelajaran yang harus diterapkan.

SEAL mencapai tingkat keberhasilan 72,5 %, peningkatan yang signifikan dalam tingkat 20 % tanpa pelatihan RL dan pembelajaran standar 0 % dalam konteks.

Segel (garis merah) terus meningkat melalui sumber sumber RL: arxiv

Efek dari institusi

Beberapa ahli menawarkan bahwa menyediakan data pelatihan berkualitas tinggi yang dibuat oleh manusia dapat habis di tahun -tahun mendatang. Kemajuan mungkin segera tergantung pada “kemampuan model untuk menghasilkan sinyal pelatihan penggunaan tinggi,” kata para peneliti. Mereka menambahkan, “Langkah alami berikutnya adalah merancang bentuk generator tempat tinggal buatan yang berdedikasi yang menghasilkan perusahaan korpora prajurit baru, yang memungkinkan bahan di masa depan untuk memperluas efisiensi data dan mencapai data yang lebih besar tanpa mengandalkan teks manusia tambahan.”

Misalnya, para peneliti menyarankan agar LLM dapat memakan dokumen -dokumen kompleks seperti makalah akademik atau laporan keuangan dan menghasilkan ribuan interpretasi dan efek pada memperdalam pemahaman mereka.

“Episode berulang dari ekspresi diri dan informasi diri ini dapat memungkinkan spesifikasi untuk meningkat dalam topik langka atau aktris aktif bahkan tanpa adanya pengawasan eksternal tambahan,” jelas para peneliti.

Kemampuan ini sangat menjanjikan untuk membangun agen kecerdasan buatan. Agen harus mendapatkan pengetahuan dan menjaga mereka saat mereka berinteraksi dengan lingkungan mereka. Segel menyediakan mekanisme untuk ini. Setelah reaksi, agen dapat mensintesis pengeditan diri untuk membuat pembaruan berat badan, memungkinkannya untuk menyerap pelajaran yang dipetik. Agen ini memungkinkan pengembangan dari waktu ke waktu, meningkatkan kinerjanya berdasarkan pengalaman, dan mengurangi ketergantungannya pada pemrograman tetap atau panduan manusia yang sering.

“Seal menjelaskan bahwa model bahasa besar tidak tetap diperbaiki setelah pelatihan,” tulis para peneliti. “Dengan belajar menghasilkan data pengeditan diri mereka dan menerapkannya melalui pembaruan ringan, mereka dapat secara mandiri mengintegrasikan pengetahuan baru dan beradaptasi dengan tugas -tugas baru.”

Pembatasan segel

Namun, segel bukanlah solusi global. Misalnya, ia dapat menderita “kelupaan bencana”, di mana kursus pelatihan ulang yang berkelanjutan dapat mempelajari model sebelumnya.

“Dalam implementasi kami saat ini, kami mendorong pendekatan hibrida,” kata Barry. “Lembaga harus selektif tentang pengetahuan penting yang cukup untuk menggabungkannya secara permanen.”

Data yang realistis dan dikembangkan dapat tetap dalam memori eksternal melalui pemotongan, sementara pengetahuan jangka panjang dalam bentuk perilaku lebih cocok untuk pembaruan tingkat berat segel.

Dia berkata: “Jenis strategi memori hibrida ini memastikan bahwa informasi yang benar berlanjut tanpa melanjat model atau memberikan kelupaan yang tidak perlu.”

Perlu juga dicatat bahwa segel membutuhkan waktu yang tidak membedakan waktu untuk menetapkan contoh -contoh pembiberasi diri dan melatih model. Ini membuat pembebasan terus menerus dalam waktu aktual tidak mungkin di sebagian besar pengaturan produksi.

Barry mengatakan: “Kami membayangkan model penerbitan yang lebih praktis karena sistem mengumpulkan data untuk beberapa periode, atau beberapa jam atau sehari dan kemudian menargetkan pengeditan diri selama periode modernisasi yang dijadwalkan.” “Pendekatan ini memungkinkan lembaga untuk mengendalikan biaya adaptasi, sambil melanjutkan kemampuan torrent untuk menyerap pengetahuan baru.”


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version