Berita
Model bahasa yang dapat dikembangkan sendiri kini menjadi kenyataan berkat teknologi SEAL terbaru dari MIT
Para peneliti di Massachusetts Institute of Technology (MIT) mendapatkan minat baru dalam mengembangkan dan Sumber terbuka Ini adalah teknologi yang memungkinkan model bahasa besar (LLM) – seperti yang mendukung ChatGPT dan sebagian besar chatbot modern yang didukung AI – untuk mengoptimalkan dirinya sendiri dengan menghasilkan data sintetis untuk menyempurnakannya.
Teknologi tersebut, yang dikenal sebagai SEAL (Self-Adapting LLMs), pertama kali dijelaskan dalam sebuah makalah yang diterbitkan Juni lalu dan diliput oleh VentureBeat pada saat itu.
Diperluas secara signifikan dan Versi terbaru dari makalah ini dirilis bulan laludi samping itu Kode sumber terbuka dipublikasikan di GitHub (di bawah lisensi MIT, memungkinkan penggunaan komersial dan institusional), dan membuat gelombang baru di kalangan pengguna AI di jejaring sosial X minggu ini.
SEAL memungkinkan LLM untuk secara mandiri membuat dan menerapkan strategi penyesuaian mereka sendiri. Tidak seperti model tradisional yang mengandalkan data eksternal statis dan jalur pengoptimalan buatan manusia, SEAL memungkinkan model berevolusi dengan menghasilkan data pelatihan sintetisnya sendiri dan panduan pengoptimalan yang sesuai.
Pengembangan tersebut dilakukan oleh tim yang berafiliasi dengan Improbable Artificial Intelligence Laboratory MIT, termasuk Adam Zweiger, Jyothesh Barry, Han Ju, Ekin Akyurek, Yun Kim, dan Pulkit Agrawal. Penelitian mereka baru-baru ini dipresentasikan pada Konferensi ke-39 tentang Sistem Pemrosesan Informasi Neural (NeurIPS 2025).
Latar Belakang: Dari “yang melampaui AI statis” hingga sistem yang dapat beradaptasi secara mandiri
Awal tahun ini, VentureBeat pertama kali melaporkan SEAL sebagai kerangka kerja tahap awal yang memungkinkan model bahasa menghasilkan data sintetisnya sendiri dan melatihnya — sebuah solusi potensial untuk stagnasi model terlatih setelah diterapkan.
Pada saat itu, SEAL dirumuskan sebagai bukti konsep yang memungkinkan agen AI perusahaan untuk belajar terus-menerus dalam lingkungan yang dinamis tanpa pelatihan ulang manual.
Sejak itu, penelitian telah mengalami kemajuan yang signifikan. Versi baru ini memperluas kerangka kerja sebelumnya dengan menunjukkan bahwa kemampuan adaptasi diri SEAL berskala sesuai dengan ukuran model, menggabungkan pembelajaran penguatan secara lebih efektif untuk mengurangi lupa bencana, dan memformalkan struktur loop ganda SEAL (penyempurnaan internal yang diawasi dan optimalisasi penguatan eksternal) untuk pengulangan.
Makalah yang diperbarui ini juga menyajikan penilaian dalam berbagai format stimulus, meningkatkan stabilitas selama siklus pembelajaran, dan membahas tantangan penerapan praktis pada waktu inferensi.
Mengatasi keterbatasan model tetap
Meskipun LLM telah menunjukkan kemampuan luar biasa dalam pembuatan dan pemahaman teks, adaptasi mereka terhadap tugas atau pengetahuan baru seringkali bersifat manual, rapuh, atau bergantung pada konteks.
SEAL menantang status quo ini dengan menyediakan model dengan kemampuan untuk menghasilkan apa yang penulis sebut sebagai “penyesuaian mandiri”—keluaran bahasa alami yang menentukan bagaimana model memperbarui bobotnya.
Penyesuaian diri ini dapat berupa informasi yang dirumuskan ulang, implikasi logis, atau konfigurasi alat untuk augmentasi dan pelatihan. Setelah dibuat, model menyesuaikan diri berdasarkan modifikasi tersebut. Prosesnya dipandu oleh pembelajaran penguatan, di mana sinyal penghargaan berasal dari peningkatan kinerja pada tugas berikutnya.
Desainnya meniru cara pembelajar manusia memformulasi ulang atau mengatur ulang materi pelajaran agar dapat menyerap informasi dengan lebih baik. Merestrukturisasi pengetahuan sebelum asimilasi merupakan keuntungan besar dibandingkan model yang secara pasif mengonsumsi data baru “sebagaimana adanya”.
Performa di seluruh tugas
SEAL diuji di dua bidang utama: fusi pengetahuan dan pembelajaran beberapa tahap.
Dalam kerangka fusi pengetahuan, para peneliti mengevaluasi seberapa baik model tersebut dapat mengakomodasi konten baru di dunia nyata dari bagian-bagian yang serupa dengan yang ada dalam kumpulan data SQuAD, kumpulan data pemahaman bacaan standar yang disediakan oleh Universitas Stanford pada tahun 2016, yang terdiri dari lebih dari 100.000 pasangan tanya jawab bersumber dari banyak orang berdasarkan artikel Wikipedia (Rajpurkar et al., 2016).
Daripada menyempurnakan langsung teks klip, Model tersebut menghasilkan jejak komposisi segmen tersebut Dan kemudian menaruhnya pada mereka.
Setelah dua putaran pembelajaran penguatan, model ini meningkatkan akurasi tanya jawab dari 33,5% menjadi 47,0% dalam versi SQuAD bebas konteks – melebihi hasil yang diperoleh menggunakan data sintetis yang dihasilkan oleh GPT-4.1.
Dalam lingkungan pembelajaran beberapa kali, SEAL dinilai menggunakan subset kriteria ARC, di mana tugas hanya memerlukan pemikiran melalui beberapa contoh. Di sini, SEAL telah membuat penyesuaian mandiri yang menentukan penambahan data dan hyperparameter.
Setelah pembelajaran penguatan Tingkat keberhasilan menyelesaikan tugas yang tertunda dengan benar melonjak menjadi 72,5%, dibandingkan dengan 20% yang menggunakan modifikasi yang dibuat sendiri tanpa pembelajaran penguatan. Model yang hanya mengandalkan pembelajaran dalam konteks tanpa adanya adaptasi mendapat skor 0%.
Kerangka teknis
SEAL bekerja menggunakan arsitektur dua loop: loop dalam melakukan penyesuaian yang diawasi berdasarkan pengeditan mandiri, sedangkan loop luar menggunakan pembelajaran penguatan untuk mengoptimalkan kebijakan yang menghasilkan pengeditan mandiri tersebut.
Algoritma pembelajaran penguatan yang digunakan didasarkan pada ReSTEM, yang menggabungkan pengambilan sampel dan reproduksi perilaku yang difilter. Selama pelatihan, hanya penyesuaian diri yang mengarah pada peningkatan kinerja yang diperkuat. Pendekatan ini secara efektif mengajarkan model jenis modifikasi mana yang paling bermanfaat untuk pembelajaran.
Demi efisiensi, SEAL menerapkan penyesuaian berbasis LoRA dibandingkan pembaruan parameter penuh, sehingga memungkinkan eksperimen cepat dan adaptasi berbiaya rendah.
Kekuatan dan keterbatasan
Para peneliti melaporkan bahwa SEAL dapat menghasilkan data pelatihan yang sangat berguna dengan pengawasan minimal, bahkan mengungguli model eksternal besar seperti GPT-4.1 dalam tugas-tugas tertentu.
Mereka juga menunjukkan bahwa SEAL melakukan generalisasi di luar pengaturan aslinya: ia terus bekerja dengan baik ketika memperluas dari pembaruan single pass ke skenario pra-pelatihan multi-dokumen yang berkelanjutan.
Namun, kerangka ini bukannya tanpa batasan. Salah satu masalahnya adalah lupa yang sangat parah, dimana pembaruan untuk memasukkan informasi baru dapat menyebabkan penurunan kinerja pada tugas-tugas yang telah dipelajari sebelumnya.
Menanggapi kekhawatiran ini, rekan penulis Gio Barry mengatakan kepada VentureBeat melalui email bahwa pembelajaran penguatan (reinforcement learning/RL) tampaknya mengurangi rasa lupa lebih efektif daripada penyempurnaan yang diawasi (SFT), mengutip makalah terbaru tentang topik tersebut. Menggabungkan wawasan ini dengan SEAL dapat menghasilkan variabel baru karena SEAL tidak hanya mempelajari data pelatihan, tetapi juga fungsi penghargaan, tambahnya.
Tantangan lainnya adalah overhead komputasi: mengevaluasi setiap modifikasi mandiri memerlukan penyesuaian dan pengujian kinerja, yang dapat memakan waktu 30 hingga 45 detik per modifikasi, jauh lebih lama daripada tugas pembelajaran penguatan standar.
Seperti yang dijelaskan Geo, “Pelatihan SEAL tidak sepele karena memerlukan dua loop pengoptimalan, loop RL eksternal dan loop SFT internal. Pada waktu inferensi, memperbarui bobot model juga memerlukan infrastruktur sistem baru.” Dia menekankan perlunya penelitian di masa depan mengenai sistem penempatan sebagai jalur penting untuk menjadikan SEAL operasional.
Selain itu, desain SEAL saat ini mengasumsikan adanya tugas terkait dan jawaban referensi untuk setiap konteks, yang membatasi penerapan langsungnya pada kelompok yang tidak disebutkan namanya. Namun, Geo menjelaskan bahwa selama ada misi utama dengan imbalan yang dapat diperhitungkan, SEAL dapat dilatih untuk beradaptasi — bahkan di area yang kritis terhadap keselamatan. Pada prinsipnya, model yang dilatih SEAL dapat belajar menghindari pelatihan tentang masukan yang merugikan atau berbahaya jika dipandu oleh sinyal imbalan yang sesuai.
Masukan dari komunitas AI
Komunitas riset dan konstruksi AI bereaksi dengan campuran kegembiraan dan spekulasi terhadap makalah SEAL. Di X, yang sebelumnya bernama Twitter, beberapa akun terkemuka yang berfokus pada AI membahas potensi dampaknya.
pengguna @Vraserxseorang pendidik dan penggila AI, menggambarkan SEAL sebagai “kelahiran AI pembelajaran mandiri yang berkelanjutan” dan memperkirakan bahwa model seperti GPT-6 OpenAI dapat mengadopsi arsitektur serupa.
Dalam kata-kata mereka, SEAL mewakili “akhir dari era beban beku,” yang membuka sistem yang berkembang seiring dengan perubahan dunia di sekitar mereka.
Mereka menyoroti kemampuan SEAL untuk membentuk ingatan yang stabil, memperbaiki pengetahuan, dan belajar dari data real-time, dan membandingkannya dengan langkah mendasar menuju model yang tidak hanya menggunakan informasi namun juga menyerapnya.
Sementara itu, @alex_promptersalah satu pendiri usaha pemasaran bertenaga AI, menganggap SEAL sebagai lompatan menuju model yang benar-benar mengubah diri mereka sendiri. “MIT baru saja membangun AI yang dapat menulis ulang kodenya sendiri agar menjadi lebih pintar,” tulisnya. Temuan Utama Cite Paper – Peningkatan perolehan aktual sebesar 40% dan kinerja lebih baik dari GPT-4.1 menggunakan data yang dihasilkan sendiri – Dia menggambarkan hasilnya sebagai konfirmasi bahwa “LLM yang mengatur dirinya sendiri bukan lagi fiksi ilmiah.”
Antusiasme ini mencerminkan minat yang lebih luas terhadap AI terhadap model-model yang dapat berkembang tanpa pelatihan ulang atau pengawasan manusia secara terus-menerus — terutama dalam bidang yang berubah dengan cepat atau kasus penggunaan pribadi.
Arah masa depan dan pertanyaan terbuka
Menanggapi pertanyaan tentang perluasan SEAL ke model dan misi yang lebih besar, Geo menunjuk pada eksperimen (Lampiran B.7) yang menunjukkan bahwa seiring bertambahnya ukuran model, kemampuannya untuk beradaptasi sendiri juga meningkat. Bandingkan hal ini dengan siswa yang terus meningkatkan teknik belajarnya – model yang lebih besar akan lebih baik dalam menghasilkan penyesuaian diri yang berguna.
Ketika ditanya apakah program SEAL menggeneralisasi metode motivasi baru, dia membenarkan hal ini, dengan mengutip Tabel 10 di makalahnya. Namun, ia juga mengakui bahwa tim tersebut belum menguji kemampuan SEAL untuk mengangkut domain atau arsitektur modular yang sepenuhnya baru.
“SEAL adalah tindakan utama yang menampilkan berbagai kemungkinan,” katanya. “Tetapi hal ini memerlukan lebih banyak pengujian.” Dia menambahkan bahwa kemampuan generalisasi dapat meningkat seiring dengan pelatihan SEAL untuk mendistribusikan tugas secara lebih luas.
Menariknya, tim menemukan bahwa hanya sejumlah kecil langkah pembelajaran penguatan yang benar-benar menghasilkan peningkatan kinerja yang terukur. “Ini menggembirakan, karena dengan komputasi yang lebih banyak, semoga kita bisa mendapatkan lebih banyak perbaikan,” kata Gio. Dia menyarankan agar eksperimen di masa depan harus mengeksplorasi metode pembelajaran penguatan yang lebih maju di luar ReSTEM, seperti Group Proportional Policy Optimization (GRPO).
Menuju model yang lebih adaptif dan efektif
SEAL mewakili sebuah langkah menuju model yang dapat berkembang secara mandiri seiring berjalannya waktu, baik dengan memasukkan pengetahuan baru atau membentuk kembali cara kita belajar. Para penulis membayangkan perluasan di masa depan di mana SEAL dapat membantu dalam pelatihan mandiri, pembelajaran berkelanjutan, dan pengembangan sistem agen – model yang bereaksi terhadap lingkungan yang berkembang dan beradaptasi secara bertahap.
Dalam pengaturan seperti itu, model dapat menggunakan SEAL untuk mengumpulkan pembaruan bobot setelah setiap interaksi, secara bertahap mengasimilasi perilaku atau pemikiran. Hal ini dapat mengurangi kebutuhan akan pengawasan yang sering dan intervensi manual, terutama di wilayah dengan data yang terbatas atau khusus.
Ketika teks web publik menjadi jenuh dan penskalaan LLM menjadi dibatasi oleh ketersediaan data, pendekatan mandiri seperti SEAL dapat memainkan peran penting dalam mendorong batas-batas pencapaian LLM.
Anda dapat mengakses Proyek SEAL, termasuk kode dan dokumentasi tambahan, di: https://jyopari.github.io/posts/seal