Berita

Model TRM terbuka baru dari peneliti AI Samsung mengungguli model yang lebih besar sebanyak 10.000 kali lipat – pada masalah tertentu

Published

on

Tren para peneliti di bidang kecerdasan buatan untuk mengembangkan teknologi baru, kecil Model generatif open source terus mengungguli model generatif lainnya minggu ini dengan kemajuan menakjubkan lainnya.

Alexia Jolicoeur Martineaupeneliti senior di bidang kecerdasan buatan Institut Teknologi Lanjutan Samsung (SAIT) Di Montreal, Kanada,Dia punya Perkenalkan model mikro-rekursif (TRM) – Jaringan saraf yang sangat kecil sehingga hanya memiliki 7 juta parameter (pengaturan model internal), namun menyaingi atau mengungguli model bahasa canggih yang 10.000 kali lebih besar dalam hal jumlah parameternya, termasuk O3-mini OpenAI dan Gemini 2.5 Pro dari Google, Tentang beberapa standar inferensi tersulit dalam penelitian AI.

Tujuannya adalah untuk menunjukkan bahwa model AI baru berperforma tinggi dapat dibuat dengan biaya terjangkau tanpa memerlukan investasi besar pada unit pemrosesan grafis (GPU) dan daya yang dibutuhkan untuk melatih model master multi-triliun parameter yang lebih besar yang mendukung banyak chatbot LLM saat ini. Temuan tersebut diuraikan dalam makalah yang dipublikasikan di situs akses terbuka arxiv.org bertajuk "Less is more: Pemikiran berulang dengan jaringan kecil."

"Gagasan bahwa seseorang harus bergantung pada model dasar yang sangat besar yang dilatih dengan biaya jutaan dolar oleh beberapa perusahaan besar untuk menyelesaikan tugas-tugas sulit adalah sebuah jebakan." Jolicoeur Martineau menulis di Jejaring Sosial X. "Saat ini, terlalu banyak fokus pada pemanfaatan MBA dibandingkan menciptakan dan memperluas garis tren baru."

Jolicoeur Martineau juga menambahkan: "Dengan logika rekursif, ternyata “less is more”. Model kecil yang dilatih sebelumnya dari awal, mengulangi dirinya sendiri dan memperbarui jawabannya seiring waktu, dapat mencapai banyak hal tanpa menghabiskan banyak uang."

Token TRM sekarang tersedia Gerop Di bawah lisensi MIT, ini ramah perusahaan dan layak secara komersial — artinya siapa pun, mulai dari peneliti hingga perusahaan, dapat memperoleh, memodifikasi, dan menerbitkannya untuk tujuan mereka sendiri, bahkan untuk aplikasi komersial.

Satu peringatan besar

Namun, pembaca harus menyadari bahwa TRM dirancang khusus untuk bekerja dengan baik dalam masalah terstruktur, visual, dan berbasis grid seperti Sudoku, labirin, dan teka-teki di komputer. ARC (Kelompok Abstrak dan Penalaran) – Standar AGIyang terakhir memperkenalkan tugas-tugas yang seharusnya mudah bagi manusia tetapi sulit bagi model AI, seperti mengurutkan warna pada kisi berdasarkan solusi sebelumnya, namun tidak identik.

Dari hierarki hingga kesederhanaan

Arsitektur TRM mewakili penyederhanaan radikal.

Hal ini didasarkan pada teknologi yang disebut Model Penalaran Hierarki (SDM) Diperkenalkan awal tahun ini, penelitian ini menunjukkan bahwa jaringan kecil dapat memecahkan teka-teki logika seperti Sudoku dan labirin.

HRM mengandalkan dua jaringan yang bekerja sama—satu beroperasi pada frekuensi tinggi, yang lainnya pada frekuensi rendah—didukung oleh argumen yang diilhami secara biologis dan pembenaran matematis yang melibatkan teorema titik tetap. Jolicoeur Martineau menganggap hal ini tidak perlu rumit.

TRM menghapus elemen-elemen ini. Alih-alih dua jaringan, ia menggunakan Satu model dua lapis Yang secara berulang meningkatkan prediksinya.

Model dimulai dengan pertanyaan tertanam dan jawaban awal yang diwakili oleh variabel S, kamuDan Z. Melalui serangkaian langkah inferensi, ia memperbarui representasi internal latennya Z Dan jawabannya membaik kamu Sampai konvergen ke output yang stabil. Setiap iterasi mengoreksi potensi kesalahan dari langkah sebelumnya, sehingga menghasilkan proses penalaran yang berkembang sendiri tanpa hierarki tambahan atau beban matematis.

Bagaimana rekursi menggantikan penskalaan

Ide dasar di balik TRM adalah ini Rekursi dapat menggantikan kedalaman dan ukuran.

Dengan mempertimbangkan keluarannya secara berulang, jaringan secara efektif mensimulasikan struktur yang jauh lebih dalam tanpa memerlukan memori terkait atau biaya komputasi. Siklus rekursif ini, yang mencakup hingga enam belas langkah pengawasan, memungkinkan model untuk membuat prediksi yang semakin baik – serupa dengan bagaimana model bahasa besar menggunakan inferensi “rantai pemikiran” multi-langkah, tetapi di sini dicapai melalui desain feed-forward yang kompak.

Kesederhanaan menghasilkan efisiensi dan generalisasi. Model ini menggunakan lebih sedikit lapisan, tidak ada perkiraan titik tetap, dan tidak ada hierarki jaringan ganda. Ringan Mekanisme penghentian Memutuskan kapan harus berhenti menyempurnakan, mencegah penghitungan yang sia-sia sambil menjaga akurasi.

Performanya melebihi bobotnya

Meskipun ukurannya kecil, TRM memberikan hasil benchmark yang menyaingi atau melampaui model yang jutaan kali lebih besar. Dalam pengujian, model mencapai hal berikut:

  • Akurasi 87,4% pada Sudoku ekstrim (naik dari 55% untuk manajemen sumber daya manusia)

  • akurasi 85%. pada Labirin yang sulit Teka-teki

  • akurasi 45%. pada busur-usia-1

  • akurasi 8%. pada busur-usia-2

Hasil ini melampaui atau sangat menyamai performa dari banyak model bahasa besar yang canggih, termasuk Detik Dalam R1, Gemini 2.5 ProDan o3-minimeskipun TRM menggunakan kurang dari 0,01% parameternya.

Hasil tersebut menunjukkan bahwa inferensi rekursif, bukan skalaritas, mungkin menjadi kunci untuk menangani masalah inferensi abstrak dan kombinatorial, area di mana model generatif tingkat tinggi pun sering gagal.

Filosofi desain: lebih sedikit lebih baik

Kesuksesan TRM berasal dari kesederhanaan yang disengaja. Jolicoeur Martineau menemukan bahwa pengurangan kompleksitas menghasilkan generalisasi yang lebih baik.

Saat peneliti menambah jumlah lapisan atau ukuran model, performa menurun karena overfitting pada kumpulan data kecil.

Sebaliknya, struktur dua lapisan, dikombinasikan dengan kedalaman rekursif dan Pengawasan yang mendalamMencapai hasil yang sempurna.

Model ini juga berkinerja lebih baik ketika perhatian terhadap diri sendiri digantikan oleh Persepsi multilayer paling sederhana Dalam tugas dengan konteks kecil dan tetap seperti Sudoku.

Untuk jaringan yang lebih besar, seperti teka-teki ARC, perhatian terhadap diri sendiri tetap berharga. Hasil ini mengonfirmasi bahwa struktur model harus sesuai dengan struktur dan ukuran data, bukan default pada kapasitas maksimum.

Latihan kecil, pemikiran besar

TRM sekarang secara resmi tersedia sebagai Sumber terbuka di bawah Lisensi MIT pada Gerop.

Repositori ini mencakup skrip pelatihan dan evaluasi lengkap, alat pembuatan kumpulan data untuk Sudoku, Maze, dan ARC-AGI, serta konfigurasi referensi untuk mereproduksi hasil yang dipublikasikan.

Ini juga mendokumentasikan persyaratan komputasi mulai dari satu GPU NVIDIA L40S untuk pelatihan Sudoku hingga pengaturan multi-GPU H100 untuk eksperimen ARC-AGI.

Versi terbuka menegaskan bahwa TRM dirancang khusus untuk itu Tugas berpikir terstruktur dan berbasis grid Daripada pemodelan linguistik tujuan umum.

Setiap tolok ukur—Sudoku-Extreme, Maze-Hard, dan ARC-AGI—menggunakan jaringan masukan dan keluaran yang kecil dan terdefinisi dengan baik, konsisten dengan proses pengawasan berulang model.

Pelatihan melibatkan augmentasi data yang signifikan (seperti permutasi warna dan transformasi geometris), yang menegaskan bahwa efisiensi TRM terletak pada ukuran parameter daripada total permintaan komputasi.

Kesederhanaan dan transparansi model ini membuatnya dapat diakses oleh para peneliti di luar laboratorium perusahaan besar. Basis kodenya dibangun langsung pada kerangka model inferensi hierarki sebelumnya tetapi menghilangkan biometrik HRM, beberapa hierarki jaringan, dan ketergantungan titik tetap.

Dengan melakukan hal ini, TRM memberikan dasar yang dapat direproduksi untuk mengeksplorasi inferensi berulang dalam model kecil—sebuah tandingan terhadap filosofi “skala adalah yang Anda butuhkan” yang berlaku.

Reaksi masyarakat

Peluncuran TRM dan database open source-nya langsung memicu diskusi di kalangan peneliti dan praktisi di bidang AI X. Meski banyak yang memuji pencapaian tersebut, ada pula yang mempertanyakan seberapa luas metode TRM dapat digeneralisasikan.

Para pendukung memuji TRM sebagai bukti bahwa model kecil dapat mengungguli model raksasa, dengan menyebutnya “10.000 kali lebih kecil namun lebih cerdas“Dan sebuah langkah potensial menuju arsitektur yang berpikir, bukan sekadar mengukur.”

Kritikus menjawab bahwa cakupan TRM sempit dan terfokus Teka-teki berbasis set dan grid -Dan penghematan komputasi mereka terutama berasal dari skala, bukan dari total waktu pengoperasian.

peneliti Yunmin Cha Dia mencatat bahwa pelatihan TRM bergantung pada penguatan berat dan umpan berulang, “lebih banyak komputasi, model yang sama.”

Ahli genetika kanker dan ilmuwan data Chi hari cinta Dia menekankan bahwa TRM adalah a Halalbukan templat obrolan atau pembuat teks: ia unggul dalam pemikiran terstruktur tetapi tidak dalam bahasa terbuka.

Peneliti di bidang pembelajaran mesin Sebastian Raschka Memposisikan TRM sebagai penyederhanaan penting pengelolaan sumber daya manusia daripada bentuk baru intelijen umum.

Dia menggambarkan prosesnya sebagai “perulangan dua langkah yang memperbarui keadaan heuristik internal, dan kemudian menyempurnakan jawabannya.”

Banyak peneliti, termasuk Agustinus NabilDia setuju bahwa kekuatan model ini terletak pada struktur logisnya yang jelas, namun mencatat bahwa penelitian di masa depan perlu menunjukkan peralihan ke jenis masalah yang tidak terlalu dibatasi.

Konsensus Internet yang muncul adalah bahwa manajemen penelitian teknis mungkin sempit, namun pesannya luas: replikasi yang hati-hati, bukan perluasan terus-menerus, yang dapat mendorong gelombang penelitian inferensial berikutnya.

Melihat ke depan

Meskipun TRM saat ini dapat diterapkan pada tugas inferensi yang diawasi, kerangka kerja berulangnya membuka beberapa arah di masa depan. Jolicoeur Martineau menyarankan eksplorasi Variabel generatif atau multi-responsdimana model dapat menghasilkan beberapa solusi yang mungkin, bukan hanya satu solusi deterministik.

Pertanyaan terbuka lainnya melibatkan pengukuran hukum redundansi, dan menentukan sejauh mana prinsip “less is more” dapat diterapkan seiring dengan bertambahnya kompleksitas model atau ukuran data.

Pada akhirnya, penelitian ini memberikan alat praktis dan pengingat konseptual: kemajuan dalam AI tidak harus bergantung pada model yang semakin besar. Terkadang, mengajari jaringan kecil cara berpikir secara hati-hati — dan berulang kali — bisa lebih bermanfaat daripada membuat jaringan besar berpikir sekali.

Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version