Berita

Teknologi baru “Pemikiran Markovian” membuka jalan menuju pemikiran AI dengan jutaan simbol

Published

on

Para peneliti di Mila telah mengusulkan teknik baru yang membuat model linguistik besar (LLM) jauh lebih efisien ketika melakukan inferensi kompleks. Bernama pemikiran Markovian,Pendekatan ini memungkinkan LLM untuk terlibat dalam penalaran yang berkepanjangan tanpa menimbulkan biaya komputasi yang mahal yang saat ini membatasi tugas-tugas tersebut.

Implementasi tim, sebuah lingkungan yang disebut Delethink, membangun rantai inferensi menjadi potongan-potongan berukuran tetap, memecahkan masalah penskalaan yang mengganggu respons LLM yang sangat panjang. Perkiraan awal menunjukkan bahwa untuk model parameter 1,5 miliar, metode ini dapat mengurangi biaya pelatihan lebih dari dua pertiga dibandingkan pendekatan standar.

Kutukan kuadrat dari inferensi string panjang

Agar LLM dapat memecahkan masalah yang kompleks, Anda sering kali perlu membuat rantai panjang token “berpikir” perantara, yang sering disebut sebagai rantai penalaran (CoT). Dalam beberapa tahun terakhir, para peneliti telah menemukan bahwa penggunaan… Pembelajaran penguatan (RL) untuk melatih model guna menghasilkan CoT yang lebih panjang (terkadang disebut sebagai LongCoT) yang sangat meningkatkan kemampuan penalaran mereka.

Namun, cara standar untuk melakukan hal ini memiliki kelemahan serius: kecerdasan buatan "negara" (Vektor ditambah semua kode logika yang dihasilkan sejauh ini dalam pemrosesannya) bertambah seiring dengan setiap kode logika baru. Untuk berbicara Model berbasis transformatorArtinya, biaya komputasi akan melonjak secara kuadrat seiring bertambahnya panjang rantai penalaran, sehingga menjadi sangat mahal untuk melatih model pada tugas-tugas yang sangat kompleks.

Sebagian besar upaya saat ini untuk mengelola biaya ini berfokus pada membatasi jumlah pemikiran yang dilakukan model, yang secara implisit lebih memilih solusi yang lebih singkat atau mengakhiri proses lebih awal. Meskipun metode ini memberikan sedikit bantuan, para peneliti MILAA masih bekerja dalam kerangka LongCoT dan oleh karena itu pada dasarnya berkomitmen pada sifat kuadratnya.

Daripada mencoba mengendalikan pertumbuhan aritmatika, Mila menciptakan lingkungan RL yang menghindari masalah kuadrat sama sekali. Seperti yang dijelaskan oleh rekan penulis Amir Hossein Kazeminejad, tujuannya adalah untuk mengaktifkan kemampuan seperti berpikir multi-minggu dan penemuan ilmiah. "Sistem ini (dan RL yang diperlukan untuk mengaktifkan kemampuan tersebut) tidak didukung oleh model LongCoT saat ini, karena biaya komputasi kuadrat," Dia berkata.

Pikirkan sebagian dengan Delethink

Solusi yang ditemukan para peneliti adalah model yang mereka sebut "pemikir Markovian" Model ini beralasan sambil menjaga ukuran jendela konteks inferensinya tetap konstan. Ide dasarnya adalah mengubah pengaturan RL kelas "Berapa lama model berpikir?" dari "Jumlah konteks yang perlu diproses." Jika dilakukan dengan benar, pemikir Markovian akan mengubah masalah pertumbuhan kuadrat menjadi komputasi linier dan kebutuhan memori konstan untuk inferensi LLM.

Para peneliti mempraktikkan model ini melalui Delethink, yang memaksa model untuk mempertimbangkan serangkaian potongan berukuran tetap, seperti 8,000 token sekaligus. Dalam setiap bagian, model membuat kesimpulan seperti biasanya, menggunakan mekanisme perhatian klasik. Namun ketika mencapai potongan maksimum, lingkungan akan mengatur ulang konteksnya, membuat prompt baru yang menyertakan kueri asli ditambah permintaan singkat "meneruskan" Dari bagian sebelumnya. Misalnya, relai dapat berupa beberapa kode terakhir dari bagian CoT sebelumnya atau ringkasan hasil yang paling penting.

Penataan ulang masalah ini memaksa model untuk belajar bagaimana memasukkan ringkasan kemajuannya, atau "keadaan Markovian tekstual," Pada tahap ini terus memikirkan bagian selanjutnya. Hal ini mengatasi kekhawatiran umum mengenai apakah model dapat mengingat detail penting dari langkah sebelumnya.

Menurut Kazemnejad, model mempelajari apa yang harus diingatnya. "Dengan pelatihan…model dipaksa untuk belajar bagaimana melanjutkan dalam situasi kritis," Dia menjelaskan. Dia menambahkan klarifikasi penting untuk penggunaan praktis: vektor masukan asli, termasuk dokumen atau data kontekstual yang ditambahkan ke dalamnya, tidak diubah. “Pendekatan kami menargetkan fase inferensi dan tidak mengubah vektor." Dia berkata.

Hapus pemikiran tentang pekerjaan

Untuk menguji pendekatan mereka, para peneliti melatih R1-Distill-1.5B dengan Delethink pada kumpulan data soal matematika tingkat kompetisi, kemudian mengevaluasinya berdasarkan beberapa tolok ukur. Model ini dilatih untuk mempertimbangkan hingga 24.000 token tetapi dengan batas tetap sebesar 8.000 token.

Peneliti Bandingkan ini dengan model yang dilatih menggunakan metode LongCoT-RL standar. Temuan mereka menunjukkan bahwa model yang dilatih dengan Delethink dapat menganalisis hingga 24,000 token, menyamai atau melampaui model LongCoT yang dilatih dengan anggaran yang sama yaitu 24,000 token berdasarkan standar matematika. Dalam tugas lain seperti pertanyaan tingkat pemrograman dan PhD, Delethink juga menyamai atau sedikit mengalahkan LongCoT. “Secara keseluruhan, hasil ini menunjukkan bahwa Delethink menggunakan kode penalarannya seefektif LongCoT-RL dengan pengurangan komputasi,” tulis para peneliti.

Manfaatnya menjadi lebih nyata ketika anggaran pelatihan diperluas. Meskipun model yang dilatih dengan LongCoT dengan cepat mencapai batas pelatihannya, model yang dilatih dengan Delethink terus meningkatkan performanya. Misalnya, beberapa masalah matematika tidak dapat diselesaikan hingga model tersebut menguraikan hingga 140.000 simbol, jauh melebihi anggaran pelatihan sebesar 24.000 simbol. Fitur komputasi linier ini sangat bagus untuk aplikasi perusahaan. Para peneliti memperkirakan bahwa melatih model dengan panjang pemikiran rata-rata 96.000 simbol akan memerlukan 27 bulan H100-GPU dengan LongCoT, dibandingkan hanya 7 bulan dengan Delethink.

Efisiensi ini meluas langsung ke inferensi, yang merupakan biaya operasional utama bagi sebagian besar organisasi. "Model yang dilatih dengan penalaran Markovian menggunakan heuristik yang sama (hapus pelacakan) selama waktu pengujian, yang memberikan manfaat yang sama dari aritmatika linier dan memori persisten setelah pelatihan." kata Kazemnejad. Dia memberikan contoh praktis: agen AI bisa melakukan hal itu "Debug basis kode yang besar dan pikirkan untuk waktu yang lama…yang tentu saja mengurangi biaya secara signifikan dibandingkan dengan pendekatan LongCoT tradisional."

Menariknya, para peneliti menemukan bahwa model inferensi yang sudah jadi, bahkan tanpa pelatihan khusus apa pun, memang menunjukkan kemampuan bernalar dengan cara Markovian. Temuan ini mempunyai implikasi praktis langsung bagi pengembang. "Dalam praktiknya, ini berarti – tanpa Delethink-RL – model ini benar-benar dapat menjalankan lingkup pelacakan delethink dan bekerja secara kompetitif dengan LongCoT pada tugas benchmark kami," kata Kazemnejad.

Pengalaman mereka dengan model yang lebih besar seperti GPT-OSS 120B Tunjukkan kinerja yang kuat dengan Delethink di berbagai tugas kompleks. Kemampuan bawaan ini memberikan titik awal yang kuat untuk pelatihan RL, yang membantu menjelaskan mengapa metode ini sangat efektif. “Secara keseluruhan, hasil ini menunjukkan bahwa Delethink kompatibel dan konsisten dengan model tercanggih,” para peneliti menyimpulkan.

Keberhasilan pemikiran Markovian menunjukkan bahwa hal ini mungkin dilakukan "Model berpikir generasi penerus untuk berpikir dalam jutaan simbol," Catatan peneliti. Hal ini membuka pintu bagi kemampuan AI yang secara fundamental baru, melampaui keterbatasan yang ada saat ini.

"Pemikiran Markovian…membuka jalan bagi model-model yang dapat “berpikir” dalam jangka waktu yang sangat panjang, yang kami anggap sebagai langkah penting menuju penemuan ilmiah pada akhirnya," kata Kazemnejad. "Pendekatan kami menghilangkan hambatan besar dan memungkinkan pelatihan untuk misi jangka panjang, sehingga memungkinkan kemampuan generasi berikutnya."

Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version