Berita
Di dalam Ring-1T: Insinyur semut memecahkan hambatan pembelajaran penguatan berskala triliunan
Cina Kelompok semutanak perusahaan Alibaba, memberikan informasi teknis terperinci tentang model barunya, Dering-1Tyang menurut perusahaan adalah “model penalaran sumber terbuka pertama dengan total satu triliun parameter.”
Ring-1T dimaksudkan untuk bersaing dengan model inferensi lain seperti GPT-5 dan o-series OpenAIdi samping itu GoogleGemini 2.5. Dengan dirilisnya model terbaru, Ant memperluas perdebatan geopolitik mengenai siapa yang akan melakukannya Kendalikan perlombaan kecerdasan buatan: Tiongkok atau Amerika Serikat.
Ant Group mengatakan Ring-1T dioptimalkan untuk pemecahan masalah matematika dan logika, pembuatan kode, dan pemecahan masalah ilmiah.
“Dengan sekitar 50 miliar parameter aktif per token, Ring-1T mencapai kinerja mutakhir di banyak tolok ukur yang menantang – meskipun hanya mengandalkan kemampuan penalaran bahasa alami,” kata Ant. kertas.
Ring-1T, yang pertama kali dirilis untuk pratinjau pada bulan September, didasarkan pada arsitektur yang sama dengan Ling 2.0 dan dilatih pada model dasar Ling-1T yang diluncurkan perusahaan awal bulan ini. Ant mengatakan ini memungkinkan model untuk mendukung hingga 128,000 token.
Untuk melatih model besar seperti Ring-1T, peneliti harus mengembangkan metode baru untuk menskalakan pembelajaran penguatan (RL).
Cara pelatihan baru
Ant Group telah mengembangkan tiga “inovasi yang saling berhubungan” untuk mendukung pelatihan RL dan Ring-1T, sebuah tantangan mengingat ukuran model dan kebutuhan komputasi yang biasanya besar. Ketiganya adalah IcePop, C3PO++, dan ASystem.
IcePop menghapus pembaruan berkelanjutan yang mengganggu untuk menstabilkan pelatihan tanpa memperlambat inferensi. Ini membantu menghilangkan ketidakselarasan heuristik pelatihan yang berbahaya di RL. Para peneliti mencatat bahwa ketika model pelatihan, terutama yang menggunakan arsitektur campuran ahli (MoE) seperti Ring-1T, sering kali terdapat ketidakkonsistenan dalam penghitungan probabilitas.
“Masalah ini terutama terlihat dalam pelatihan model MoE dengan RL karena penggunaan mekanisme perutean dinamis yang melekat. Selain itu, dalam pengaturan CoT yang panjang, ketidakkonsistenan ini secara bertahap dapat terakumulasi di seluruh iterasi dan semakin diperkuat,” kata para peneliti.
IcePop “mencegah pembaruan pelatihan yang tidak stabil dengan mengkalibrasi duplex masking.”
Metode baru berikutnya yang harus dikembangkan para peneliti adalah C3PO++, versi perbaikan dari sistem C3PO yang telah dibuat Ant sebelumnya. Metode ini mengatur bagaimana Ring-1T dan model parameter sangat besar lainnya dihasilkan dan menangani contoh pelatihan, atau yang disebut pengurangan, sehingga GPU tidak menganggur.
Cara kerjanya akan memecah pekerjaan menjadi beberapa bagian untuk diproses secara paralel. Satu set adalah set inferensi, yang menghasilkan data baru, dan set lainnya adalah set pelatihan, yang menggabungkan hasil untuk memperbarui model. C3PO++ membuat anggaran nominal untuk mengontrol jumlah data yang diproses, memastikan bahwa GPU digunakan secara efisien.
Metode baru terakhir, ASystem, mengadopsi arsitektur SingleController+SPMD (Single Program, Multiple Data) untuk mengaktifkan operasi asinkron.
Hasil referensi
Ant menyebut Ring-1T sebagai tolok ukur untuk mengukur kinerja dalam matematika, pemrograman, penalaran logis, dan tugas-tugas umum. Mereka mengujinya terhadap model seperti DeepSeek-V3.1-Terminus-Thinking, Qwen-35B-A22B-Thinking-2507, Gemini 2.5 Pro, dan GPT-5 Thinking.
Dalam pengujian benchmark kami, Ring-1T memiliki performa yang kuat, berada di urutan kedua setelah GPT-5 OpenAI di sebagian besar benchmark. Ant mengatakan Ring-1T menunjukkan performa terbaik dari semua model open-weight yang diuji.
Model ini mencatat skor 93,4% di papan peringkat AIME 25, nomor dua setelah GPT-5. Dalam pemrograman, Ring-1T mengungguli DeepSeek dan Qwen.
“Hal ini menunjukkan bahwa kumpulan data kami yang dikumpulkan dengan cermat merupakan kinerja kuat Ring-1T dalam aplikasi pemrograman, yang membentuk landasan kokoh untuk upaya masa depan pada aplikasi proxy,” kata perusahaan itu.
Ring-1T menunjukkan berapa banyak perusahaan Tiongkok yang telah berinvestasi dalam model tersebut
Ring-1T adalah model terbaru dari Tiongkok yang bertujuan untuk menjatuhkan GPT-5 dan Gemini.
Perusahaan-perusahaan Tiongkok telah merilis model-model yang mengesankan dengan sangat cepat sejak peluncuran DeepSeek yang mengejutkan pada bulan Januari. Perusahaan induk Ant, Alibababaru-baru ini dirilis Qwen3-Omnimodel multimedia yang menyatukan teks, gambar, audio, dan video. DeepSeek juga terus meningkatkan modelnya dan awal bulan ini, Meluncurkan DeepSeek-OCR. Paradigma baru ini menata ulang cara model memproses informasi.
Saat Ring-1T dan Ant mengembangkan metode baru untuk melatih dan menskalakan model yang sangat besar, persaingan untuk mendapatkan dominasi AI antara AS dan Tiongkok terus berkobar.