Berita
Qwenlong-L1 menyelesaikan tantangan pemikiran panjang dalam konteks yang dikembangkan di LLMS saat ini
Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
Ali Baba Group kaki Qwenlong-l1Kerangka kerja baru memungkinkan model LLMS untuk memikirkan input yang sangat panjang. Perkembangan ini dapat membuka gelombang baru lembaga yang membutuhkan model untuk memahami dan penglihatan dokumen luas seperti file perusahaan terperinci, laporan keuangan yang panjang atau kontrak hukum yang kompleks.
Tantangan pemikiran lama tentang kecerdasan buatan
Perkembangan modern dalam model berpikir besar (LRM), terutama melalui penguatan pembelajaran (RL), telah secara signifikan meningkatkan kemampuan pemecahan masalah. Penelitian menunjukkan bahwa ketika dilatih dengan penyempurnaan RL, LRM memperoleh keterampilan yang sama untuk “pemikiran lambat” manusia, karena mereka mengembangkan strategi canggih untuk mengatasi tugas yang kompleks.
Namun, perbaikan ini terlihat terutama ketika model bekerja dengan bagian teks yang relatif pendek, biasanya sekitar 4000 simbol. Kemampuan model -model ini untuk memperluas pemikiran mereka ke konteks yang lebih lama (misalnya, 120.000 simbol) masih merupakan tantangan utama. Logika bentuk panjang ini membutuhkan pemahaman yang kuat tentang seluruh konteks dan kemampuan untuk melakukan analisis multi -step. “Pendaftaran ini merupakan hambatan yang bagus untuk aplikasi praktis yang membutuhkan interaksi dengan pengetahuan eksternal, seperti pencarian yang mendalam, karena LRM harus mengumpulkan informasi dan memprosesnya dari lingkungan yang berpengetahuan luas,” tulis Qwenlong-L1 di dalamnya. kertas.
Para peneliti menanggung tantangan ini dalam konsep “pemikiran panjang dalam konteks RL”. Bertentangan dengan pemikiran pendek dalam konteks, yang seringkali tergantung pada pengetahuan yang sudah disimpan dalam model, logika konteks panjang membutuhkan model untuk memulihkan informasi yang relevan dari input panjang secara akurat. Hanya dengan demikian dapat membuat rantai pemikiran berdasarkan informasi terintegrasi ini.
Formulir pelatihan untuk tujuan ini melalui RL sulit dan sering mengarah pada pembelajaran dan peningkatan yang tidak stabil. Model sedang berjuang untuk bertemu dalam solusi yang baik atau kehilangan kemampuan mereka untuk mengeksplorasi berbagai jalur pemikiran.
Qwenlong-l1: Pendekatan multi-tahap
Qwenlong-L1 adalah kerangka kerja untuk memperkuat perancang untuk membantu LRM untuk beralih dari efisiensi dengan teks pendek ke generalisasi yang kuat di seluruh konteks yang panjang. Bingkai LRMS dalam konteks pendek ditingkatkan dengan proses terorganisir dengan hati -hati dan multi -panggung:
SFT: SFT: SFT: Model ini pertama -tama tunduk pada SFT, di mana ia dilatih pada contoh pemikiran konteks panjang. Tahap ini menciptakan dasar yang kuat, memungkinkan bentuk informasi secara akurat dari input panjang. Ini membantu dalam mengembangkan kemampuan dasar dalam memahami konteks, menghasilkan rantai berpikir logis, dan mengekstraksi jawaban.
RL diarahkan ke kurikulum RL: Pada tahap ini, model ini dilatih dalam beberapa tahap, dengan meningkatnya panjang dokumen masuk secara bertahap. Langkah pendekatan sistematis ini -dengan langkah membantu secara konsisten beradaptasi dari strategi berpikir dari lebih pendek hingga konteks yang lebih lama secara bertahap. Ini sering menghindari ketidakstabilan ketika model tiba -tiba dilatih pada teks yang sangat panjang.
Sampel kesulitan surut: Fase pelatihan akhir mencakup contoh -contoh sulit dari tahap pelatihan sebelumnya, memastikan bahwa model terus mempelajari salah satu masalah yang paling sulit. Ini memberikan prioritas pada situasi sulit dan mendorong model untuk mengeksplorasi jalur berpikir yang paling beragam dan kompleks.
Selain pelatihan terorganisir ini, Qwenlong-L1 juga menggunakan sistem bonus premium. Sementara pelatihan tentang tugas-tugas pemikiran singkat dalam konteks, seringkali tergantung pada basis yang ketat berdasarkan aturan (misalnya, jawaban yang benar untuk masalah matematika), Qwenlong-L1 menggunakan mekanisme bonus hibrida. Ini menggabungkan verifikasi berbasis aturan, yang menjamin akurasi dengan memverifikasi komitmen ketat terhadap standar kebenaran, denganLlm-a-a-jugneModel juri membandingkan semantik ini dengan jawaban yang dibuat dengan kebenaran dasar, memungkinkan lebih banyak fleksibilitas dan lebih baik berurusan dengan berbagai metode. Jawaban yang benar dapat diungkapkan saat berhadapan dengan dokumen yang panjang dan akurat.
Mode Qwenlong-L1 pada tes
Tim Alibaba mengevaluasi Qwenlong-L1 yang menilai jawaban atas pertanyaan dokumen (DORQA) sebagai tugas dasar. Skenario ini terkait erat dengan kebutuhan institusi, karena kecerdasan buatan harus memahami dokumen padat untuk menjawab pertanyaan kompleks.
Hasil eksperimen melalui tujuh standar panjang dalam dua konteks menunjukkan kemampuan Qwenlong-L1. Perlu dicatat bahwa model Qwenlong-L1-32B (berdasarkan Deepsek-R1-Distill-Swen-32bLakukan kinerja pemikiran sonnet yang serupa dari Antarbur, dan model-model luar biasa seperti O3-Mini Openai dan QWEN3-235B-A22B. Qwenlong-L1-14b juga melebihi flash Gemini 2.0 yang lebih kecil dari Google dan QWEN3-32B.
Hasil output penting dalam aplikasi dunia nyata adalah bagaimana pelatihan RL dalam model adalah pengembangan perilaku berpikir konteks panjang. Makalah ini menunjukkan bahwa model yang dilatih dengan Qwenlong-L1 menjadi lebih baik dalam “landasan” (menghubungkan jawaban ke bagian-bagian tertentu dari dokumen), “sub-persiapan” (menghancurkan pertanyaan kompleks), “retret” (mengidentifikasi kesalahan mereka dan mengoreksi mereka di tengah pertunjukan), dan “verifikasi” (verifikasi ganda jawaban mereka).
Sebagai contoh, meskipun model dasar dapat didistribusikan melalui detail yang tidak terkait dalam dokumen keuangan atau ditangguhkan dalam episode informasi yang tidak terkait dari analisis berlebihan, model yang dilatih pada Qwenlong-L1 menunjukkan kemampuan untuk terlibat dalam refleksi diri yang efektif. Ini dapat berhasil melikuidasi detail perilaku ini, mundur dari jalur yang salah, dan mengakses jawaban yang benar.
Teknik-teknik seperti Qwenlong-L1 dapat sangat memperluas manfaat kecerdasan buatan di institusi. Aplikasi yang mungkin termasuk teknologi hukum (analisis ribuan halaman dokumen hukum), pembiayaan (penelitian mendalam tentang laporan tahunan dan file keuangan untuk penilaian risiko atau peluang investasi) dan layanan pelanggan (analisis riwayat interaksi pelanggan yang panjang untuk memberikan dukungan yang lebih mencerahkan). Peneliti dirilis Kode resep Qwenlong-L1 Dan Berat model terlatih.
Tautan sumber