Berita

S3: Bingkai kain baru yang melatih agen penelitian dengan data minimal

Published

on

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Peneliti di Illinois Urbana Champin Disajikan S3Kerangka kerja open source yang dirancang untuk membuat kain (kain) lebih efisien daripada metode saat ini.

S3 dapat menguntungkan pengembang dalam menciptakan aplikasi model bahasa besar (LLM) di dunia nyata, karena menyederhanakan dan mengurangi biaya pembuatan model retriever dalam struktur RAG.

Retrisie Rag

Efektivitas sistem kain apa pun tergantung pada kualitas komponen pengambilan. di dalam Tentukan merekaPara peneliti mengklasifikasikan pengembangan pendekatan pemotongan menjadi tiga tahap yang berbeda.

  1. Sistem “Rag Classic” bergantung pada metode pemulihan tetap dengan kueri tetap, di mana kualitas pengambilan dipisahkan dari kinerja akhir. Struktur -struktur ini berjuang dengan pertanyaan yang membutuhkan pemikiran kontekstual atau multi -hukum.
  2. Tahap selanjutnya, yang disebut “Pra-RL-Zero”, memberikan aktivitas yang lebih aktif di LLM saat inferensi. Teknologi ini termasuk interaksi multi -turn, menghasilkan pertanyaan yang tumpang tindih, pengambilan, dan pemikiran. Namun, biasanya tergantung pada nol boga dan tidak memiliki bahan pelatihan untuk meningkatkan pemulihan melalui sinyal hasil langsung.
  3. Tahap terakhir, “RL-Zero”, meningkatkan pembelajaran penguatan (RL) untuk melatih model pekerjaan sebagai agen pencarian, dan meningkatkan dengan komentar berbasis hasil seperti jawaban yang benar. Contohnya adalah pencarian-R1, yang melatih formulir berkomunikasi dengan pertanyaan dengan pertanyaan pencarian dan pemulihan.

Terlepas dari kemajuannya, metode RL-Zer saat ini sering meningkatkan pengambilan menggunakan standar di sekitar pencarian yang mengabaikan manfaat muara. Apalagi membutuhkannya Pemolesan llmHarganya mahal dan terpapar kesalahan. Melalui pemulihan yang saling terkait dengan generasi, ini mengurangi manfaat penelitian nyata dan kompatibilitas dengan model beku atau properti.

Berbagai jenis kain: arxiv

Dalam kata -kata para peneliti, “Ini merangsang pergeseran ke arah kerangka standar di mana penelitian dan kebidanan dipisahkan bersih, dan perbaikannya berfokus murni pada kualitas penelitian mengenai alat muara.”

S3

S3 membingkai tantangan ini melalui pendekatan khas yang khas. Gagasan utamanya adalah melatih agen pencarian dengan pengetahuan eksternal yang terorganisir dan multi -jurnal. Agen penelitian ini meningkatkan kualitas tahap pengambilan tanpa mempengaruhi LLM yang menghasilkan jawaban akhir.

Di S3, peneliti khusus LLM bereaksi berulang kali dengan mesin pencari. Dia membuat pertanyaan berdasarkan klaim, mengingat dokumen yang relevan, memilih sub -grup bukti yang berguna, dan memutuskan apakah akan terus mencari informasi lebih lanjut. Setelah penelitian berakhir, fraktur LLM yang terpisah dan terpisah mengkonsumsi bukti akumulasi ini untuk menghasilkan jawaban akhir.

S3 Sumber: Arxiv

Inovasi dasar S3 adalah sinyal hadiahnya, dan keuntungan di belakang kain (GBR). GBR menentukan peningkatan akurasi generator ketika bersyarat pada dokumen yang dipulihkan oleh S3, dibandingkan dengan garis dasar yang mengingatkan dokumen yang lebih tinggi yang sesuai dengan kueri. Bonus ini merangsang peneliti untuk menemukan dokumen yang benar -benar meningkatkan kualitas generator.

“S3 membongkar pemulihan (peneliti) dari generator. Hal ini memungkinkan perusahaan untuk menghubungkan LLM di tebing atau kepemilikan kepemilikan-apakah itu adalah GPT-4, Claude, atau model internal tanpa harus mengendalikannya,” kata Pengchng, penulis kertas dan doktor dalam usaha. “Untuk lembaga dengan pembatasan organisasi atau kontrak dalam memodifikasi model, atau yang bergantung pada fasad pemrograman aplikasi LLM tertutup, model ini membuat S3 sangat praktis. Ini memungkinkan mereka untuk meningkatkan kualitas penelitian tanpa menyentuh infrastruktur untuk generasi mereka.”

S3 di tempat kerja

Para peneliti menguji S3 melalui enam kriteria untuk mengumpulkan pertanyaan umum untuk domain publik, membandingkannya dengan tiga kategori sistem kain: kontrol kinerja yang komprehensif (misalnya, pencarian-R1), pengambilan tetap dengan generator beku (seperti dokumen-dokumen RAG-R1 dan pengembalian aktivitasnya. Peneliti, Qwen2.5-14b-instruct dan Claude 3 haiku sebagai generator LLMS beku.

S3 melampaui garis pondasi tetap dan nol dan ujung yang disita pada sebagian besar kriteria dan mencapai derajat menengah. Perlu dicatat bahwa efisiensi datanya khususnya: S3 telah membuat keuntungan yang kuat dengan hanya 2,4 ribu contoh pelatihan, jauh lebih sedikit dari 70 ribu contoh yang diperlukan oleh DeePerrrieve (kerangka pengambilan tetap) atau 170.000 yang diperlukan oleh Search-R1, sementara itu melampaui kualitas konteks dan kinerja jawaban akhir.

S3 berlawanan dengan teknik pelanggaran lainnya Sumber: Gaytap

Jiang mengatakan: “Banyak institusi tidak memiliki kualitas besar -skala atau GPU Kualitas Infrastruktur Penjamin Data Penjamin untuk menyesuaikan sistem LLM dari ujung ke finish. S3 mengurangi penghalang dengan memungkinkan kinerja pengambilan yang kuat dengan pengawasan dan perhitungan minimal,” kata Jiang. “Ini berarti model awal lebih cepat, mengurangi biaya dan waktu penerbitan tercepat untuk aplikasi penelitian Amnesty International.”

Hasilnya menunjukkan pergeseran dasar dalam strategi peningkatan. Seperti yang dicatat oleh para peneliti dalam makalah ini, sebagian besar performa RAG memperoleh berasal dari “meningkatkan kapasitas pencarian alih -alih menyelaraskan output generasi”, yang berarti bahwa RL fokus pada strategi penelitian alih -alih mencapai penyelarasan generasi menggabungkan hasil yang lebih baik.

Hasil penentu lain dari aplikasi lembaga adalah S3 untuk menggeneralisasi area yang belum dilatih. S3 menunjukkan keberhasilan nol dalam memastikan kualitas medis terlepas dari pelatihan jaminan kualitas umum, menunjukkan bahwa “keterampilan penelitian di mana pembelajaran telah menjadi sirkuler yang lebih andal daripada pendekatan yang telah disita,” menurut para peneliti.

Kemampuan untuk beradaptasi di seluruh lapangan membuat S3 dengan baik untuk aplikasi lembaga khusus yang sering berurusan dengan kepemilikan atau grup data terperinci tanpa perlu data pelatihan luas untuk lapangan. Ini berarti bahwa seorang peneliti terlatih dapat melayani departemen yang berbeda (misalnya, legal, SDM, dukungan pelanggan) atau beradaptasi dengan konten lanjutan seperti dokumen produk baru.

Jiang mengatakan: “Kami melihat potensi langsung di bidang perawatan kesehatan, manajemen pengetahuan lembaga, dan dukungan dari penelitian ilmiah, karena pemulihan berkualitas tinggi sangat penting, dan data yang disebut langka,” kata Jiang.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version