Connect with us

Berita

S3: Bingkai kain baru yang melatih agen penelitian dengan data minimal

Published

on

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Peneliti di Illinois Urbana Champin Disajikan S3Kerangka kerja open source yang dirancang untuk membuat kain (kain) lebih efisien daripada metode saat ini.

S3 dapat menguntungkan pengembang dalam menciptakan aplikasi model bahasa besar (LLM) di dunia nyata, karena menyederhanakan dan mengurangi biaya pembuatan model retriever dalam struktur RAG.

Retrisie Rag

Efektivitas sistem kain apa pun tergantung pada kualitas komponen pengambilan. di dalam Tentukan merekaPara peneliti mengklasifikasikan pengembangan pendekatan pemotongan menjadi tiga tahap yang berbeda.

  1. Sistem “Rag Classic” bergantung pada metode pemulihan tetap dengan kueri tetap, di mana kualitas pengambilan dipisahkan dari kinerja akhir. Struktur -struktur ini berjuang dengan pertanyaan yang membutuhkan pemikiran kontekstual atau multi -hukum.
  2. Tahap selanjutnya, yang disebut “Pra-RL-Zero”, memberikan aktivitas yang lebih aktif di LLM saat inferensi. Teknologi ini termasuk interaksi multi -turn, menghasilkan pertanyaan yang tumpang tindih, pengambilan, dan pemikiran. Namun, biasanya tergantung pada nol boga dan tidak memiliki bahan pelatihan untuk meningkatkan pemulihan melalui sinyal hasil langsung.
  3. Tahap terakhir, “RL-Zero”, meningkatkan pembelajaran penguatan (RL) untuk melatih model pekerjaan sebagai agen pencarian, dan meningkatkan dengan komentar berbasis hasil seperti jawaban yang benar. Contohnya adalah pencarian-R1, yang melatih formulir berkomunikasi dengan pertanyaan dengan pertanyaan pencarian dan pemulihan.

Terlepas dari kemajuannya, metode RL-Zer saat ini sering meningkatkan pengambilan menggunakan standar di sekitar pencarian yang mengabaikan manfaat muara. Apalagi membutuhkannya Pemolesan llmHarganya mahal dan terpapar kesalahan. Melalui pemulihan yang saling terkait dengan generasi, ini mengurangi manfaat penelitian nyata dan kompatibilitas dengan model beku atau properti.

Berbagai jenis kain: arxiv

Dalam kata -kata para peneliti, “Ini merangsang pergeseran ke arah kerangka standar di mana penelitian dan kebidanan dipisahkan bersih, dan perbaikannya berfokus murni pada kualitas penelitian mengenai alat muara.”

S3

S3 membingkai tantangan ini melalui pendekatan khas yang khas. Gagasan utamanya adalah melatih agen pencarian dengan pengetahuan eksternal yang terorganisir dan multi -jurnal. Agen penelitian ini meningkatkan kualitas tahap pengambilan tanpa mempengaruhi LLM yang menghasilkan jawaban akhir.

Di S3, peneliti khusus LLM bereaksi berulang kali dengan mesin pencari. Dia membuat pertanyaan berdasarkan klaim, mengingat dokumen yang relevan, memilih sub -grup bukti yang berguna, dan memutuskan apakah akan terus mencari informasi lebih lanjut. Setelah penelitian berakhir, fraktur LLM yang terpisah dan terpisah mengkonsumsi bukti akumulasi ini untuk menghasilkan jawaban akhir.

Kerangka kerja S3 (Sumber: ARXIV)
S3 Sumber: Arxiv

Inovasi dasar S3 adalah sinyal hadiahnya, dan keuntungan di belakang kain (GBR). GBR menentukan peningkatan akurasi generator ketika bersyarat pada dokumen yang dipulihkan oleh S3, dibandingkan dengan garis dasar yang mengingatkan dokumen yang lebih tinggi yang sesuai dengan kueri. Bonus ini merangsang peneliti untuk menemukan dokumen yang benar -benar meningkatkan kualitas generator.

“S3 membongkar pemulihan (peneliti) dari generator. Hal ini memungkinkan perusahaan untuk menghubungkan LLM di tebing atau kepemilikan kepemilikan-apakah itu adalah GPT-4, Claude, atau model internal tanpa harus mengendalikannya,” kata Pengchng, penulis kertas dan doktor dalam usaha. “Untuk lembaga dengan pembatasan organisasi atau kontrak dalam memodifikasi model, atau yang bergantung pada fasad pemrograman aplikasi LLM tertutup, model ini membuat S3 sangat praktis. Ini memungkinkan mereka untuk meningkatkan kualitas penelitian tanpa menyentuh infrastruktur untuk generasi mereka.”

S3 di tempat kerja

Para peneliti menguji S3 melalui enam kriteria untuk mengumpulkan pertanyaan umum untuk domain publik, membandingkannya dengan tiga kategori sistem kain: kontrol kinerja yang komprehensif (misalnya, pencarian-R1), pengambilan tetap dengan generator beku (seperti dokumen-dokumen RAG-R1 dan pengembalian aktivitasnya. Peneliti, Qwen2.5-14b-instruct dan Claude 3 haiku sebagai generator LLMS beku.

S3 melampaui garis pondasi tetap dan nol dan ujung yang disita pada sebagian besar kriteria dan mencapai derajat menengah. Perlu dicatat bahwa efisiensi datanya khususnya: S3 telah membuat keuntungan yang kuat dengan hanya 2,4 ribu contoh pelatihan, jauh lebih sedikit dari 70 ribu contoh yang diperlukan oleh DeePerrrieve (kerangka pengambilan tetap) atau 170.000 yang diperlukan oleh Search-R1, sementara itu melampaui kualitas konteks dan kinerja jawaban akhir.

S3 Against Rag Technologies lainnya (Sumber: GitHub)
S3 berlawanan dengan teknik pelanggaran lainnya Sumber: Gaytap

Jiang mengatakan: “Banyak institusi tidak memiliki kualitas besar -skala atau GPU Kualitas Infrastruktur Penjamin Data Penjamin untuk menyesuaikan sistem LLM dari ujung ke finish. S3 mengurangi penghalang dengan memungkinkan kinerja pengambilan yang kuat dengan pengawasan dan perhitungan minimal,” kata Jiang. “Ini berarti model awal lebih cepat, mengurangi biaya dan waktu penerbitan tercepat untuk aplikasi penelitian Amnesty International.”

Hasilnya menunjukkan pergeseran dasar dalam strategi peningkatan. Seperti yang dicatat oleh para peneliti dalam makalah ini, sebagian besar performa RAG memperoleh berasal dari “meningkatkan kapasitas pencarian alih -alih menyelaraskan output generasi”, yang berarti bahwa RL fokus pada strategi penelitian alih -alih mencapai penyelarasan generasi menggabungkan hasil yang lebih baik.

Hasil penentu lain dari aplikasi lembaga adalah S3 untuk menggeneralisasi area yang belum dilatih. S3 menunjukkan keberhasilan nol dalam memastikan kualitas medis terlepas dari pelatihan jaminan kualitas umum, menunjukkan bahwa “keterampilan penelitian di mana pembelajaran telah menjadi sirkuler yang lebih andal daripada pendekatan yang telah disita,” menurut para peneliti.

Kemampuan untuk beradaptasi di seluruh lapangan membuat S3 dengan baik untuk aplikasi lembaga khusus yang sering berurusan dengan kepemilikan atau grup data terperinci tanpa perlu data pelatihan luas untuk lapangan. Ini berarti bahwa seorang peneliti terlatih dapat melayani departemen yang berbeda (misalnya, legal, SDM, dukungan pelanggan) atau beradaptasi dengan konten lanjutan seperti dokumen produk baru.

Jiang mengatakan: “Kami melihat potensi langsung di bidang perawatan kesehatan, manajemen pengetahuan lembaga, dan dukungan dari penelitian ilmiah, karena pemulihan berkualitas tinggi sangat penting, dan data yang disebut langka,” kata Jiang.


Tautan sumber
Continue Reading
Click to comment

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Berita

AI Agentik adalah tentang konteks, yaitu geometri

Published

on

Pengenalan elastis


Ketika organisasi berupaya menerapkan solusi AI yang efektif, akses terhadap data kepemilikan dari seluruh penjuru akan menjadi kuncinya

Saat ini, sebagian besar organisasi telah mendengar tentang AI agen, yaitu sistem yang “berpikir” dengan menggabungkan alat, data, dan sumber informasi lain secara mandiri untuk memberikan jawaban. Namun inilah masalahnya: keandalan dan relevansi bergantung pada penyediaan konteks yang akurat. Di sebagian besar organisasi, konteks ini tersebar di banyak sumber data tidak terstruktur, termasuk dokumen, email, aplikasi bisnis, dan ulasan pelanggan.

Saat organisasi menatap tahun 2026, penyelesaian masalah ini akan menjadi kunci untuk mempercepat penerapan AI di seluruh dunia, kata Ken Exner, chief product officer di Elastic.

"Orang-orang mulai menyadari bahwa untuk melakukan AI agen dengan benar, Anda harus memiliki data yang relevan," kata Exner. "Relevansi sangat penting dalam konteks AI agen, karena AI tersebut mengambil tindakan atas nama Anda. “Saat orang kesulitan membangun aplikasi AI, saya dapat meyakinkan Anda bahwa masalahnya adalah relevansinya.”

Agen ada dimana-mana

Konflik dapat memasuki masa kritis ketika organisasi berupaya mendapatkan keunggulan kompetitif atau menciptakan efisiensi baru. Studi Deloitte Dia memperkirakan Pada tahun 2026, lebih dari 60% organisasi besar akan menerapkan AI agen dalam skala besar, yang menunjukkan peningkatan yang signifikan dari tahap uji coba hingga penerapan arus utama. Dan peneliti Gartner Harapan Pada akhir tahun 2026, 40% dari seluruh aplikasi perusahaan akan menyertakan agen khusus tugas, naik dari kurang dari 5% pada tahun 2025. Menambahkan kemampuan spesialisasi tugas akan mengembangkan asisten AI menjadi agen AI yang sadar konteks.

Masukkan rekayasa konteks

Proses memperkenalkan konteks yang relevan kepada agen pada waktu yang tepat dikenal sebagai rekayasa konteks. Hal ini tidak hanya memastikan bahwa aplikasi agen memiliki data yang diperlukan untuk memberikan respons yang akurat dan mendalam, tetapi juga membantu Model Bahasa Besar (LLM) memahami alat apa yang diperlukan untuk menemukan dan menggunakan data tersebut, dan cara memanggil API tersebut.

Meskipun kini terdapat standar sumber terbuka seperti Model Context Protocol (MCP) yang memungkinkan LLM terhubung dan berkomunikasi dengan data eksternal, hanya ada sedikit platform yang memungkinkan organisasi membangun agen AI granular yang menggunakan data Anda dan menggabungkan pengambilan, tata kelola, dan orkestrasi di satu tempat, di lokasi.

Elasticsearch selalu menjadi platform terdepan untuk inti rekayasa konteks. Kami baru-baru ini merilis fitur baru dalam Elasticsearch yang disebut Agent Builder, yang menyederhanakan seluruh siklus hidup operasional agen: pengembangan, konfigurasi, implementasi, penyesuaian, dan kemampuan observasi.

Agent Builder membantu membangun alat MCP pada data pribadi menggunakan berbagai teknologi, termasuk Elasticsearch Query Language, bahasa kueri yang disalurkan untuk memfilter, mentransformasikan, menganalisis data, atau memodelkan alur kerja. Pengguna kemudian dapat menggunakan berbagai alat dan menggabungkannya dengan Klaim dan LLM untuk membuat agen.

Agent Builder menyediakan agen obrolan siap pakai dan dapat dikonfigurasi yang memungkinkan Anda mengobrol dengan data dalam indeks, dan juga memberi pengguna kemampuan untuk membuat agen dari awal menggunakan berbagai alat dan petunjuk selain data pribadi.

"Data adalah pusat dunia kita di Elastic. Kami mencoba memastikan Anda memiliki alat yang diperlukan untuk menjalankan data ini," Exner menjelaskan. "Saat Anda membuka Agent Builder, Anda mengarahkannya ke indeks di Elasticsearch, dan Anda dapat mulai mengobrol dengan data apa pun yang Anda sambungkan, atau data apa pun yang diindeks di Elasticsearch – atau dari sumber eksternal melalui integrasi.

Rekayasa konteks sebagai suatu sistem

Rekayasa tangkas dan kontekstual telah menjadi spesialisasi. Anda tidak memerlukan gelar di bidang ilmu komputer, namun seiring dengan semakin banyaknya kelas dan praktik terbaik yang bermunculan, karena ada seni di dalamnya.

"Kami ingin membuatnya sangat sederhana untuk melakukan hal ini," kata Exner. "Hal yang harus dipikirkan orang-orang adalah, bagaimana Anda mendorong otomatisasi dengan AI? Hal inilah yang akan mendorong produktivitas. Orang yang fokus pada hal ini akan melihat lebih banyak kesuksesan."

Di luar itu, pola geometri konteks lainnya akan muncul. Industri telah beralih dari rekayasa tangkas, ke generasi yang ditingkatkan pengambilannya, di mana informasi diteruskan ke LLM dalam jendela konteks, ke solusi MCP yang membantu LLM dalam pemilihan alat. Tapi itu tidak akan berhenti di situ.

"Mengingat betapa cepatnya segala sesuatunya bergerak, saya jamin pola-pola baru akan muncul dengan sangat cepat." kata Exner. "Masih akan ada rekayasa kontekstual, namun akan ada pola baru tentang bagaimana data dibagikan kepada MBA, dan bagaimana data tersebut didasarkan pada informasi yang benar. Saya mengharapkan lebih banyak pola yang memungkinkan LLM memahami data pribadi yang tidak dilatihnya."

Agent Builder kini tersedia sebagai pratinjau teknis. Mulailah dengan Pengalaman cloud yang fleksibeldan lihat dokumentasi untuk Agent Builder Di Sini.


Artikel bersponsor adalah konten yang diproduksi oleh perusahaan yang membayar postingan tersebut atau memiliki hubungan kerja dengan VentureBeat, dan selalu diberi label dengan jelas. Untuk informasi lebih lanjut, hubungi penjualan@venturebeat.com.

Tautan sumber

Continue Reading

Berita

Trump dan Xi bertemu dalam upaya untuk menyelesaikan ketegangan perdagangan yang disebabkan oleh tarif AS

Published

on

baruAnda sekarang dapat mendengarkan artikel Fox News!

Presiden AS Donald Trump bertemu langsung dengan pemimpin Tiongkok Xi Jinping pada hari Kamis, hari terakhir perjalanan Trump ke Asia yang mencakup kunjungan ke Malaysia, Jepang dan Korea Selatan, dalam upaya untuk menyelesaikan perselisihan perdagangan yang sedang berlangsung antara kedua belah pihak.

Trump telah mengenakan tarif yang signifikan terhadap Tiongkok sejak kembali menjabat di Gedung Putih pada bulan Januari, dan Beijing telah meresponsnya dengan memberlakukan pembatasan ekspor unsur tanah jarang. Kedua belah pihak ingin menghindari risiko meledaknya perekonomian global yang dapat merugikan negara mereka.

Para pemimpin dua negara dengan perekonomian terbesar di dunia berbicara kepada pers dalam pernyataan pengantar singkat sebelum bertemu secara tertutup dengan para pejabat senior mereka.

Presiden Donald Trump, kiri, dan Presiden Tiongkok Xi Jinping, kanan, berjabat tangan sebelum pertemuan mereka di Bandara Internasional Gimhae di Busan, Korea Selatan, Kamis, 30 Oktober 2025. (Foto AP/Mark Schiefelbein)

“Sungguh hangat rasanya bertemu Anda lagi karena sudah bertahun-tahun berlalu,” kata Xi dalam pidato pembukaannya.

“Kami tidak selalu sepakat satu sama lain,” kata Xi, sambil menekankan bahwa “adalah hal yang normal jika terjadi perselisihan antara dua negara dengan ekonomi terkemuka di dunia dari waktu ke waktu.”

Presiden Donald Trump, kanan, bersama Menteri Luar Negeri Marco Rubio, kedua dari kanan, dan Menteri Perdagangan Howard Lutnick

Presiden Donald Trump, kanan, bersama Menteri Luar Negeri Marco Rubio, kedua dari kanan, dan Menteri Perdagangan Howard Lutnick, ketiga dari kanan, bertemu dengan Presiden Tiongkok Xi Jinping di Bandara Internasional Gimhae di Busan, Korea Selatan, Kamis, 30 Oktober 2025. (Foto AP/Mark Schiefelbein)

Klik di sini untuk mengunduh aplikasi FOX NEWS

Pemimpin Tiongkok tersebut menambahkan bahwa kedua negara “sepenuhnya mampu membantu satu sama lain untuk mencapai kesuksesan dan kesejahteraan bersama.”

Associated Press berkontribusi pada laporan ini.

Ini adalah kisah yang berkembang. Periksa kembali untuk mengetahui pembaruan.

Tautan sumber

Continue Reading

Berita

Dari pengklasifikasi statis hingga mesin penalaran: Paradigma OpenAI baru memikirkan kembali moderasi konten

Published

on

Perusahaan sangat ingin memastikan model AI apa pun yang mereka gunakan Komitmen terhadap keselamatan dan penggunaan yang aman kebijakan, dan menyesuaikan LLM sehingga tidak menanggapi pertanyaan yang tidak diminta.

Namun, sebagian besar keamanan dan tim merah terjadi sebelum penerapan, dan kebijakan “penggabungan” terjadi sebelum pengguna sepenuhnya merasakan kemampuan model dalam produksi. OpenAI Dia yakin hal ini dapat menawarkan pilihan yang lebih fleksibel bagi organisasi dan mendorong lebih banyak perusahaan untuk menerapkan kebijakan keselamatan.

Perusahaan telah merilis dua model open-weight dalam tinjauan penelitian yang diyakini akan membuat institusi dan model lebih fleksibel dalam hal agunan. gpt-oss-safeguard-120b dan gpt-oss-safeguard-20b akan tersedia pada lisensi Apache 2.0 yang permisif. Model-model tersebut merupakan versi open source OpenAI yang telah disempurnakan gpt-oss, dirilis pada bulan Agustusmenandai rilis pertama dalam keluarga OSS sejak musim panas.

Di sebuah Entri blogoss-safeguard menggunakan logika untuk “menafsirkan kebijakan pengembang dan penyedia secara langsung pada waktu inferensi – mengklasifikasikan pesan pengguna, penyelesaian, dan percakapan penuh sesuai dengan kebutuhan pengembang,” kata OpenAI.

Perusahaan menjelaskan bahwa karena model menggunakan Chain of Thought (CoT), pengembang dapat memperoleh penjelasan tentang keputusan model untuk ditinjau.

“Selain itu, kebijakan diberikan selama inferensi, bukan pelatihan model, sehingga lebih mudah bagi pengembang untuk sering meninjau kebijakan guna meningkatkan kinerja.”" OpenAI mengatakan dalam postingannya. "Pendekatan ini, yang awalnya kami kembangkan untuk penggunaan internal, jauh lebih fleksibel dibandingkan metode tradisional dalam melatih pengklasifikasi untuk secara tidak langsung menyimpulkan batasan keputusan dari sejumlah besar contoh yang diberi label."

Pengembang dapat mengunduh kedua templat dari Pelukan wajah.

Elastisitas versus roti

Awalnya, model AI tidak akan mengetahui faktor keselamatan pilihan perusahaan. Sedangkan model pengirim tim merah Model dan platform,Jaminan ini ditujukan untuk penggunaan yang lebih luas. Perusahaan seperti Microsoft Dan Layanan Web Amazon sampai Platform tampilan Untuk membawa Pagar pembatas untuk aplikasi kecerdasan buatan Dan para agen.

Perusahaan menggunakan pengklasifikasi keselamatan untuk membantu melatih model mengenali pola masukan yang baik atau buruk. Ini membantu model mengetahui pertanyaan mana yang tidak boleh mereka jawab. Hal ini juga membantu memastikan bahwa model tidak menyimpang dan jawabannya akurat.

“Pengklasifikasi tradisional dapat memiliki kinerja tinggi, latensi rendah, dan biaya pengoperasian rendah," kata OpenAI. "Namun mengumpulkan contoh pelatihan dalam jumlah yang cukup dapat memakan waktu dan mahal, dan memperbarui atau mengubah kebijakan memerlukan pelatihan ulang pengklasifikasi."

Model mengambil dua masukan sekaligus sebelum mengambil kesimpulan tentang kegagalan konten. Dibutuhkan kebijakan dan konten untuk menentukan peringkat sesuai dengan pedomannya. OpenAI mengatakan model tersebut bekerja paling baik dalam situasi di mana:

  • Potensi kerugian sedang muncul atau berkembang, dan kebijakan harus beradaptasi dengan cepat.

  • Domain ini sangat bagus dan sulit ditangani oleh pengklasifikasi yang lebih kecil.

  • Pengembang tidak memiliki cukup sampel untuk melatih pengklasifikasi berkualitas tinggi untuk setiap risiko di platform mereka.

  • Latensi tidak sepenting menghasilkan label berkualitas tinggi dan dapat ditafsirkan.

Perusahaan mengatakan gpt-oss-safeguard “berbeda karena kemampuan logikanya memungkinkan pengembang untuk menegakkan kebijakan apa pun,” bahkan kebijakan yang mereka tulis selama inferensi.

Model ini didasarkan pada alat internal OpenAI, Safety Reasoner, yang memungkinkan timnya lebih sering memasang pagar pembatas. Mereka sering kali memulai dengan kebijakan keamanan yang sangat ketat, “menggunakan komputasi dalam jumlah yang relatif besar bila diperlukan,” dan kemudian menyesuaikan kebijakan tersebut saat mereka menggerakkan model melalui perubahan produksi dan penilaian risiko.

Kinerja keselamatan

OpenAI mengatakan model perlindungan gpt-oss-nya mengungguli GPT-5 Thinking dan model gpt-oss asli dalam hal akurasi multi-kebijakan berdasarkan pengujian benchmark. Model tersebut juga dijalankan pada benchmark ToxicChat secara keseluruhan, dan performanya baik, meskipun pertimbangan GPT-5 dan alasan keselamatan sedikit mengungguli model tersebut.

Namun ada kekhawatiran bahwa pendekatan ini dapat mengarah pada sentralisasi standar keselamatan.

“Keselamatan bukanlah konsep yang didefinisikan dengan baik,” kata John Theakston, asisten profesor ilmu komputer di Cornell University. “Setiap penerapan standar keselamatan akan mencerminkan nilai dan prioritas organisasi yang menciptakannya, serta keterbatasan dan kekurangan modelnya.” “Jika industri secara keseluruhan mengadopsi standar yang dikembangkan oleh OpenAI, kita berisiko melembagakan perspektif tertentu mengenai keselamatan dan menghalangi penyelidikan yang lebih luas mengenai kebutuhan keselamatan dalam penerapan AI di banyak sektor masyarakat.”

Perlu juga dicatat bahwa OpenAI belum merilis model dasar untuk rangkaian model oss, sehingga pengembang tidak dapat mereplikasinya sepenuhnya.

Namun, OpenAI yakin bahwa komunitas pengembang dapat membantu meningkatkan perlindungan gpt-oss. Ini akan menjadi tuan rumah hackathon pada 8 Desember di San Francisco.

Tautan sumber

Continue Reading

Trending