Berita
Mengapa Sistem Rag Foundation Gagal: Google memberikan solusi “konteks yang cukup”
Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
A Studi baru dari Google Para peneliti menawarkan “konteks yang cukup”, perspektif baru untuk memahami dan meningkatkan rejimen kain dalam model bahasa besar (LLM).
Pendekatan ini memungkinkan untuk menentukan apakah LLM memiliki informasi yang cukup untuk menjawab permintaan secara akurat, yang merupakan faktor penentu bagi pengembang yang membangun aplikasi lembaga di dunia nyata di mana keandalan dan kesehatan nyata sangat penting.
Tantangan berkelanjutan untuk karya tersebut
Rag telah menjadi landasan untuk membangun lebih banyak aplikasi AI dan dapat diverifikasi. Namun, sistem ini dapat menunjukkan fitur yang tidak diinginkan. Mereka dapat memberikan jawaban yang salah bahkan ketika mereka disajikan dengan bukti yang dipulihkan, atau mengalihkan perhatian mereka dari informasi yang tidak terkait dalam konteks, atau gagal mendapatkan jawaban dari kutipan teks panjang dengan benar.
Para peneliti menyebutkan dalam makalah mereka, “Hasil yang ideal adalah bahwa LLM mengeluarkan jawaban yang benar jika konteks yang diberikan berisi informasi yang cukup untuk menjawab pertanyaan ketika menggabungkannya dengan pengetahuan perbatasan model. Kalau tidak, model harus menahan diri dari menjawab dan/atau meminta informasi lebih lanjut.”
Mencapai skenario yang sempurna ini membutuhkan model bangunan yang dapat menentukan apakah konteks yang disajikan dapat membantu dalam menjawab pertanyaan yang benar dan menggunakannya secara selektif. Upaya sebelumnya untuk mengobati ini telah mempelajari bagaimana LLMS berperilaku dalam berbagai tingkat informasi. Namun, kertas Google berpendapat bahwa “meskipun tujuannya adalah untuk memahami bagaimana LLMS berperilaku ketika mereka melakukan atau tidak memiliki informasi yang cukup untuk menjawab kueri, pekerjaan sebelumnya gagal untuk membahas tatap muka ini.”
Konteks yang memadai
Untuk mengatasi hal ini, para peneliti memberikan konsep “konteks yang memadai”. Pada tingkat tinggi, mitra input diklasifikasikan berdasarkan apakah konteks yang diberikan berisi informasi yang cukup untuk menjawab kueri. Ini membagi konteks menjadi dua kasus:
Konteks yang memadaiKonteksnya berisi semua informasi yang diperlukan untuk memberikan jawaban akhir.
Tidak memadai: Konteksnya tidak memiliki informasi yang diperlukan. Ini mungkin karena kueri membutuhkan pengetahuan khusus yang tidak ada dalam konteks, atau bahwa informasinya tidak lengkap, tidak menentukan atau kontradiktif.
Penunjukan ini ditentukan dengan melihat pertanyaan dan konteks terkait tanpa perlu menjawab perawatan darat. Ini sangat penting untuk aplikasi yang realistis, karena jawaban atas kebenaran bumi tidak mudah tersedia selama menyimpulkan.
Para peneliti mengembangkan “awtrat” berdasarkan LLM untuk mengotomatisasi tanda -tanda kasus sebagai konteks yang cukup atau tidak memadai. Mereka menemukan bahwa model Google Gemini 1.5 Pro, dengan satu contoh (satu tembakan), lebih baik dalam klasifikasi konteks, dan mencapai tingkat tinggi F1 dan akurasi.
Makalah, “Dalam skenario dunia nyata, kita tidak dapat mengharapkan kandidat menjawab ketika menilai kinerja model. Oleh karena itu, disarankan untuk menggunakan metode yang berfungsi menggunakan kueri dan konteks saja.”
Hasil utama pada perilaku LLM dengan kain
Analisis model yang berbeda dan kelompok data melalui lensa konteks yang cukup tentang banyak ide penting.
Seperti yang diharapkan, model umumnya mencapai akurasi yang lebih tinggi ketika konteksnya cukup. Namun, bahkan dengan konteks yang cukup, model cenderung lebih dari abstain dari pantang. Ketika konteksnya tidak cukup, situasinya menjadi lebih rumit, karena model menunjukkan tingkat pantang tertinggi, dalam beberapa model, meningkatkan halusinasi.
Menariknya, meskipun RAG umumnya meningkatkan kinerja umum, konteks tambahan juga dapat mengurangi kemampuan model untuk menahan diri dari menjawab ketika ia tidak memiliki informasi yang cukup. “Fenomena ini dapat muncul dari meningkatnya kepercayaan model di hadapan informasi kontekstual apa pun, yang mengarah pada peningkatan kecenderungan halusinasi alih -alih menahan diri dari pemungutan suara,” saran para peneliti.
Terutama pengamatan yang aneh adalah kemampuan model kadang -kadang untuk memberikan jawaban yang benar bahkan ketika konteks yang diberikan tidak cukup. Sementara asumsi alami adalah bahwa model “sudah tahu” jawaban dari pelatihan sebelum pelatihan (pengetahuan parameter), para peneliti telah menemukan faktor kontribusi lainnya. Misalnya, konteksnya dapat membantu menghilangkan misteri pada penyelidikan atau jembatan dalam mengetahui model, bahkan jika itu tidak memiliki jawaban penuh. Ini adalah kemampuan untuk berhasil terkadang bahkan dengan informasi eksternal yang terbatas memiliki efek yang lebih luas dari desain sistem RAG.
Cyrus Rashtchian, rekan penulis studi dan ilmuwan riset senior di Google, menjelaskan, menekankan bahwa kualitas LLM dasar masih penting. “Untuk sistem -Rag yang sangat bagus, model harus dievaluasi berdasarkan standar dengan dan tanpa pengambilan,” katanya kepada VentureBeat. Dia menyarankan bahwa pengambilan harus dianggap “peningkatan pengetahuannya”, bukan satu -satunya sumber kebenaran. Dia menjelaskan bahwa model dasar “masih perlu mengisi kesenjangan, atau menggunakan bukti konteks (yang diinformasikan oleh pra -pelatihan) untuk menyebabkan konteks yang telah dipulihkan dengan benar.
Mengurangi halusinasi dalam sistem rakit
Mengingat bahwa model dapat bersorak alih -alih menahan diri dari mereka, terutama dengan kain dibandingkan dengan kurangnya kain, para peneliti mengeksplorasi teknik untuk mengurangi ini.
Mereka telah mengembangkan kerangka kerja “generasi selektif” yang baru. Metode ini menggunakan “model intervensi” yang lebih kecil untuk menentukan apakah LLM utama harus membuat jawaban atau menahannya, memberikan perbandingan terkontrol antara akurasi dan cakupan (persentase jawaban yang telah dijawab).
Bingkai ini dapat dikombinasikan dengan LLM apa pun, termasuk model kepemilikan seperti Gueini dan GPT. Studi ini menemukan bahwa penggunaan konteks yang cukup sebagai sinyal tambahan dalam konteks ini mengarah pada akurasi yang jauh lebih tinggi untuk informasi yang dijawab melalui berbagai model dan kelompok data. Metode ini meningkatkan jawaban yang benar antara respons model sebesar 2-10 % untuk model Gemini, GPT dan GEMMA.
Untuk menempatkan peningkatan 2-10 % ini dalam perspektif kerja, Rashtchian menawarkan contoh konkret dari Dukungan Pelanggan AI. “Anda bisa membayangkan klien yang menanyakan apakah mereka bisa mendapatkan diskon,” katanya. “Dalam beberapa kasus, konteks yang baru pulih dan menggambarkan secara khusus penawaran promosi berkelanjutan, sehingga model dapat menjawab dengan percaya diri. Tetapi dalam kasus lain, konteksnya mungkin” tidak berarti “, menggambarkan diskon dari beberapa bulan, atau mungkin memiliki kondisi dan ketentuan spesifik.
Tim juga menyelidiki model penyempurnaannya untuk mendorong menahan diri dari abstain. Ini termasuk contoh pelatihan tentang contoh -contoh yang digantikan oleh “Saya tidak tahu” alih -alih kebenaran duniawi asli, terutama untuk kasus -kasus yang memiliki konteks yang tidak memadai. Intuisi adalah bahwa pelatihan eksplisit pada contoh -contoh tersebut dapat mengarahkan model untuk menahan diri dari halusinasi alih -alih halusinasi.
Hasilnya beragam: model yang sering disita sering kali merupakan tingkat tertinggi dari jawaban yang benar tetapi sering nyata, dan sering diperpanjang. Makalah ini menyimpulkan bahwa meskipun kontrol yang tepat dapat membantu, “lebih banyak pekerjaan diperlukan untuk mengembangkan strategi yang dapat diandalkan yang dapat menyeimbangkan tujuan ini.”
Aplikasi konteks yang memadai untuk sistem Rags Dunia Nyata
Untuk tim lembaga yang ingin menerapkan ide -ide ini pada sistem kain mereka, seperti yang mengoperasikan aturan pengetahuan internal atau dukungan pelanggan, Rashtchian menentukan pendekatan praktis. Pertama, disarankan mengumpulkan kumpulan data dari pasangan konteks pertanyaan, yang mewakili jenis contoh yang akan dilihat model dalam produksi. Selanjutnya, gunakan air berbasis diri LLM untuk menyebutkan setiap contoh sebagai konteks yang cukup atau tidak mencukupi.
“Ini sudah akan memberikan perkiraan yang baik tentang konteks yang cukup.” “Jika kurang dari 80-90 %, ada kemungkinan bahwa ada banyak ruang untuk meningkatkan sisi dasar pengambilan atau pengetahuan tentang hal-hal-ini adalah penawaran yang baik yang dapat diamati.”
Rashtchian merekomendasikan perbedaan “tanggapan kelas berdasarkan contoh dengan konteks yang cukup terhadap konteks yang tidak mencukupi.” Dengan memeriksa skala pada data terpisah ini, tim dapat lebih memahami nuansa kinerja.
“Misalnya, kami melihat bahwa model lebih mungkin memberikan respons yang salah (mengenai kebenaran dasar) ketika mereka diberi konteks yang tidak mencukupi. Ini adalah salah satu gejala lain yang dapat diamati, menambahkan bahwa” mengumpulkan statistik pada set data lengkap dapat bersinar pada serangkaian kecil pertanyaan penting yang telah diproses dengan buruk. “”
Sementara LLM sangat akurat, lembaga lembaga mungkin bertanya -tanya tentang biaya komputer tambahan. Rashtchian menjelaskan bahwa biaya umum dapat dikelola untuk tujuan diagnostik.
Dia berkata: “Saya ingin mengatakan bahwa pengoperasian air otomatis berbasis LLM pada set uji kecil (misalnya 500-1000 contoh) harus relatif tidak ada yang tidak penting, dan ini dapat dilakukan” tanpa kontak “, jadi tidak ada kekhawatiran tentang jumlah waktu yang dibutuhkan. Untuk aplikasi yang sebenarnya,” aku akan lebih kecil. ” “Insinyur harus melihat sesuatu yang melebihi tingkat kesamaan, dll., Dari komponen pemulihan mereka. Sinyal tambahan, dari LLM atau panduan, dapat menyebabkan visi baru. “
Tautan sumber