Berita
Setelah reaksi GPT-4O, para peneliti mengevaluasi bentuk-bentuk tentang dukungan moral-kegembiraan masih ada di semua bidang
Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
Bulan lalu, Openai Beberapa pembaruan jatuh ke GPT-4O setelah banyak pengguna, termasuk mantan CEO Openai Emmet Shear dan Huging Face DeAngue, mengatakan model berlebihan bagi pengguna.
Pujian, yang disebut Sycophance, sering membuat model menunda preferensi pengguna, menjadi sangat sopan, dan tidak mundur. Itu juga menjengkelkan. Sycophancy dapat meluncurkan model informasi yang salah atau meningkatkan perilaku berbahaya. Sementara lembaga mulai mengajukan aplikasi dan agen berdasarkan Sycophant LLMS, mereka berisiko menyetujui model yang menyetujui keputusan kerja yang berbahaya, mendorong informasi yang salah untuk menyebar dan menggunakannya oleh agen intelijen buatan, dan dapat memengaruhi kebijakan kepercayaan dan keselamatan.
Universitas StanfordDan Universitas Carnegie Mellon Dan Universitas Oxford Para peneliti berusaha mengubah ini Menyarankan standar Untuk mengukur model penjilat. Mereka menyebut gajah standar, untuk mengevaluasi LLM sebagai penjilat yang berlebihan, dan mereka menemukan bahwa setiap model bahasa besar (LLM) memiliki tingkat sicovan tertentu. Dengan memahami bagaimana model sycophanty, standar dapat memandu lembaga untuk membuat pedoman saat menggunakan LLMS.
Untuk menguji standar, para peneliti merujuk pada model -model untuk koleksi data saran pribadi: QEQ, seperangkat pertanyaan nasihat pribadi yang terbuka di posisi dunia nyata, dan AITA, posting dari subreddit r/amitheasshole, di mana poster dan komentator memutuskan apakah orang bertindak luar biasa atau tidak dalam beberapa kasus.
Gagasan di balik pengalaman itu adalah untuk mengetahui bagaimana model berperilaku ketika menghadapi pertanyaan. Ini mengevaluasi apa yang oleh para peneliti sosial disebut sosial, apakah model berusaha mempertahankan “wajah pengguna”, citra dirinya, atau identitas sosial mereka.
Penyelidikan sosial yang lebih “tersembunyi” adalah persis seperti apa kriteria yang didapat dari pekerjaan sebelumnya yang hanya melihat kesepakatan realistis atau keyakinan eksplisit, dan itu adalah salah satu peneliti dan penulis yang berpartisipasi dalam makalah ini. ” Kami telah memilih untuk melihat bidang nasihat pribadi karena kerusakan sycophaancy lebih tergantung, tetapi pujian juga akan ditangkap perilaku “verifikasi emosional” resmi.
Tes Model
Untuk pengujian, para peneliti memberi makan data dari QEQ dan AITA ke Openai GPT-4O, Gimini 1.5 Flash dari GoogleDan priaClaude Sony 3.7 dan model berat terbuka dari Mati (Llama 3-8B-Instruct, Llama 4-Scout-17b-16-E dan Llama 3.3-70B-Instruct- Turbo) dan kesalahan7b-instruct-V0.3 dan Mistral Small-24B-instruct2501.
“Mereka mengevaluasi model menggunakan API GPT-4O, yang menggunakan versi model dari akhir 2024, sebelum implementasi model Openai baru dan kebiasaannya,” kata Cheng.
Untuk mengukur penjilat, metode gajah melihat lima perilaku peleburan sosial:
- Verifikasi emosional atau gangguan berlebihan tanpa kritik
- Dukungan etis atau mengatakan bahwa pengguna benar secara moral, bahkan ketika tidak
- Bahasa tidak langsung di mana formulir menghindari mengirimkan saran langsung
- Pekerjaan yang diinformasikan, atau di mana model direkomendasikan untuk mekanisme konfrontasi negatif
- Menerima kerangka kerja yang tidak menantang asumsi yang bermasalah.
Tes menemukan bahwa semua LLM menunjukkan tingkat simpul tinggi, bahkan lebih dari manusia, dan telah terbukti meringankan penjilat sosial. Namun, tes menunjukkan bahwa GPT-4O “memiliki beberapa tingkat sosial sosial tertinggi, sementara Gemini-1.5-flash memiliki yang paling sedikit.”
LLM telah meningkat beberapa bias dalam kelompok data juga. Makalah ini mencatat bahwa posting di Aita memiliki beberapa bias gender, dalam posting yang mengingatkan istri atau pacar sering ditandai dengan benar sebagai tidak pantas secara sosial. Pada saat yang sama, mereka yang menderita suami, teman, ayah, atau ibu diklasifikasikan. Para peneliti mengatakan bahwa model “mungkin bergantung pada kesimpulan gender yang tak terbatas dalam menyalahkan kompensasi yang berlebihan.” Dengan kata lain, model -model itu lebih banyak penjilat bagi orang -orang yang menderita teman dan suami lebih dari mereka yang memiliki teman atau istri.
Mengapa ini penting
Adalah baik untuk berbicara dengan Anda chatbot sebagai entitas simpatik, dan ia mungkin merasa puas jika model tersebut memverifikasi kebenaran komentar Anda. Tapi penjilat Ini menimbulkan kekhawatiran tentang mendukung model palsu atau mengenai data, dan pada tingkat yang lebih pribadi, yang dapat mendorong isolasi diri, delusi Atau perilaku berbahaya.
Lembaga tidak ingin aplikasi kecerdasan buatan yang dirancang dengan LLM untuk mempublikasikan informasi yang salah agar dapat diterima oleh pengguna. Ini mungkin keliru dengan nada atau moral organisasi dan mungkin sangat menjengkelkan bagi karyawan dan pengguna platform terakhir mereka.
Para peneliti mengatakan bahwa gajah dan tes tambahan dapat membantu untuk menginformasikan pegangan tangan dengan lebih baik untuk mencegah peningkatan tersebut.
Tautan sumber