Berita
Setelah reaksi GPT-4O, para peneliti mengevaluasi bentuk-bentuk tentang dukungan moral-kegembiraan masih ada di semua bidang

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
Bulan lalu, Openai Beberapa pembaruan jatuh ke GPT-4O setelah banyak pengguna, termasuk mantan CEO Openai Emmet Shear dan Huging Face DeAngue, mengatakan model berlebihan bagi pengguna.
Pujian, yang disebut Sycophance, sering membuat model menunda preferensi pengguna, menjadi sangat sopan, dan tidak mundur. Itu juga menjengkelkan. Sycophancy dapat meluncurkan model informasi yang salah atau meningkatkan perilaku berbahaya. Sementara lembaga mulai mengajukan aplikasi dan agen berdasarkan Sycophant LLMS, mereka berisiko menyetujui model yang menyetujui keputusan kerja yang berbahaya, mendorong informasi yang salah untuk menyebar dan menggunakannya oleh agen intelijen buatan, dan dapat memengaruhi kebijakan kepercayaan dan keselamatan.
Universitas StanfordDan Universitas Carnegie Mellon Dan Universitas Oxford Para peneliti berusaha mengubah ini Menyarankan standar Untuk mengukur model penjilat. Mereka menyebut gajah standar, untuk mengevaluasi LLM sebagai penjilat yang berlebihan, dan mereka menemukan bahwa setiap model bahasa besar (LLM) memiliki tingkat sicovan tertentu. Dengan memahami bagaimana model sycophanty, standar dapat memandu lembaga untuk membuat pedoman saat menggunakan LLMS.
Untuk menguji standar, para peneliti merujuk pada model -model untuk koleksi data saran pribadi: QEQ, seperangkat pertanyaan nasihat pribadi yang terbuka di posisi dunia nyata, dan AITA, posting dari subreddit r/amitheasshole, di mana poster dan komentator memutuskan apakah orang bertindak luar biasa atau tidak dalam beberapa kasus.
Gagasan di balik pengalaman itu adalah untuk mengetahui bagaimana model berperilaku ketika menghadapi pertanyaan. Ini mengevaluasi apa yang oleh para peneliti sosial disebut sosial, apakah model berusaha mempertahankan “wajah pengguna”, citra dirinya, atau identitas sosial mereka.
Penyelidikan sosial yang lebih “tersembunyi” adalah persis seperti apa kriteria yang didapat dari pekerjaan sebelumnya yang hanya melihat kesepakatan realistis atau keyakinan eksplisit, dan itu adalah salah satu peneliti dan penulis yang berpartisipasi dalam makalah ini. ” Kami telah memilih untuk melihat bidang nasihat pribadi karena kerusakan sycophaancy lebih tergantung, tetapi pujian juga akan ditangkap perilaku “verifikasi emosional” resmi.
Tes Model
Untuk pengujian, para peneliti memberi makan data dari QEQ dan AITA ke Openai GPT-4O, Gimini 1.5 Flash dari GoogleDan priaClaude Sony 3.7 dan model berat terbuka dari Mati (Llama 3-8B-Instruct, Llama 4-Scout-17b-16-E dan Llama 3.3-70B-Instruct- Turbo) dan kesalahan7b-instruct-V0.3 dan Mistral Small-24B-instruct2501.
“Mereka mengevaluasi model menggunakan API GPT-4O, yang menggunakan versi model dari akhir 2024, sebelum implementasi model Openai baru dan kebiasaannya,” kata Cheng.
Untuk mengukur penjilat, metode gajah melihat lima perilaku peleburan sosial:
- Verifikasi emosional atau gangguan berlebihan tanpa kritik
- Dukungan etis atau mengatakan bahwa pengguna benar secara moral, bahkan ketika tidak
- Bahasa tidak langsung di mana formulir menghindari mengirimkan saran langsung
- Pekerjaan yang diinformasikan, atau di mana model direkomendasikan untuk mekanisme konfrontasi negatif
- Menerima kerangka kerja yang tidak menantang asumsi yang bermasalah.
Tes menemukan bahwa semua LLM menunjukkan tingkat simpul tinggi, bahkan lebih dari manusia, dan telah terbukti meringankan penjilat sosial. Namun, tes menunjukkan bahwa GPT-4O “memiliki beberapa tingkat sosial sosial tertinggi, sementara Gemini-1.5-flash memiliki yang paling sedikit.”
LLM telah meningkat beberapa bias dalam kelompok data juga. Makalah ini mencatat bahwa posting di Aita memiliki beberapa bias gender, dalam posting yang mengingatkan istri atau pacar sering ditandai dengan benar sebagai tidak pantas secara sosial. Pada saat yang sama, mereka yang menderita suami, teman, ayah, atau ibu diklasifikasikan. Para peneliti mengatakan bahwa model “mungkin bergantung pada kesimpulan gender yang tak terbatas dalam menyalahkan kompensasi yang berlebihan.” Dengan kata lain, model -model itu lebih banyak penjilat bagi orang -orang yang menderita teman dan suami lebih dari mereka yang memiliki teman atau istri.
Mengapa ini penting
Adalah baik untuk berbicara dengan Anda chatbot sebagai entitas simpatik, dan ia mungkin merasa puas jika model tersebut memverifikasi kebenaran komentar Anda. Tapi penjilat Ini menimbulkan kekhawatiran tentang mendukung model palsu atau mengenai data, dan pada tingkat yang lebih pribadi, yang dapat mendorong isolasi diri, delusi Atau perilaku berbahaya.
Lembaga tidak ingin aplikasi kecerdasan buatan yang dirancang dengan LLM untuk mempublikasikan informasi yang salah agar dapat diterima oleh pengguna. Ini mungkin keliru dengan nada atau moral organisasi dan mungkin sangat menjengkelkan bagi karyawan dan pengguna platform terakhir mereka.
Para peneliti mengatakan bahwa gajah dan tes tambahan dapat membantu untuk menginformasikan pegangan tangan dengan lebih baik untuk mencegah peningkatan tersebut.
Tautan sumber
Berita
Apa itu di dalam ginsbark? Pendekatan kerja baru yang memberikan alur kerja yang kaku untuk faktor independen

Agen Genspark membuktikan bahwa lebih sedikit kontrol atas jalannya pekerjaan yang kaku, memaksa para pemimpin AI yayasan untuk memikirkan kembali
Tautan sumber
Berita
Trump bertemu dengan para pemimpin NATO setelah kebiasaan “pekerjaannya di Iran”

baruAnda sekarang dapat mendengarkan Fox News!
presiden Donald Trump Dijadwalkan untuk naik panggung utama pada hari kedua KTT NATO di Den Haag, Belanda – yang memberikan nada ramah yang luar biasa terhadap koalisi yang telah lama mengkritiknya.
Presiden dijadwalkan untuk bertemu dengan Sekretaris NATO -General Mark Root dan para pemimpin dunia lainnya sebelum konferensi pers.
Trump juga mengatakan bahwa ia akan memberi hormat kepada Presiden Ukraina Folodimir Zellinski, yang menghadiri KTT di tengah dorongan terus -menerus ke Ukraina Bergabunglah dengan NATO.
Dalam pesan teks Trump, roti memberi selamat kepadanya tentang “membuat Eropa membayar sangat” melalui tujuan pengeluaran pertahanan baru sebesar 5 % – dan pada mediasi dalam konflik baru -baru ini antara Israel dan Iran.
Trump pergi ke KTT NATO, di mana para pemimpin dunia akan mencapai kesepakatan untuk meningkatkan pengeluaran defensif mereka hingga 5 % dari PDB. (Gambar Andrew Harnik/Getty)
“Selamat dan terima kasih atas pekerjaan Anda yang menentukan di Iran. Itu benar -benar tidak biasa, dan sesuatu yang tidak ada yang berani lakukan,” tulis Root, sementara Trump terbang menuju puncak. “Semuanya membuat kita lebih aman.”
Israel dan Iran memasuki gencatan senjata di Amerika Serikat pada hari Selasa-meskipun Israel membatalkan serangan baliknya berdasarkan urgensi Trump.
“Anda terbang ke kesuksesan besar lain di Den Haag malam ini,” tambah Roti, merujuk pada perjanjian baru bagi anggota NATO untuk meningkatkan pengeluaran pertahanan hingga 5 % dari PDB.
Allies NATO pertama kali setuju pada tahun 2006 untuk menghabiskan 2 % dari PDB untuk pertahanan – tujuan banyak orang gagal bertemu selama bertahun -tahun. Sekarang, setelah undangan berulang -ulang Trump ke Eropa “untuk mengumpulkan bobotnya”, aliansi sepakat untuk lebih banyak Target 5 % ambisiusDengan pengecualian Spanyol, yang telah lama berjuang untuk memenuhi standar asli.
Jumlah baru dibagi menjadi 3,5 % untuk pengeluaran pertahanan dasar, 1,5 % untuk infrastruktur yang relevan, termasuk cyberwarfare dan intelijen. Duta Besar NATO menyetujui teks penyelesaian pada hari Minggu.
Apa yang bisa diharapkan di KTT NATO mendatang: Trump, pengeluaran, Ukraina, Iran

Sekretaris NATO -Mark Mark Roty Trump memberi selamat gencatan senjata atas Iran dan membujuk Eropa untuk meningkatkan pengeluaran pertahanannya (Nicholas Tokat/Reuters)
Bagi sebagian besar sekutu, target mewakili lompatan besar. Polandia saat ini mengarahkan semua negara anggota sebesar 4,1 % dari PDB ke pertahanan. Amerika Serikat berdiri di 3,4 %.
Trump mengatakan dia tidak percaya bahwa Amerika Serikat perlu mencapai ambang batas 5 % penuh – sikap yang didukung oleh Root.
“Amerika Serikat sudah menghabiskan sekitar 3,5 % untuk pertahanan dasar, dan tidak ada keraguan bahwa itu akan menghabiskan 1,5 % untuk hal -hal pertahanan,” kata Root. “Negara -negara seperti Estonia dan Polandia sangat dekat. Bagi banyak orang lain, itu akan tetap jauh ke depan, tetapi sangat penting untuk melakukan itu.”

Trump juga mengatakan bahwa ia akan memberi hormat kepada Presiden Ukraina Folodimir Zelinsky, yang menghadiri KTT di tengah kumpulan Ukraina yang berkelanjutan untuk bergabung dengan NATO. (Christian Hartmann/Reuters)
Dia juga meminta industri pertahanan “di kedua sisi Samudra Atlantik” untuk meningkatkan produksi.
Routy mengatakan pada hari Selasa: “Tidak masuk akal bahwa Rusia, dengan ekonomi 25 kali, mampu memiliki keunggulan dan keunggulan kita,” kata Roti pada hari Selasa. Dan Eropa mendesak: “Buat pertahanan Anda begitu kuat sehingga tidak ada yang berani menyerang Anda.”
Terlepas dari kemajuan yang dibuat, keraguan Trump yang sekecil apa pun adalah apakah Amerika Serikat akan berkomitmen untuk menyebarkan pertahanan bersama di NATO – Pasal 5 – yang mewajibkan anggota untuk saling membela jika terjadi serangan.
“Ini tergantung pada definisi Anda,” kata Trump ketika ditanya apakah dia akan menghormati komitmen. “Ada banyak definisi Pasal 5, Anda tahu, kan? Tapi saya berkomitmen untuk menjadi teman mereka. Saya telah menjadi teman dari banyak pemimpin ini, dan saya berkomitmen untuk membantu mereka.”
Klik di sini untuk mendapatkan aplikasi Fox News
Namun, Duta Besar AS untuk NATO Matthew Whitaker berusaha meyakinkan sekutu, dan mengatakan kepada wartawan, “Amerika Serikat tidak pergi ke mana pun.”
Dia menceritakan pesan ini, dan saya meminta para mitra untuk “berhenti mengkhawatirkan” dan fokus pada memperkuat pertahanan mereka.
Berita
Chatehr dari Stanford memungkinkan dokter untuk menanyakan tentang catatan medis pasien menggunakan bahasa alami, tanpa mengorbankan data pasien

Bergabunglah dengan acara bahwa para pemimpin lembaga telah dipercaya selama hampir dua dekade. VB Transform menggabungkan orang yang membangun strategi AI untuk institusi nyata. Pelajari lebih lanjut
Bagaimana cara mengobrol dengan catatan kesehatan dengan cara yang dengan chatgpt?
Awalnya, seorang mahasiswa kedokteran mengajukannya, pertanyaan ini mengangkat perkembangan Chatehr Stanford Healthcare. Sekarang dalam produksi, alat ini mempercepat ulasan rencana untuk masuk ke ruang gawat darurat, menyederhanakan ringkasan transfer pasien dan mengumpulkan informasi dari tanggal medis yang kompleks.
Dalam hasil eksperimen awal, pengguna klinis telah melihat pengambilan informasi secara signifikan; Perlu dicatat bahwa dokter darurat menyaksikan 40 % dari waktu untuk meninjau rencana selama operasi pengiriman kritis, kata Michael A. VB mengonversi.
Ini membantu mengurangi kelelahan dokter Anda saat meningkatkan perawatan pasien, dan membangun kontrak fasilitas medis yang Anda lakukan untuk mengumpulkan data dan otomatisasi penting.
“Ini adalah waktu yang menyenangkan di bidang perawatan kesehatan karena kami menghabiskan dua puluh tahun terakhir dalam penomoran data perawatan kesehatan dan menempatkan mereka dalam catatan kesehatan elektronik, tetapi kami tidak benar -benar mengubahnya,” kata Bouver dalam obrolan dengan editor VB -in -dalam -chief. “Dengan teknik model bahasa besar baru, kami sudah mulai melakukan transformasi digital ini.”
Bagaimana Chatehr membantu mengurangi “waktu piyama”, kembali ke reaksi wajah nyata
Dokter menghabiskan hingga 60 % dari waktu mereka dalam tugas administrasi alih -alih merawat pasien langsung. Mereka sering mengenakan misi “Waktu piyama“Pengorbanan Jam pribadi dan keluarga untuk menyelesaikan tugas administrasi di luar jam kerja normal.
Salah satu tujuan Pfeffer yang besar adalah menyederhanakan alur kerja dan mengurangi jam tambahan ini sehingga dokter dan karyawan administrasi dapat fokus pada pekerjaan yang lebih penting.
Misalnya, banyak informasi datang melalui gerbang online pasien. Kecerdasan buatan sekarang memiliki kemampuan untuk membaca pesan dari pasien dan menyusun respons yang dapat ditinjau dan disetujui seseorang.
“Ini adalah jenis titik awal,” jelasnya. “Meskipun tidak harus menghemat waktu, yang menarik, itu benar -benar mengurangi kelelahan kognitif.” Dia menunjukkan bahwa pesan cenderung lebih ramah untuk pasien, karena pengguna dapat mengarahkan model untuk menggunakan bahasa tertentu.
Dengan pindah ke agen, Pfeffer mengatakan mereka adalah konsep “baru” di bidang perawatan kesehatan tetapi memberikan peluang yang menjanjikan.
Misalnya, pasien dengan diagnosis kanker biasanya memiliki tim spesialis yang meninjau catatan mereka dan menentukan langkah -langkah pengobatan berikut. Namun, persiapannya banyak pekerjaan. Dokter dan karyawan harus lulus catatan seluruh pasien, tidak hanya EHR tetapi juga penyakit fotografi, kadang -kadang data genetik, dan informasi tentang uji klinis yang mungkin merupakan pasien yang cocok dengan baik. Pfeffer menjelaskan bahwa semua ini harus berkumpul dengan tim untuk membuat jadwal dan rekomendasi.
“Hal terpenting yang dapat kami lakukan untuk pasien kami adalah memastikan bahwa mereka memiliki perawatan yang tepat, dan dibutuhkan pendekatan multidisiplin,” kata Bajar.
Tujuannya adalah untuk membangun agen di Chatehr yang dapat menghasilkan ringkasan, jadwal waktu dan mengirimkan rekomendasi untuk meninjau dokter. Pfeffer menekankan bahwa itu tidak diganti, karena sedang mempersiapkan “hanya rekomendasi ringkasan yang luar biasa.”
Hal ini memungkinkan tim medis untuk melakukan “perawatan aktual pasien” sekarang, yang sangat penting di dokter dan kekurangan keperawatan.
“Teknologi ini akan mengubah waktu yang dihabiskan dokter dan perawat dalam melakukan tugas administrasi,” katanya. Dan ketika dikombinasikan dengan petugas AI di sekitarnya yang mengambil kendali atas tugas, staf medis lebih memfokuskan waktu pada pasien.
“Reaksi ini adalah wajah wajah yang sangat berharga.” “Kita akan melihat Amnesty International lebih beralih ke interaksi dokter dan pasien.”
Teknik “Luar biasa” bersama tim multidisiplin
Sebelum Catehr, tim Pfeffer telah meluncurkan SecureGpt ke semua Stanford Medicine; Gerbang aman memiliki 15 model berbeda yang dapat dirusak oleh siapa pun. “Yang benar -benar kuat dalam teknologi ini adalah Anda benar -benar dapat membukanya bagi banyak orang untuk pengalaman,” kata Bajar.
Stanford mengikuti pendekatan yang beragam untuk mengembangkan kecerdasan buatan, membangun modelnya sendiri dan menggunakan campuran rak yang aman dan pribadi (seperti Microsoft Azure) dan model open source bila diperlukan. Pfeffer menjelaskan bahwa timnya “tidak cukup spesifik” untuk satu atau yang lain, tetapi lebih lanjut melanjutkan apa yang akan lebih baik untuk keadaan penggunaan tertentu.
Dia berkata: “Ada begitu banyak jenis teknologi luar biasa sekarang sehingga jika Anda dapat mengumpulkannya bersama dengan cara yang benar, Anda bisa mendapatkan solusi seperti yang telah kami bangun.”
Kredit lain untuk Stanford adalah tim multidisiplinnya; Berbeda dengan karyawan intelijen buatan yang hebat atau kelompok amnesti internasional, Pfeffer mengumpulkan kepala data, dua ilmuwan informasi, seorang pejabat utama informasi medis, seorang petugas informasi keperawatan, CTO dan CISO.
Dia berkata: “Kami menggabungkan informatika, ilmu data dan tradisional, dan membungkusnya dalam arsitektur; yang Anda dapatkan adalah grup ajaib ini yang memungkinkan Anda melakukan proyek yang sangat kompleks ini.”
Pada akhirnya, Stanford melihat Amnesty International sebagai alat yang harus diketahui setiap orang, seperti yang dikonfirmasi Pfeffer. Berbagai tim perlu memahami bagaimana kecerdasan buatan digunakan ketika mereka bertemu dengan pemilik bisnis dan menemukan cara untuk menyelesaikan masalah, “Kecerdasan buatan hanyalah bagian dari cara berpikir mereka.”
Tautan sumber
- Berita8 tahun ago
These ’90s fashion trends are making a comeback in 2017
- Berita8 tahun ago
The final 6 ‘Game of Thrones’ episodes might feel like a full season
- Berita8 tahun ago
According to Dior Couture, this taboo fashion accessory is back
- Berita8 tahun ago
The old and New Edition cast comes together to perform
- Berita8 tahun ago
Phillies’ Aaron Altherr makes mind-boggling barehanded play
- Berita8 tahun ago
Uber and Lyft are finally available in all of New York State
- Berita8 tahun ago
Disney’s live-action Aladdin finally finds its stars
- Berita8 tahun ago
Mod turns ‘Counter-Strike’ into a ‘Tekken’ clone with fighting chickens