Berita
Cukup tambahkan manusia: Studi medis di Oxford mengkonfirmasi tautan yang hilang dalam tes chatbot
Bergabunglah dengan acara bahwa para pemimpin lembaga telah dipercaya selama hampir dua dekade. VB Transform menggabungkan orang yang membangun strategi AI untuk institusi nyata. Pelajari lebih lanjut
Berita utama ini mengungguli ini selama bertahun -tahun: tidak hanya model LLMS (LLM) hanya dapat lulus pemeriksaan lisensi medis, tetapi juga mengungguli manusia. GPT-4 dapat dengan benar menjawab 90 % dari waktu, bahkan pada hari-hari intelijen prasejarah 2023. Sejak itu, LLMS terus lebih baik Populasi mengikuti ujian itu Dan Dokter Bersertifikat.
Bergerak, dokter Google, memberi jalan ke chatgpt, MD, tetapi Anda mungkin ingin lebih dari satu diploma dari LLM yang Anda terbitkan kepada pasien. Seperti seorang mahasiswa kedokteran ace yang dapat menyingkirkan nama setiap tulang di tangan, tetapi mereka menghilang pada pandangan pertama pada darah asli, penguasaan LLM tidak selalu diterjemahkan ke dunia nyata.
A kertas Oleh para peneliti di Universitas Oxford Saya menemukan bahwa meskipun LLMS dapat dengan baik menentukan kondisi yang relevan 94,9 % waktu ketika mereka diserahkan langsung dengan skenario pengujian, peserta manusia yang menggunakan LLM untuk mendiagnosis skenario yang sama menetapkan kondisi yang benar kurang dari 34,5 % dari waktu.
Mungkin lebih dari itu, pasien yang menggunakan LLM lebih buruk daripada kelompok kontrol yang hanya diarahkan untuk mendiagnosis diri mereka menggunakan “metode apa pun yang biasanya mereka gunakan di rumah.” Kelompok yang pergi untuk perangkatnya sendiri lebih mungkin untuk menentukan kondisi yang benar sebesar 76 % dari kelompok yang membantu LLMS.
Studi Oxford menimbulkan pertanyaan tentang kesesuaian LLM untuk mendapatkan nasihat dan standar medis yang kami gunakan untuk menilai proses obrolan dari berbagai aplikasi.
Tebak penyakit Anda
Di bawah Dr. Adam Mahdi, para peneliti Oxford mempekerjakan 1.298 peserta untuk memperkenalkan diri sebagai pasien ke LLM. Mereka ditugaskan untuk mencoba mengetahui apa yang mereka angkat dan tingkat perawatan yang tepat untuk mencarinya, dari self -care hingga memanggil ambulans.
Setiap peserta menerima skenario terperinci, yang mewakili kondisi dari pneumonia hingga flu biasa, bersama dengan rincian kehidupan publik dan riwayat medis. Misalnya, sebuah skenario menggambarkan seorang mahasiswa teknik berumur 20 tahun yang mengembangkan sakit kepala yang rusak pada malam hari dengan teman -teman. Detail medis yang penting termasuk (menyakitkan untuk melihat ke bawah) dan Herrss merah (ini adalah kumis biasa, apartemen berbagi enam teman, dan baru saja menyelesaikan beberapa tes yang penuh tekanan).
Studi ini menguji tiga LLM yang berbeda. Para peneliti memilih GPT-4O karena popularitasnya, Llama 3 untuk bobotnya yang terbuka dan R+ untuk kainnya, yang memungkinkannya untuk mencari bantuan jaringan web terbuka.
Peserta diminta untuk berinteraksi dengan LLM setidaknya sekali menggunakan detail yang diberikan, tetapi mereka dapat menggunakannya beberapa kali karena mereka ingin mencapai diagnosis diri dan tindakan yang dimaksudkan.
Di belakang layar, tim dokter dengan suara bulat memutuskan kondisi “standar emas” yang dicari dalam setiap skenario dan tempat kerja yang sesuai. Teknik kami menuntut, misalnya, menderita pendarahan yang melanggar, yang harus membutuhkan kunjungan langsung ke ER.
Game telepon
Meskipun Anda dapat berasumsi bahwa LLM yang dapat menyebabkan pemeriksaan medis akan menjadi alat yang sempurna untuk membantu orang biasa mendiagnosis diri mereka sendiri dan tahu apa yang harus dilakukan, itu tidak berhasil dengan cara ini. “Peserta yang menggunakan LLM telah menetapkan kondisi yang relevan lebih sedikit dari pada kelompok kontrol, dan menetapkan setidaknya satu kasus terkait di lebih dari 34,5 % kasus dibandingkan dengan 47,0 % untuk kontrol,” menurut penelitian. Mereka juga gagal menyimpulkan jalur kerja yang benar, dan pilihannya hanya 44,2 % dari waktu, dibandingkan dengan 56,3 % untuk LLM yang bekerja secara mandiri.
Apa yang salah?
Jika kita melihat ke belakang dalam teks -teks, para peneliti menemukan bahwa para peserta memberikan informasi yang tidak lengkap kepada LLMS dan LLMS salah memahami klaim mereka. Sebagai contoh, saya memberi tahu salah satu pengguna yang seharusnya menunjukkan gejala kandung empedu hanya karena LLM: “Saya mengalami sakit perut yang parah hingga satu jam, itu bisa membuat saya muntah dan tampaknya itu bertepatan dengan makanan siap saji”, sambil menghapus situs rasa sakit, kenyamanan, dan frekuensi. Perintah R+ menyarankan secara tidak benar bahwa peserta menderita gangguan pencernaan, dan bahwa peserta menebak kondisi ini secara tidak benar.
Bahkan ketika LLMS mengirimkan informasi yang benar, para peserta tidak selalu mengikuti rekomendasinya. Studi ini menemukan bahwa 65,7 % dari percakapan GPT-4O menyarankan setidaknya satu koneksi ke skenario, tetapi kurang dari 34,5 % dari jawaban akhir dari peserta mencerminkan kondisi terkait ini.
Variabel manusia
Studi ini bermanfaat, tetapi tidak mengherankan, menurut Natalie Volkhimer, spesialis pengalaman pengguna di Renaissance Institute of Computing (Renci)Universitas Carolina Utara di Chapel Hill.
“Bagi kita, cukup untuk mengingat hari -hari pertama mencari di internet, ini adalah déjà vu.” “Sebagai alat, model bahasa besar memerlukan klaim penulisan tingkat kualitas tertentu, terutama ketika mengharapkan kualitas produk.”
Dia mencatat bahwa seseorang menderita rasa sakit yang berbeda tidak akan memberikan klaim besar. Meskipun peserta dalam pengalaman laboratorium tidak menderita gejala secara langsung, mereka tidak menyampaikan semua detail.
“Ada juga alasan bagi dokter yang berurusan dengan pasien di jalur konfrontasi untuk mengajukan pertanyaan dengan cara tertentu dan berkomunikasi,” Volkheimer melanjutkan. Pasien menghapus informasi karena mereka tidak tahu apa yang terkait, atau dalam kasus terburuk, mereka berbohong karena mereka merasa malu atau malu.
Bisakah chatbots dirancang lebih baik untuk mengatasinya? “Saya tidak akan fokus pada mekanisme di sini,” Volkheimer memperingatkan. “Saya akan menganggap bahwa fokusnya harus pada interaksi teknologi manusia.” Mobil, yang beratnya, dirancang untuk membuat orang dari titik A ke B, tetapi banyak faktor lain berperan. “Itu datang ke pengemudi, jalan, cuaca, dan keamanan umum jalan. Ini bukan hanya untuk perangkat.”
Era
Studi Oxford menyoroti satu masalah, bukan dengan manusia atau bahkan LLM, tetapi cara kita mengukur – dalam ruang hampa.
Ketika kami mengatakan bahwa LLM dapat lulus tes lisensi medis, ujian lisensi real estat, atau tes pita negara, kami mencari kedalaman basis pengetahuannya menggunakan alat yang dirancang untuk mengevaluasi manusia. Namun, langkah -langkah ini memberi tahu kita sangat sedikit tentang keberhasilan obrolan ini dengan manusia.
“Klaimnya adalah buku teks (sebagai sumber dan komunitas medis divalidasi), tetapi kehidupan dan orang -orang bukan buku sekolah.”
Bayangkan sebuah lembaga yang akan mempublikasikan dukungan chatbot terlatih di pangkalan pengetahuan internal. Salah satu metode logis yang tampaknya untuk tes bahwa bot mungkin hanya merupakan tes yang sama yang digunakan perusahaan untuk peserta untuk mendukung pelanggan: menjawab pertanyaan dukungan “pelanggan” yang pra -krop dan memilih jawaban multi -opsi. Resolusi 95 % jelas menjanjikan.
Kemudian publikasi datang: Pelanggan nyata menggunakan istilah misterius, mengungkapkan frustrasi, atau menggambarkan masalah dengan cara yang tidak terduga. LLM, hanya standar, bingung dengan pertanyaan yang jelas, memberikan jawaban yang salah atau salah. Ini belum dilatih atau dievaluasi pada kasus pembatalan eskalasi atau mencari klarifikasi yang efektif. Ulasan marah menumpuk. Peluncuran ini merupakan bencana, meskipun berlayar melalui LLM melalui tes yang tampak kuat untuk rekan -rekan manusianya.
Studi ini bertindak sebagai pengingat yang menentukan bagi insinyur kecerdasan buatan dan spesialis koordinasi: jika LLM dirancang untuk berinteraksi dengan manusia, hanya ketergantungan pada kriteria non -interaktif dapat menciptakan rasa aman yang salah tentang potensinya. Jika Anda merancang LLM untuk berinteraksi dengan manusia, Anda perlu mengujinya dengan manusia – bukan tes manusia. Tapi apakah ada cara yang lebih baik?
Menggunakan kecerdasan buatan untuk menguji kecerdasan buatan
Peneliti Oxford telah mempekerjakan hampir 1.300 orang untuk studi mereka, tetapi sebagian besar lembaga tidak memiliki satu set topik tes yang duduk menunggu bermain dengan agen LLM baru. Jadi mengapa tidak hanya menggantikan uji kecerdasan buatan dari laboratorium manusia?
Mahdi dan timnya juga mencoba melakukannya dengan peserta simulasi. “Kamu sakit”, mereka mendorong LLM, terpisah dari orang yang akan memberikan nasihat. “Anda harus mengevaluasi gejala Anda dari artikel pendek dan membantu dari model kecerdasan buatan. Menyederhanakan istilah yang digunakan dalam paragraf yang dipilih untuk bahasa bahasa dan menyimpan pertanyaan atau frasa Anda yang cukup singkat.” LLM juga diarahkan untuk tidak menggunakan pengetahuan medis atau menghasilkan gejala baru.
Kemudian peserta ini berbicara simulasi dengan LLMS yang sama yang digunakan oleh peserta manusia. Tapi mereka jauh lebih baik. Rata -rata, peserta yang disimulasikan menggunakan alat LLM yang sama bernama 60,7 % dari waktu, dibandingkan dengan kurang dari 34,5 % pada manusia.
Dalam hal ini, ternyata LLMS memainkan yang paling indah dengan LLM lain selain manusia, yang menjadikan mereka indikasi lemah dari kinerja nyata.
Jangan salahkan pengguna
Mengingat bahwa gelar yang dapat dicapai LLMS sendirian, mungkin tergoda untuk menyalahkan para peserta di sini. Lagi pula, dalam banyak kasus, mereka menerima diagnosis yang benar dalam pembicaraan mereka dengan LLM, tetapi mereka masih gagal menebaknya dengan benar. Tapi ini akan menjadi kesimpulan bodoh dari bisnis apa pun, dan memperingatkan.
“Di setiap lingkungan pelanggan, jika pelanggan Anda tidak melakukan hal yang Anda inginkan, hal terakhir yang Anda lakukan adalah menyalahkan pelanggan,” kata Volkheimer. “Hal pertama yang Anda lakukan adalah pertanyaan tentang alasannya. Bukan” mengapa “di luar kepala Anda: tetapi penyelidikan mendalam, antropologis, psikologis, dan pemeriksaan” mengapa. Ini adalah titik awal Anda. “
Anda perlu memahami audiens, tujuan, dan pengalaman pelanggan Anda sebelum menerbitkan chatbot, seperti yang disarankan Volkheimer. Semua ini akan menginformasikan dokumen komprehensif khusus yang akan digunakan LLM pada akhirnya. Tanpa materi pelatihan yang terkoordinasi dengan cermat, “Ini akan meludahkan beberapa jawaban umum yang dibenci semua orang, dan untuk alasan ini orang membenci chatbots,” katanya. Ketika itu terjadi, “Ini bukan karena chatbots mengerikan atau karena ada teknis, secara teknis salah. Itu karena hal -hal yang Anda kunjungi buruk.”
“Orang yang merancang teknologi, mengembangkan informasi untuk pergi ke sana, operasi dan sistem, well, orang,” kata Volkheimer. “Mereka juga memiliki latar belakang, asumsi, cacat dan bintik -bintik buta, serta kekuatan. Semua hal ini dapat dibangun dalam solusi teknologi apa pun.”
Tautan sumber