Berita

Tes Pakar Opedode Opeenai untuk Sycophanty GPT-4O

Published

on

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Itu adalah minggu yang besar untuk perusahaan kecerdasan buatan nomor satu.

OpenAI, ChatGPT, dirilis dan kemudian menarik versi terbaru dari model Bahasa Bahasa Grand (Teks, Gambar, Suara) Dasar (LLM) yang terhubung ke implementasi, GPT-4O, karena ini adalah sistem yang sangat sistematis bagi pengguna. Perusahaan baru -baru ini diinformasikan Kurang dari 500 juta pengguna mingguan untuk layanan web yang sukses.

Pendahuluan cepat pada pembaruan GPT-4O yang mengerikan,

Openai mulai memperbarui GPT-4O ke model yang lebih baru yang berharap dapat diterima dengan baik oleh pengguna pada 24 April, menyelesaikan pembaruan pada 25 April, kemudian, setelah lima hari, mengembalikannya pada 29 April, beberapa hari setelah menginstal keluhan dari pengguna melalui media sosial-Mainly di X dan Reddit.

Keluhan kepadatan dan detail bervariasi, tetapi semuanya umumnya berkumpul tentang fakta bahwa GPT-4O tampaknya menanggapi pertanyaan pengguna dengan pujian yang tidak dapat dibenarkan, mendukung ide-ide yang salah, salah dan berbahaya.

Dalam contoh-contoh, model GPT-4O yang diperbarui oleh pengguna, yang diperbarui oleh pengguna Sycophans, dipuji, dan ia mengambil gagasan untuk bekerja “jijik pada tongkat”, dan mendukung model isolasi skizofrenia palsu, dan bahkan mendukung rencana yang diduga untuk melakukan teroris.

Pengguna, termasuk peneliti kecerdasan buatan senior, bahkan mantan CEO Openai, mengatakan bahwa mereka khawatir bahwa dorongan yang tak terlupakan dari model kecerdasan buatan dari jenis klaim pengguna yang mengerikan ini lebih dari sekadar menjengkelkan atau tepat – yang dapat menyebabkan kerusakan aktual bagi pengguna yang secara keliru percaya dan merasa berkumpul dengan mendukung mereka untuk ide -ide terburuk mereka. Itu naik ke tingkat keamanan kecerdasan buatan.

Openai kemudian mengeluarkan posting blog Deskripsi tentang apa yang terjadi yang terjadi- “Kami telah banyak fokus pada reaksi jangka pendek, dan kami tidak sepenuhnya memperhitungkan bagaimana interaksi pengguna dengan chatgpt berevolusi dari waktu ke waktu. Akibatnya, GPT-4o memberikan tanggapan yang sangat mendukung tetapi menipu”-dan langkah-langkah yang diambil perusahaan untuk menghadapi masalah. Joan Gang, kepala perilaku model di Openai, berpartisipasi dalam Reddit “Tanyakan padaku apa pun” atau di Forum AMA untuk menanggapi posting teks dari pengguna dan mengungkapkan lebih banyak informasi tentang pendekatan perusahaan terhadap GPT-4O dan bagaimana itu berakhir dengan tindak lanjut yang berlebihan dari model Sycophants “, termasuk” mereka tidak suka. “

Sekarang hari ini, Openai merilis posting blog Dengan informasi lebih lanjut tentang bagaimana pembaruan Sycophanty GPT-4O tidak dikaitkan dengan penulis tertentu, tetapi dengan “OpenAI”.

CEO dan co -founder Sam Altman Posting tautan ke posting blog di x, Kami berkata: “Kami melewatkan merek dengan pembaruan GPT-4O minggu lalu. Apa yang terjadi, apa yang kami pelajari, dan beberapa hal yang akan kami lakukan secara berbeda di masa depan.”

Apa yang diungkapkan posting blog openai baru tentang bagaimana dan mengapa gpt-4o berubah menjadi sycophanty

Bagi saya, pengguna harian untuk chatgpt termasuk model 4o, penerimaan paling mengejutkan dari blog openai baru tentang pembaruan sycophancy adalah bagaimana tampaknya perusahaan mengungkapkan ini sebuah tindakan Mendapatkan kekhawatiran tentang model sebelum rilis dari sekelompok kecil “tes ahli”, tetapi tampaknya melebihi mereka yang lebih suka respons antusias yang lebih luas daripada sekelompok pengguna publik yang lebih luas.

Perusahaan juga menulis (mengkonfirmasi saya):

“Meskipun kami berdiskusi tentang risiko yang terkait dengan kebingungan di GPT-4O untuk jangka waktu tertentu, penjilat tidak secara eksplisit ditandai sebagai bagian dari tes pelatihan praktis internal, karena beberapa pakar ahli kami lebih peduli tentang perubahan dalam model dan gayanya. Beberapa laboratorium ahli menunjukkan bahwa perilaku model adalah “puisi” sedikit …

Setelah itu, kami memiliki keputusan untuk membuat: Haruskah kami menahan publikasi pembaruan ini terlepas dari penilaian positif dan hasil uji A/B, berdasarkan pada diri laboratorium para ahli sendiri? Pada akhirnya, kami memutuskan untuk meluncurkan formulir karena sinyal positif dari pengguna yang mencoba model.

Sayangnya, ini adalah panggilan yang salah. Kami membangun model ini untuk pengguna kami, dan sementara catatan pengguna sangat penting untuk keputusan kami, itu adalah tanggung jawab kami pada akhirnya untuk menjelaskan komentar ini dengan benar. “

Bagi saya ini sebagai kesalahan besar. Mengapa Anda bahkan memiliki tes ahli jika Anda tidak akan mendistribusikan pengalaman mereka lebih tinggi daripada penggemar kerumunan? Saya bertanya kepada Altman tentang pilihan ini di x Tapi dia belum menanggapi.

Tidak semua “sinyal penghargaan” sama

Posting blog Openai -Death baru mengungkapkan lebih banyak detail tentang cara melatih perusahaan dan memperbarui versi baru dari model saat ini, dan bagaimana komentar manusia telah mengubah kualitas khas, pribadi dan “pribadi”. Perusahaan juga menulis:

“Sejak peluncuran GPT -4O di chatgpt Mei lalu, kami punya Itu telah merilis lima pembaruan utama Fokus pada perubahan pada kepribadian dan bantuan. Setiap pembaruan setelah pelatihan baru termasuk, dan banyak penyesuaian kecil sering diuji ke proses pelatihan khas secara mandiri dan kemudian digabungkan menjadi satu model yang diperbarui yang kemudian dievaluasi untuk diluncurkan.

Untuk model pasca -pelatihan, kami mengambil model yang sudah ada sebelumnya, dan kami mengoreksi untuk mengawasi berbagai respons ideal yang ditulis oleh manusia atau model saat ini, maka kami mengelola pembelajaran penguatan dengan sinyal hadiah dari berbagai sumber.

Selama pembelajaran penguatan, kami menyajikan model bahasa yang meminta dan memintanya untuk menulis tanggapan. Kemudian kami mengevaluasi responsnya sesuai dengan sinyal bonus, dan kami memperbarui model bahasa untuk membuatnya lebih rentan terhadap produksi respons yang lebih tinggi dan kurang rentan terhadap produksi respons rendah.

Jelas bahwa “Sinyal Bonus” yang digunakan oleh Openai selama pelatihan memiliki efek yang luar biasa pada perilaku model yang dihasilkan, dan seperti yang diakui perusahaan sebelumnya ketika tanggapan “ibu jari” adalah pengguna chatgpt, tanda ini mungkin bukan yang terbaik untuk menggunakannya dengan orang lain ketika menentukan ketika ditentukan ketika ditentukan oleh mereka Bagaimana Formulir tersebut belajar berkomunikasi dan Apa spesiesnya Dari tanggapan yang harus Anda layani. Openai secara langsung diakui dalam paragraf berikutnya dari posnya, menulis:

“Menentukan rangkaian bonus yang benar adalah pertanyaan yang sulit, dan kami memikirkan banyak hal: apakah jawabannya benar, apakah mereka berguna, apakah mereka sejalan dengan kami? Spesifikasi model⁠, apakah mereka aman, apakah pengguna seperti mereka, dll. Kehadiran sinyal bonus yang lebih baik dan lebih komprehensif hasil dari model yang lebih baik untuk chatgpt, jadi kami selalu mencoba sinyal baru, tetapi masing -masing memiliki penghindaran. “

Faktanya, Openai juga mengungkapkan bahwa sinyal referensi “jempol” adalah kelompok baru yang digunakan bersama dengan sinyal bonus lain dalam pembaruan khusus ini.

“Pembaruan disediakan sinyal hadiah tambahan berdasarkan catatan pengguna-bom dan acungan jempol dari chatgpt. Tanda ini sering berguna; ibu jari biasanya berarti sesuatu yang salah.”

Namun, perusahaan tidak menyalahkan data “ibu jari” yang baru secara langsung atas kegagalan model dan perilaku dorongan yang luar biasa. Sebaliknya, posting blog Openai mengatakan ini adalah ini total Dengan berbagai sinyal bonus baru dan paling lanjut, itu menyebabkan masalah: “… Kami memiliki perbaikan untuk menggabungkan catatan pengguna, memori dan data yang menarik lebih baik. Antara lain. Evaluasi awal kami adalah bahwa masing -masing perubahan ini, yang tampaknya berguna secara individual, mungkin telah memainkan peran dalam menetapkan standar pada sycophancy saat menggabungkan.”

Menanggapi posting blog ini, Andrew Main, mantan anggota teknisi Openai yang sekarang bekerja di perusahaan konsultan konsultasi ,, Buku tentang X contoh lain Tentang bagaimana perubahan mikroskopis dalam panduan hadiah dan model dapat mempengaruhi kinerja model secara signifikan:

Di awal Openai, saya memiliki perselisihan dengan seorang kolega (yang sekarang menjadi pendiri laboratorium lain) untuk menggunakan kata “sopan” dalam contoh cepat.

Mereka berpendapat bahwa “sopan” secara politis salah dan ingin bertukar “berguna”.

Saya mengindikasikan bahwa hanya fokus pada bantuan dapat membuat model yang kompatibel yang berlebihan – pada kenyataannya, itu dapat diarahkan ke konten seksual dalam beberapa siklus.

Setelah bahaya ini terbukti dengan sedikit pertukaran, klaim tetap “sopan”.

Model -model ini aneh.

Bagaimana Openai berencana untuk meningkatkan operasi pengujian modelnya untuk bergerak maju

Perusahaan mencantumkan enam peningkatan dalam proses tentang cara menghindari perilaku model yang tidak diinginkan dan kurang tidak diinginkan di masa depan, tetapi bagi saya yang paling penting adalah:

“Kami akan menyesuaikan proses peninjauan keselamatan kami secara resmi dalam masalah perilaku – seperti halusinasi, penipuan, keandalan dan pribadi – seperti masalah yang ditangguhkan. Bahkan jika masalah ini tidak mengukur kuantitatif saat ini, kami berkomitmen untuk melarang operasi peluncuran berdasarkan pengukuran agen atau sinyal spesifik, bahkan ketika standar seperti uji A/B terlihat baik.”

Dengan kata lain – meskipun pentingnya data, terutama data kuantitatif, di bidang pembelajaran mesin dan kecerdasan buatan – Openai menyadari bahwa ini saja tidak dapat dan tidak boleh menjadi satu -satunya cara melalui mana bentuk model dinilai.

Sementara banyak pengguna yang menyediakan “ibu jari” dapat menunjukkan jenis perilaku yang diinginkan dalam jangka pendek, efek jangka panjang tentang bagaimana model kecerdasan buatan merespons dan karena perilaku ini mengambilnya dan penggunanya, pada akhirnya dapat mengarah ke tempat yang gelap, menarik, dan sangat merusak. Lebih banyak tidak selalu lebih baik – terutama ketika Anda membatasi “lebih banyak” untuk beberapa bidang sinyal.

Tidak cukup untuk mengatakan bahwa model telah lulus semua tes atau menerima sejumlah tanggapan positif dari pengguna – pengalaman pengguna energi terlatih dan reaksi kualitatif mereka yang “tampaknya” melihat “tentang model, bahkan jika mereka tidak dapat mengungkapkan sepenuhnya alasannya, mereka harus membawa lebih banyak bobot daripada kustomisasi Openai sebelumnya.

Mari kita berharap bahwa perusahaan – seluruh bidang – akan belajar dari kejadian ini dan mengintegrasikan pelajaran berkelanjutan.

Makanan cepat saji dan pertimbangan untuk pembuat keputusan untuk institusi

Mungkin dia berbicara lebih dalam teori, untuk diri saya sendiri, itu juga menunjukkan alasan pentingnya pengalaman – khususnya, pengalaman di bidang di belakang Dan Di luar Yang ditingkatkan (dalam hal ini, pembelajaran mesin dan AI). Keragaman pengalaman yang memungkinkan kita sebagai tipe untuk mencapai kemajuan baru yang menguntungkan tipe kita. Satu, misalnya STEM, tidak harus disimpan di atas orang lain dalam humaniora atau seni.

Akhirnya, saya juga berpikir itu mengungkapkan pada intinya masalah dasar dalam menggunakan komentar manusia untuk merancang produk dan layanan. Pengguna individu dapat mengatakan bahwa mereka menyukai kecerdasan buatan yang paling terisolasi, seperti halnya mereka juga mengatakan bahwa mereka menyukai cara mereka menyukai makanan cepat saji dan selera soda, kenyamanan wadah plastik dengan satu penggunaan, hiburan dan komunikasi yang mereka dapatkan dari media sosial, dan periksa pandangan global dan suku yang mereka rasakan ketika membaca media atau tablubide. Sekali lagi, mereka semua bersatu, akumulasi Dari semua jenis tren dan kegiatan ini, mereka sering mengarah pada hasil yang sangat tidak diinginkan bagi individu, masyarakat-obesitas dan kesehatan yang buruk dalam hal makanan cepat saji, polusi dan gangguan kelenjar endokrin dalam kasus limbah plastik, depresi dan isolasi dari media sosial yang berlebihan, yang merupakan informasi yang lebih split dan kurang publik daripada membaca kualitas berita.

Para desainer model kecerdasan buatan dan pembuat keputusan teknis di lembaga akan memperhitungkan gagasan yang lebih luas ini ketika merancang standar pada setiap tujuan yang terukur-bahkan ketika Anda berpikir Anda menggunakan data yang menguntungkan Anda, Anda dapat menyebabkan hasil kontraproduktif dengan cara yang tidak sepenuhnya Anda harapkan atau harapkan, dan biarkan stampede Anda untuk memperbaiki kerusakan dan memanjat chaos, tetapi melalui infeksi.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version