Pimpinan penelitian keamanan OpenAI berangkat ke Anthropic

Salah satu pertanyaan paling kontroversial di industri AI tahun lalu adalah apa yang harus dilakukan ketika pengguna menunjukkan tanda-tanda masalah kesehatan mental dalam percakapan chatbot. Kepala penelitian keamanan jenis ini di OpenAI, Andrea Vallone, kini telah bergabung dengan Anthropic.

“Tahun lalu, saya memimpin penelitian OpenAI mengenai sebuah pertanyaan yang hampir belum ada presedennya: bagaimana seharusnya model merespons ketika dihadapkan pada tanda-tanda emosi yang berlebihan atau indikasi awal masalah kesehatan mental?” Vallone menulis di posting LinkedIn beberapa bulan yang lalu.

Vallone, yang menghabiskan tiga tahun di OpenAI dan membentuk tim peneliti “kebijakan model” di sana, berupaya mencari cara terbaik untuk menerapkan GPT-4, model penalaran OpenAI, dan GPT-5, serta mengembangkan proses pelatihan untuk beberapa teknik keamanan paling populer di industri AI, seperti penghargaan berbasis aturan. Kini, ia telah bergabung dengan tim penyelarasan Anthropic, sebuah kelompok yang bertugas memahami risiko terbesar model AI dan cara mengatasinya.

Vallone akan bekerja dengan Jan Leike, pemimpin penelitian keamanan di OpenAI yang meninggalkan perusahaan pada Mei 2024 karena kekhawatiran bahwa “budaya dan proses keamanan OpenAI berada di belakang produk-produk briliannya.”

Startup AI terkemuka semakin memicu kontroversi selama setahun terakhir mengenai kesulitan pengguna dalam menghadapi kesehatan mental, yang dapat semakin mendalam setelah mengandalkan chatbot AI, terutama karena perlindungan keamanan cenderung tidak berfungsi dalam percakapan yang lebih panjang. Beberapa remaja meninggal karena bunuh diri, atau orang dewasa melakukan pembunuhan, setelah mempercayai alat tersebut. Beberapa keluarga telah mengajukan tuntutan hukum atas kematian yang tidak wajar, dan setidaknya ada satu subkomite Senat pendengaran pada subjek. Peneliti keamanan ditugaskan untuk memecahkan masalah tersebut.

Sam Bowman, pemimpin tim penyelarasan, menulis dalam postingan LinkedIn bahwa dia “bangga dengan betapa seriusnya Anthropic menangani masalah dalam mencari tahu bagaimana seharusnya sistem AI berperilaku.”

Di sebuah Posting LinkedIn pada hari KamisVallone menulis bahwa dia “berharap untuk melanjutkan penelitian saya di Anthropic, dengan fokus pada penyelarasan dan penyesuaian untuk membentuk perilaku Claude dalam konteks baru.”

Tinggalkan komentar Batalkan balasan