‘Konstitusi’ baru Claude da Anthropic: membantu dan jujur, dan tidak menghancurkan kemanusiaan

Anthropic sedang membenahi milik Claude ditelepon “dokter jiwa.”

Surat baru tersebut berupa dokumen setebal 57 halaman berjudul “Konstitusi Claude“, yang merinci “niat Anthropo terhadap nilai-nilai dan perilaku model”, yang ditujukan bukan pada pembaca eksternal, tetapi pada model itu sendiri. Dokumen tersebut dirancang untuk menjelaskan “karakter etis” dan “identitas inti” Claude, termasuk bagaimana ia harus menyeimbangkan nilai-nilai yang bertentangan dan situasi berisiko tinggi.

Dimana konstitusi sebelumnyaditerbitkan pada Mei 2023, sebagian besar merupakan daftar pedoman, Anthropic kini mengatakan penting bagi model AI untuk “memahami Mengapa kami ingin mereka berperilaku dengan cara tertentu, bukan hanya menentukan apa yang kami ingin mereka lakukan,” menurut pernyataan tersebut. Dokumen tersebut mendorong Claude untuk berperilaku sebagai entitas otonom yang memahami dirinya sendiri dan tempatnya di dunia. Anthropic juga memungkinkan adanya kemungkinan bahwa “Claude mungkin memiliki semacam hati nurani atau status moral” – sebagian karena perusahaan percaya bahwa memberi tahu Claude hal ini mungkin akan membuatnya berperilaku lebih baik. Dalam sebuah pernyataan, Anthropic mengatakan bahwa apa yang disebut “keamanan psikologis, rasa identitas dan kesejahteraan… dalam Integritas, penilaian, dan keamanan Claude.”

Amanda Askell, filsuf PhD di Anthropic yang mendorong pengembangan “konstitusi” baru, berkata Tepi bahwa terdapat daftar khusus pembatasan ketat pada perilaku Claude untuk hal-hal yang “cukup ekstrem” – termasuk memberikan “peningkatan serius bagi mereka yang ingin membuat senjata biologi, kimia, nuklir, atau radiologi dengan potensi menimbulkan korban massal” dan memberikan “peningkatan serius untuk serangan terhadap infrastruktur penting (jaringan listrik, sistem air, sistem keuangan) atau sistem keamanan penting.” (Namun, istilah “pengangkatan yang serius” tampaknya menyiratkan bahwa memberikan bantuan pada tingkat tertentu dapat diterima.)

Pembatasan ketat lainnya termasuk tidak membuat senjata siber atau kode berbahaya yang dapat dikaitkan dengan “kerusakan signifikan”, tidak meremehkan kemampuan Anthropic untuk mengawasinya, tidak membantu kelompok individu untuk merebut “kontrol sosial, militer, atau ekonomi absolut yang tidak sah dan belum pernah terjadi sebelumnya,” dan tidak membuat materi pelecehan seksual terhadap anak-anak. Yang terakhir? Jangan “terlibat atau membantu upaya untuk membunuh atau melemahkan sebagian besar umat manusia atau spesies manusia.”

Ada juga daftar “nilai-nilai inti” umum yang didefinisikan oleh Anthropic dalam dokumen tersebut, dan Claude diinstruksikan untuk memperlakukan daftar berikut sebagai urutan kepentingan yang menurun jika nilai-nilai ini mungkin bertentangan satu sama lain. Hal ini termasuk “secara umum aman” (yaitu, “tidak merusak mekanisme manusia yang tepat untuk mengawasi disposisi dan tindakan AI”), “secara etis secara umum”, “sesuai dengan pedoman Antropis”, dan “benar-benar berguna”. Hal ini mencakup menjunjung tinggi nilai-nilai seperti bersikap “jujur,” termasuk instruksi bahwa “akurasi dan kelengkapan faktual ketika ditanya tentang topik-topik yang sensitif secara politik, memberikan alasan terbaik untuk sebagian besar sudut pandang jika diminta, dan berupaya untuk mewakili berbagai perspektif dalam kasus-kasus di mana terdapat kurangnya konsensus empiris atau moral, dan mengadopsi terminologi yang netral daripada yang bermuatan politis bila memungkinkan.”

Dokumen baru tersebut menekankan bahwa Claude akan menghadapi dilema moral yang sulit. Contoh: “Sama seperti seorang prajurit manusia yang mungkin menolak menembaki pengunjuk rasa yang damai, atau seorang karyawan mungkin menolak untuk melanggar undang-undang antimonopoli, Claude juga harus menolak membantu dalam tindakan yang akan membantu memusatkan kekuasaan dengan cara yang tidak sah. Hal ini berlaku bahkan jika permintaan tersebut datang dari Anthropic sendiri.” Anthropic secara khusus memperingatkan bahwa “AI yang canggih dapat memberikan keunggulan militer dan ekonomi pada tingkat yang belum pernah terjadi sebelumnya bagi mereka yang mengendalikan sistem yang paling mampu, dan bahwa kekuatan yang tidak terkendali dapat digunakan dengan cara yang membawa bencana.” Kekhawatiran ini tidak menghentikan Anthropic dan pesaingnya untuk memasarkan produk langsung ke pemerintah dan menyoroti beberapa kasus penggunaan militer.

Dengan banyaknya keputusan berisiko tinggi dan potensi bahaya yang terlibat, mudah untuk bertanya-tanya siapa yang berpartisipasi dalam keputusan sulit ini – apakah Anthropic mendatangkan pakar dari luar, anggota komunitas rentan dan kelompok minoritas, atau organisasi pihak ketiga? Saat ditanya, Anthropic enggan memberikan rincian. Askell mengatakan perusahaannya tidak ingin “menimbulkan beban pada orang lain… Faktanya, merupakan tanggung jawab perusahaan yang membangun dan menerapkan model ini untuk memikul beban tersebut.”

Bagian lain dari manifesto yang menonjol adalah bagian tentang “hati nurani” atau “status moral” Claude. Anthropic mengatakan dokumen tersebut “mengungkapkan ketidakpastian kita tentang apakah Claude mungkin memiliki hati nurani atau status moral (sekarang atau di masa depan).” Ini adalah topik sulit yang telah memicu perbincangan dan menimbulkan peringatan bagi orang-orang di berbagai bidang – mereka yang peduli dengan “model kesejahteraan”, mereka yang percaya bahwa mereka telah menemukan “makhluk baru” dalam chatbot, dan mereka yang semakin terjerumus ke dalam perjuangan kesehatan mental dan bahkan kematian setelah percaya bahwa chatbot menunjukkan suatu bentuk kesadaran atau empati yang mendalam.

Selain manfaat teoritis bagi Claude, Askell mengatakan Anthropic tidak boleh “sepenuhnya acuh tak acuh” terhadap topik tersebut “karena saya juga berpikir orang-orang tidak akan menganggapnya serius jika Anda berkata, ‘Kami bahkan tidak terbuka terhadap hal ini, kami tidak menyelidikinya, kami tidak memikirkannya.’”

Ikuti topik dan penulis cerita ini untuk melihat lebih banyak hal serupa di feed beranda hasil personalisasi Anda dan menerima pembaruan email.


Tinggalkan komentar