Connect with us

Berita

Model kecerdasan buatan gagal menghasilkan – di sini cara memperbaiki pemilihan formulir

Published

on

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Lembaga perlu mengetahui apakah model yang mengoperasikan aplikasi dan agen mereka bekerja dalam skenario kehidupan nyata. Jenis evaluasi ini kadang -kadang rumit karena sulit untuk memprediksi skenario yang ditentukan. Versi baru dari RawardBench Standards ingin memberi institusi gagasan yang lebih baik untuk melakukan model nyata.

itu Institut Kecerdasan Buatan Allen (AI2) RewardBench 2, versi terbaru dari bonus bonus bonus, yang mereka klaim memberikan penawaran yang lebih komprehensif untuk melakukan model dan mengevaluasi bagaimana model kompatibel dengan tujuan dan standar lembaga.

AI2 Platform ini dibangun dengan tugas -tugas klasifikasi yang mengukur tautan dengan menghitung waktu penalaran dan pelatihan. Rawardbench terutama berurusan dengan model RM (RM), yang dapat bertindak sebagai juri dan mengevaluasi output LLM. RMS menetapkan gelar atau “bonus” dari pembelajaran penguatan dengan Komentar Manusia (RHLF).

Nathan Lambert, kepala ilmuwan riset di AI2, mengatakan kepada VentureBeat bahwa bonus pertama dimaksudkan saat diluncurkan. Namun, lingkungan yang khas telah berkembang dengan cepat, serta kriteria.

Dia mengatakan: “Ketika model hadiah menjadi lebih maju dan penggunaan kasus lebih akurat, kami dengan cepat menyadari dengan masyarakat bahwa versi pertama tidak sepenuhnya mendapatkan kompleksitas preferensi manusia di dunia nyata.”

Lambert menambahkan bahwa dengan bonus Bench 2, “Kami telah mulai meningkatkan luas dan kedalaman evaluasi – yang memberikan tuntutan yang lebih beragam dan sulit serta memperbaiki metodologi untuk mencerminkan yang terbaik dari bagaimana manusia dalam praktik.” Dia mengatakan bahwa versi kedua menggunakan klaim manusia yang tidak terlihat, dan memiliki pendaftaran yang lebih menantang dan rentang baru.

Menggunakan penilaian model yang berada

Sementara model hadiah diuji seberapa sukses formulir, penting juga bagi RMS sejalan dengan nilai -nilai perusahaan; Kalau tidak, proses pembelajaran yang tepat dan promosi perilaku buruk dapat meningkat, seperti halusinasi, mengurangi generalisasi, dan mencatat respons yang sangat tinggi.

Rawardbench 2 mencakup enam bidang yang berbeda: realisme, pendidikan yang cermat, matematika, keselamatan, konsentrasi, dan hubungan.

“Lembaga harus menggunakan RawardBench 2 dengan dua cara berbeda tergantung pada aplikasi mereka. Jika mereka melakukan RLHF sendiri, mereka harus mengadopsi praktik terbaik dan kelompok data dari model terkemuka di jalur pipa mereka karena model hadiah membutuhkan resep pelatihan tubuh (yaitu, model hadiah yang mencerminkan model yang mereka coba latih dengan RL). Lambert.

Lambert mencatat bahwa standar seperti RawardBench memberi pengguna cara untuk mengevaluasi model yang mereka pilih berdasarkan “dimensi yang lebih menjadi perhatian mereka, daripada mengandalkan tingkat sempit satu ukuran.” Dia mengatakan bahwa gagasan kinerja, yang mengklaim banyak metode evaluasi untuk dievaluasi, sangat subyektif karena respons yang baik dari model tergantung pada konteks dan tujuan pengguna. Pada saat yang sama, preferensi manusia menjadi sangat akurat.

Ai 2 merilis edisi pertama Bonus di Maret 2024. Pada saat itu, perusahaan mengatakan itu adalah standar pertama dan para pemimpin model bonus. Sejak itu, beberapa cara untuk mengukur dan meningkatkan RM telah muncul. Peneliti di MatiPameran REWORDBENCH. Dibsikis Teknologi baru yang disebut kritik prinsip yang lebih cerdas dan berkembang sendiri terhadap RM.

Bagaimana modelnya

Karena RewardBench 2 adalah versi yang diperbarui dari RawardBench, AI2 menguji baik model saat ini dan yang baru dilatih untuk melihat apakah mereka terus tinggi. Ini termasuk berbagai model, seperti Gemini, Claude, GPT-4.1, dan Llama-3.1, bersama dengan koleksi data dan model seperti Qwen, Skywork, dan Tulu.

Perusahaan menemukan bahwa model hadiah besar bekerja lebih baik pada standar ini karena model dasar mereka lebih kuat. Secara umum, model kinerja terkuat adalah variabel LLAMA-3.1. Mengenai konsentrasi dan keamanan, data skywork “sangat berguna”, dan Tulu benar -benar telah dicapai.

AI2 mengatakan bahwa meskipun mereka percaya bahwa Rawwardbench 2 “adalah langkah maju dalam penilaian multi -ladang berbasis luas” dari model hadiah, mereka telah memperingatkan bahwa evaluasi model harus digunakan terutama sebagai panduan untuk memilih model yang bekerja lebih baik dengan kebutuhan institusi.


Tautan sumber
Continue Reading
Click to comment

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Berita

Tampaknya kegilaan komersial di Liga Profesional Amerika meletus pada hari -hari sebelum draft

Published

on

baruAnda sekarang dapat mendengarkan Fox News!

Oklahoma mengalahkan City Thunderbolis pada hari Minggu di 7 Final Liga Profesional Amerika. Ketika Thunder mengangkat Piala Operasi Larry yang diinginkan, itu juga mewakili awal resmi musim ini.

Meskipun offseason baru berumur beberapa hari, tim aktif di pasar perdagangan saat American Professional League semakin dekat.

Grizzlies dan langkah menarik perdagangan selama final. Memphis mengirim kiper Desmond Ban ke Orlando Magic dengan imbalan pemain dan pilihan. Sementara itu, Indiana melakukan kesepakatan yang termasuk rancangan pilihan.

Klik di sini untuk lebih banyak liputan olahraga di foxnews.com

Di bawah ini adalah penawaran Liga AS yang terkemuka sejauh ini di musim ini:

Kesepakatan tiga kaliak yang mengirim Kristaps Porzingis ke Atlanta

Tidak jelas bahwa Clint Capella akan kembali ke Falcons untuk musim 2025-26. Atlanta mengisi kekosongan potensial di tengah dengan mendapatkan carspas celginjis dalam kesepakatan tiga kaliak. Jaringan Brooklyn juga merupakan bagian dari kesepakatan, USA TODY Sports disebutkan Selasa.

Wizards mengirimkan juara Liga AS ke New Orleans dengan imbalan CJ McCollm

Jordan Paul dari Washington Wizards sedang bersiap untuk menembak lemparan bebas selama pertandingan melawan Brooklyn Nets pada 29 Maret 2025, di Arena Capital One, Washington, DC, (Stephen Gosling/NBAE via Getty Images)

Selasa, ESPN disebutkan Perdagangan termasuk Washington, Wizards, dan Rleans Bilikan baru. Kesepakatan itu mengirim Jordan Ball, Saddiq Bey dan pilihan pilihan untuk New Orleans.

2025 NBA Offseason Buzz: Pelicans, Wizards membuat perdagangan tingkat tinggi dan 4 pemain

Washington, kiper bintang CJ McCollum, pemain NBA yang paling ditingkatkan untuk tahun 2016; Striker Kelly Olinic; Dan pilihan pilihan baru.

Celtics Trade Star Guard Jrue Holiday

Jrue Holiday berdiri di lapangan basket

Jrue Holiday of the Boston Celtics selama paruh kedua pertandingan melawan Utah Jazz di Delta Center pada 12 Maret 2024, di Salt Lake City. (Gambar Alex Goodlett/Getty)

Pada hari Senin, laporan muncul tentang masa depan House of Jrue Holiaiy di NBA All-Star Holiday dua kali. Idul Fitri menghabiskan dua musim terakhir dengan tim Boston Celkes, yang membantu konsesi untuk mengamankan gelar angka kedelapan belas di Liga Profesional Amerika tahun lalu.

Tetapi kiper Stars akan memulai musim 2025-26 di Wilayah Barat dengan Portland Trail Blazrez. Celtics Angernee Simons dan sepasang pilihan rancangan di masa depan yang diterima untuk liburan.

Perlombaan Kevin Durant berakhir tidak merata dengan matahari

Kevin Durant berdiri di lapangan basket

Venicks Senez, Kevin Durant, berdiri selama paruh pertama pertandingan 4 pertandingan terpisah di babak pertama melawan Los Angeles Clubs 22 April 2023, di Los Angeles. (Foto AP/Mark J. Terrill)

Pada hari Minggu, 2014 Kevin Durant diperdagangkan di American Professional League di Houston Ructas. Menurut ESPN, Phoenix Sun Dillon Brooks, Jalen Green dan enam opsi yang diterima sebagai imbalan untuk penyerang Liga Profesional Amerika dua kali.

Klik di sini untuk mendapatkan aplikasi Fox News

Draf Liga Profesional AS dimulai pukul 8 malam EST pada hari Rabu, 25 Juni, dari Barclays Center di New York. Babak kedua dijadwalkan untuk Kamis, 26 Juni.

Digital Fox News Cakupan Olahraga di XDan berlangganan Newsletter Fox News Sport Hold.



Tautan sumber

Continue Reading

Berita

“Sandbox First”: Andrew Ng Chart untuk mempercepat inovasi AI Enterprise AI

Published

on

Bergabunglah dengan acara bahwa para pemimpin lembaga telah dipercaya selama hampir dua dekade. VB Transform menggabungkan orang yang membangun strategi AI untuk institusi nyata. Pelajari lebih lanjut


Lembaga mungkin peduli tentang dampak aplikasi kecerdasan buatan ketika ditempatkan dalam produksi, tetapi menghalangi proyek -proyek ini dengan pegangan tangan pada awalnya dapat memperlambat inovasi.

Andrew Ng, pendiri Kedalaman Amnesty International Salah satu tokoh paling menonjol dalam mengembangkan kecerdasan buatan menekankan pentingnya pengamatan dan pegangan dalam mengembangkan kecerdasan buatan VB mengonversi Hari ini. Namun, ia menambahkan bahwa ini tidak boleh mengorbankan inovasi dan pertumbuhan.

NG menyarankan agar lembaga -lembaga dibangun di dalam kotak pasir untuk proyek -proyek model dengan cepat, menemukan pilot bekerja, dan mulai berinvestasi dalam pengamatan dan pegangan tangan dari aplikasi ini setelah membuktikan bahwa mereka bekerja. Ini mungkin tampak intuitif bagi institusi yang ingin menerapkan kecerdasan buatan.

>> Tonton setiap liputan konversi kami 2025 di sini <

“Ada peran penting untuk pengamatan, keselamatan dan nilai,” kata Ng. “Saya terus terang cenderung menempatkannya di lain waktu karena saya menemukan bahwa salah satu cara yang dihentikan oleh perusahaan besar adalah untuk insinyur, apa pun, mereka harus mendaftar oleh lima presiden.”

Dia menambahkan bahwa perusahaan besar “tidak mampu membayar beberapa tim inovasi acak untuk menagih sesuatu yang menghancurkan merek atau memiliki informasi sensitif”, tetapi ini juga dapat menghalangi inovasi.

Sebagai gantinya, NG mengatakan bahwa Sandboxes menyediakan cara bagi tim pengembang untuk “dengan cepat pengulangan dengan informasi pribadi yang terbatas.” Kotak pasir memungkinkan lembaga untuk berinvestasi hanya dalam proyek -proyek yang berfungsi dan kemudian menambahkan teknologi untuk membuatnya bertanggung jawab, termasuk pengamatan dan pegangan tangan.

Tidak jarang bagi perusahaan pasir untuk menciptakan inovasi, terutama untuk agen kecerdasan buatan. Kotak pasir memungkinkan inovasi di dalam perbatasan lembaga tanpa menyentuh informasi sensitif apa pun yang mereka tidak ingin menjadi umum. Namun, mereka juga memungkinkan perbedaan menjadi kreatif mungkin untuk menguji ide.

Catatan dengan cepat menjadi topik utama karena banyak aplikasi AI dan agen produksi masuk. Salesforce Perpustakaan agen, Agenforce 3, telah diperbarui untuk memberikan visi yang lebih baik dalam kinerja agen dan mendukung standar yang lebih tumpang tindih, seperti MCP.

Kecepatan dan penurunan biaya pilot

Untuk NG, kecepatan dan inovasi berjalan bersama, dan perusahaan tidak perlu takut akan hal itu.

“Bayangkan kami berada di kapal yang berputar, tetapi ini adalah kapal yang berputar lambat. Apa yang terjadi tahun lalu, kapal kami yang berputar menambah kecepatan, dan ini sangat menarik karena sedang berlangsung,” kata Nug. “Saya merasa bahwa dunia sekarang berada di kapal gerak yang cepat, dan itu hebat.”

Nangram mengatakan bahwa salah satu faktor yang berkontribusi pada kecepatan ini adalah alat yang sekarang tersedia untuk pengembang untuk bekerja dan kebingungan dengan cepat, yang menunjukkan bahwa faktor pengkodean seperti Selancar Dan Kopilot Saya mengurangi waktu pengembangan “dari proyek -proyek yang dulu memakan waktu tiga bulan dan enam insinyur.”

Platform agen pengkodean ini dan alat -alat lain yang membantu pengembang juga bergerak lebih cepat biaya untuk melakukan proyek eksperimental.

“Saya tidak merasa bahwa biaya pembuktian konsep sangat rendah sehingga saya baik -baik saja untuk melakukan banyak POC (panduan konsep) itu buruk,” katanya.

penghalang jalan

Namun, satu penghalang mungkin menemukan bakat. NG telah mengakui bahwa ada perusahaan internasional Amnesty untuk mempekerjakan insinyur untuk model untuk menerapkan gaji hingga $ 10 juta, tetapi harganya tidak tinggi untuk insinyur perangkat lunak.

“Salah satu tantangan terbesar yang dihadapi banyak perusahaan adalah bakat,” katanya. Dia mengatakan: “Kabar baik bagi perusahaan yang mencari insinyur yang dapat membangun permintaan, harganya tidak mendekati kisaran $ 5 juta.”

Masalahnya, bagaimanapun, adalah bahwa masih ada cukup bakat di sana yang memiliki pengalaman dalam membangun proyek kecerdasan buatan untuk institusi. Oleh karena itu, NG kembali ke solusi pertamanya: biarkan mereka mencoba dalam kotak pasir dan mendapatkan pengalaman itu.


Tautan sumber
Continue Reading

Berita

Bills QB mengabaikan kemuliaan pribadi, memberikan prioritas pemenang judul Super Bowl

Published

on

baruAnda sekarang dapat mendengarkan Fox News!

Musim lalu, Josh Allen menghasilkan kinerja terbaik kehidupan profesionalnya di Asosiasi Sepak Bola AS.

Segera setelah akhir musim normal dengan 12 penurunan tergesa -gesa dan 28 menyentuh pendaratan terhadap enam keberatan, Allen dinamai NFL MVP. Butuh waktu sejenak untuk memikirkan pencapaian pribadinya, tetapi juga memperjelas bahwa menaikkan Piala Vince Lombardi yang diinginkan tetap menjadi tujuan utamanya.

Klik di sini untuk lebih banyak liputan olahraga di foxnews.com

Boufalo Bells Goche Allen (17) berlari melawan Detroit Lyons selama paruh kedua pertandingan sepak bola Asosiasi Sepak Bola Amerika, pada hari Minggu, 15 Desember 2024, di Detroit. (King of the River/AP Photo)

“Saya tidak banyak bermain di dalamnya,” Allen Kata Sports Illustrated. “Seperti yang Anda ketahui, ini adalah kehormatan besar, dan saya bisa menghormati pekerjaan saya. Tetapi pada saat yang sama, saya masih tidak memenangkan Super Bowl. Saya belum memenangkan episode, dan ini adalah satu -satunya tujuan. Ini adalah satu -satunya fokus yang telah memasuki liga ini sama sekali.”

Josh Allen “Bills ‘Josh Allen membela permainan kontroversial” meskipun timnya memberikan suara untuk larangannya

Sementara Buffalo Bills mencapai kesuksesan besar di musim normal dengan Allen di bawah pusat, Star Legartback telah membantu mengarahkan tagihan ke enam pertandingan berturut -turut. Tagihan juga memenangkan lima gelar berturut -turut di AFC AFC.

Namun, tim telah diperpendek di post -musim dalam beberapa tahun terakhir.

Josh Allen melewati

Boufalo Bells Goche Alen (17 tahun) memberikan umpan terhadap pesawat New York selama babak kedua di Stadion Metliavium. (Ed Mallowland/foto foto)

Pertandingan Kejuaraan Konfederasi Sepak Bola Asia melawan Kansas City City City adalah kekecewaan terbaru dalam Bills. Allen datang pendek, di Bush, pada versi “tush dorong” empuk di kuartal keempat, yang memungkinkan para presiden untuk menyembunyikan kemenangannya lebih dari 32-29.

Para pemimpin telah mampu menghilangkan tagihan empat kali selama lima tahun terakhir di Asosiasi Sepak Bola AS.

Faktur Boufalo berperan sebagai Shevz Kansas City

General View di bagian bawah garis pertempuran di mana Buffalo Bills Center sedang bersiap untuk mengambil bola melawan kepala Kansas City pada pertandingan putaran Divisi Pertama 2024 di Stadion Highmark pada 21 Januari 2024 di Orchard Park, New York. (Mark J. Rebilas/USA Today Sports)

Allen berjanji untuk melanjutkan pekerjaan yang diperlukan dengan harapan mendapatkan Boufalo “pada punuk ini.”

Allen menambahkan: “Pada akhirnya, Anda harus membuat kualifikasi, lalu Anda memenangkan tiga pertandingan, mungkin empat pertandingan.” “Inilah yang harus kita lakukan. Kita akan terus bekerja sekeras mungkin, dan aku, apa yang bisa kita lakukan untuk menemukan cara pada punuk ini? Jadi satu -satunya tujuan adalah untuk bergerak maju.”

Klik di sini untuk mendapatkan aplikasi Fox News

Lebih dari tiga dekade telah berlalu sejak tagihan maju ke Super Bowl. Konsesi mengalami empat kekalahan berturut-turut dalam pertandingan besar dari 1991-1994.

Bills membuka musim 2025 biasa pada 7 September di kandang melawan Baltimore Ravens.

Digital Fox News Cakupan Olahraga di XDan berlangganan Newsletter Fox News Sport Hold.



Tautan sumber

Continue Reading

Trending