Connect with us

Berita

Openai membawa GPT-4.1 dan 4.1 Mini ke chatgpt-apa yang harus diketahui lembaga

Published

on

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Openai adalah Rotasi GPT-4.1LLM, yang menyeimbangkan kinerja tinggi dengan biaya rendah, untuk pengguna chatgpt. Perusahaan mulai dengan pelanggannya dibayar di Chatgpt Plus, Pro dan tim, dengan kedatangan pengguna ke lembaga dan pendidikan dalam beberapa minggu mendatang.

Ini juga menambahkan GPT-4.1 Mini, yang menggantikan GPT-4O Mini sebagai default untuk semua pengguna ChatGPT, termasuk yang ada di level bebas. Versi “mini” memberikan parameter yang lebih kecil dan dengan demikian, versi yang kurang kuat dengan standar keamanan yang sama.

Gaya keduanya tersedia dengan memilih “lebih banyak model” yang jatuh di sudut atas jendela obrolan di dalam chatgpt, yang memberi pengguna fleksibilitas untuk memilih antara model GPT-4.1, GPT-4.1 Mini dan MeRG seperti O3, O4-Mini dan O4-Mini.

Awalnya didedikasikan untuk digunakan hanya oleh program pihak ketiga dan pengembang kecerdasan buatan melalui antarmuka pemrograman program OpenAI (API), GPT-4.1 ditambahkan ke ChatGPT setelah catatan pengguna yang kuat.

Penelitian Pelatihan Pra -Pelatihan Michelle Boukras Ini dikonfirmasi pada X, shift didorong oleh permintaan, dan menulis: “Kami pada awalnya berencana untuk menjaga antarmuka pemrograman aplikasi model ini saja, tetapi Anda semua ingin chatgpt 🙂 Happy Coding!”

Kepala Openaii Produk Pejabat Kevin Whale Diposting di x Katakan: “Kami telah membangunnya untuk pengembang, jadi sangat bagus dalam pengkodean dan instruksi berikut – coba!”

Model berfokus pada institusi

GPT-4.1 dirancang dari A ke Z untuk menerapkan operasi di tingkat lembaga.

Diluncurkan pada April 2025 bersama GPT-4.1 Mini dan Nano, keluarga khas ini memberikan prioritas kebutuhan pengembang dan kasus produksi.

GPT-4.1 menyediakan 21,4 poin di GPT-4O pada standar perangkat lunak SWE-benced, dan menghasilkan 10,5 poin dalam tugas instruksi berikut dalam skala standar multi-sisi. Ini juga mengurangi aksi sebesar 50 % dibandingkan dengan model lain, pengguna fitur fitur selama tes awal.

Konteks, kecepatan, dan akses ke model

GPT-4.1 Mendukung konteks standar sistem Windows untuk chatgpt: 8000 ikon untuk pengguna gratis, 32000 ikon untuk pengguna yang berlebihan, dan 128.000 simbol untuk pengguna profesional.

Menurut pengembang Angel Bogado Penerbitan pada X, batasan -batasan yang model chatgpt sebelumnya identik, meskipun rencananya sedang berlangsung untuk meningkatkan ukuran konteksnya.

Sementara versi API dari GPT-4.1 dapat memperlakukan hingga satu juta simbol, kapasitas yang diperluas ini belum tersedia di ChatGPT, meskipun dukungan di masa depan telah terluka.

Konteks yang diperluas dari pengguna API dapat memberi makan seluruh kode kode atau dokumen hukum dan keuangan yang besar dalam bentuk-penggunaan untuk meninjau multi-dokumen atau menganalisis file registri yang besar.

Openai telah mengakui beberapa kerusakan kinerja dengan input yang sangat besar, tetapi kasus pengujian fondasi menunjukkan kinerja yang kuat dari beberapa ratusan simbol khas.

Evaluasi dan Keselamatan

Openai juga diluncurkan Ulasan Keselamatan Hub Situs Web untuk memberi pengguna akses ke ukuran kinerja utama melalui model.

GPT-4.1 menunjukkan hasil yang solid melalui penilaian ini. Dalam tes akurasi realistis, skor 0,40 pada standar SimpleQA dan 0,63 pada personqA, melampaui banyak kabel.

Juga mencatat 0,99 pada skala “tidak aman” OpenAI dalam tes penolakan standar, dan 0,86 pada klaim yang lebih menantang.

Namun, dalam test jailbreak yang kuat-standar akademik untuk keselamatan di bawah kondisi bermusuhan 0,23, di belakang model seperti GPT-4O-Mini dan O3.

Namun, 0,96 telah sangat terdaftar pada tuntutan menghasilkan dari sumber manusia, menunjukkan keamanan yang lebih kuat di dunia mengingat penggunaan khas.

Dalam kepatuhan pada instruksi, GPT-4.1 mengikuti hierarki spesifik OpenAI (sistem pada pengembang, pengembang pada pesan pengguna) dengan 0,71 untuk menyelesaikan sistem untuk kontradiksi pesan pengguna. Ini juga mengarah pada perlindungan frasa yang dilindungi dan menghindari solusi solusi dalam skenario pelajaran.

Konteks GPT-4.1 melawan pendahulunya

Versi GPT-4.1 datang setelah memeriksa GPT-4.5, yang pertama kali muncul pada Februari 2025 sebagai inspeksi penelitian. Model ini menekankan pembelajaran yang tidak siap, basis pengetahuan kaya yang lebih kaya, halusinasi penghancuran hallucinogenic dari 61,8 % di GPT-4O menjadi 37,1 %. Ini juga menawarkan perbaikan dalam perbedaan penulisan emosional dan panjang, tetapi banyak pengguna telah menemukan peningkatan yang akurat.

Terlepas dari keuntungan ini, GPT-4.5 telah menyebabkan kritik terhadap harga tinggi menjadi $ 180 per juta API-dan kinerja luar biasa dalam matematika dan standar pengkodean untuk model O-Seri Openai. Tokoh-tokoh industri mencatat bahwa meskipun GPT-4.5 lebih kuat dalam percakapan dan generasi konten umum, itu kurang dari kinerja pengembang.

Sebaliknya, GPT-4.1 ditujukan untuk lebih cepat dan lebih fokus. Meskipun tidak memiliki lebar pengetahuan GPT-4.5 dan pemodelan emosional yang luas, lebih baik disesuaikan dengan proses pengkodean praktis dan termasuk lebih dapat diandalkan untuk instruksi pengguna.

Di antarmuka aplikasi openai, GPT-4.1 saat ini dihargai Dengan 2,00 dolar per juta kode input, $ 0,50 per juta entri yang adil disimpan sementara, dan simbol output $ 8,00 per juta.

Bagi mereka yang mencari keseimbangan antara kecepatan dan kecerdasan dengan biaya yang lebih rendah, GPT-4.1 Mini tersedia pada $ 0,40 per juta kode input, $ 0,10 per juta kode input yang disimpan, dan simbol output $ 1,60 per juta.

Model flash flash dari google Ini tersedia mulai dari $ 0,075-0,10 per juta kode input dan $ 0,30-0,40 dolar per juta simbol, kurang dari sepersepuluh dari biaya harga dasar GPT-4.1.

Namun terlepas dari harga tinggi GPT-4.1, ini memberikan standar rekayasa perangkat lunak yang lebih kuat dan instruksi yang lebih akurat, yang mungkin diperlukan untuk skenario untuk penerbitan lembaga yang membutuhkan keandalan dengan biaya. Pada akhirnya, GPT-4.1 dari OpenAI memberikan pengalaman yang berbeda untuk akurasi dan pengembangan, sementara model Google Google menarik bagi institusi sadar dan hemat biaya yang membutuhkan level khas yang fleksibel dan kemampuan multimedia.

Apa artinya ini bagi para pembuat keputusan lembaga?

GPT-4.1 Memperkenalkan manfaat khusus untuk tim yang mengelola LLM, koordinasi, dan operasi data:

  • Insinyur kecerdasan buatan mengawasi publikasi LLM Anda dapat berharap untuk meningkatkan kecepatan dan pendidikan. Untuk tim yang menjalankan siklus hidup LLM penuh dari model lunak untuk mengeksplorasi dan memperbaiki kesalahan-penyediaan GPT-4.1 lebih responsif dan efisien. Ini sangat cocok untuk tim ramping di bawah tekanan untuk mengisi model kinerja tinggi dengan cepat tanpa prasangka untuk keselamatan atau kepatuhan.
  • Organisasi Kecerdasan Buatan mengarah Berfokus pada desain pipa perkembangan akan memperkirakan daya tahan GPT-4.1 terhadap sebagian besar kegagalan pengguna dan kinerjanya yang kuat dalam tes urutan hierarkis pesan. Ini membuatnya mudah untuk diintegrasikan ke dalam sistem sinkronisasi yang memberikan prioritas pada konsistensi dan verifikasi bentuk model dan keandalan operasional.
  • Insinyur Data Bertanggung jawab untuk mempertahankan kualitas data yang tinggi dan mengintegrasikan alat baru akan mendapat manfaat dari laju halusinogenik dalam GPT-4.1 dan akurasi realistis yang lebih tinggi. Perilaku output yang paling dapat diprediksi membantu membangun alur kerja data yang andal, bahkan ketika sumber daya tim dibatasi.
  • Spesialis keamanan TI Anda mungkin menemukan AMIN untuk memasukkan keamanan melalui pipa DevOps yang berharga dalam resistensi GPT-4.1 untuk melanggar penjara bersama dan perilaku output terkontrol. Sementara gelar pemenjaraan akademik meninggalkan area perbaikan, kinerja tinggi model terhadap eksploitasi sumber daya manusia membantu mendukung integrasi yang aman dalam alat internal.

Melalui peran ini, lokasi GPT-4.1 sebagai model yang lebih baik untuk kejelasan, kepatuhan dan efisiensi penerbitan menjadikannya opsi yang meyakinkan bagi lembaga-lembaga berukuran sedang yang ingin menyeimbangkan kinerja dengan permintaan operasional.

Langkah Maju Baru

Sementara GPT-4.5 merupakan tengara penskalaan dalam pengembangan model, GPT-4.1 berfokus pada manfaatnya. Ini bukan yang paling mahal atau paling multi -media, tetapi menawarkan keuntungan yang berarti di bidang yang menarik minat Anda kepada lembaga: akurasi, efisiensi penerbitan, dan biaya.

Perhentian ini mencerminkan tren industri yang lebih luas – jauh dari membangun model terbesar dengan biaya berapa pun, dan menuju model yang mampu mencapai lebih mudah dan mudah beradaptasi. GPT-4.1 memenuhi kebutuhan ini, menyediakan alat yang fleksibel dan siap untuk produksi untuk tim yang mencoba memasukkan intelijen mendalam dalam operasi komersial mereka.

Ketika Openai terus mengembangkan pertunjukan khasnya, GPT-4.1 mewakili langkah maju dalam karakter demokratis dari demokrasi maju lingkungan lembaga. Untuk pembuat keputusan seimbang dengan kemampuan untuk kembali ke investasi, ini memberikan cara yang lebih jelas untuk menerbitkan tanpa mengorbankan kinerja atau keamanan.


Tautan sumber
Continue Reading
Click to comment

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Berita

Dodgers dan Blue Jays menghadirkan game Seri Dunia yang epik

Published

on

baruAnda sekarang dapat mendengarkan artikel Fox News!

Raksasa yang tertidur itu akhirnya terbangun pada Senin larut malam di Pantai Barat dan Selasa dini hari di Pantai Timur.

Freddie Freeman mencapai posisi terbawah pada inning ke-18 dan melakukan home run solo untuk memberi Los Angeles Dodgers kemenangan Seri Dunia Game 3 atas Toronto Blue Jays, 6-5. Dia menjadi pemain pertama dalam sejarah MLB Postseason yang mencapai beberapa home run di Seri Dunia. Dia melakukannya pada pertandingan pertama tahun lalu melawan New York Yankees.

KLIK DI SINI UNTUK CAKUPAN OLAHRAGA LEBIH LANJUT DI FOXNEWS.COM

Freddie Freeman dari Los Angeles Dodgers merayakan home run melawan Toronto Blue Jays pada inning ke-18 di Game 3 Seri Dunia, Senin, 27 Oktober 2025, di Los Angeles. (Foto AP/Brynn Anderson)

Maraton bisa saja berakhir kapan saja antara inning ke-10 dan ke-18. Dodgers memiliki peluang besar di posisi terbawah ke-13. Freeman datang untuk memukul dengan pangkalan terisi dan memukul bola sejauh yang dia bisa sebelum pemain luar Blue Jays melacaknya.

Toronto membuat beberapa keputusan berisiko di jalur dasar menjelang pertandingan. Upaya yang dilakukan saat itu tidak sia-sia dan menutup permainan, namun permainan bertahan dari Tommy Edman dan Teoscar Hernandez mampu memadamkan harapan kemenangan Blue Jays.

Pertandingan mungkin tidak akan menghasilkan babak tambahan tanpa permainan Shohei Ohtani.

Ohtani mencetak dua home run dalam malam 4-untuk-4 untuk Dodgers. Dia mencapai pangkalan dengan selamat sembilan kali, membuat rekor Seri Dunia. Ohtani dijadwalkan untuk bermain di Game 4 pada Selasa malam — kurang dari 24 jam setelah home run Freeman.

“Saya ingin tidur secepat mungkin agar saya bisa bersiap-siap,” kata Ohtani kepada Tom Verducci dari FOX melalui seorang penerjemah.

Shohei Ohtani merayakan homer kopling

Shohei Ohtani dari Los Angeles Dodgers merayakan home run melawan Toronto Blue Jays pada inning ketujuh di Game 3 Seri Dunia, Senin, 27 Oktober 2025, di Los Angeles. (Foto AP/Brynn Anderson)

MOOKIE BETTS DODGERS memenangkan Penghargaan Kemanusiaan Roberto Clemente

Pereda Dodgers Will Klein memainkan peran besar dalam kemenangan Los Angeles. Klein melakukan empat inning bisbol tanpa gol dan melakukan lima inning. Dia melempar 72 lemparan — terbanyak kedua sepanjang malam di belakang rookie Tyler Glasnow.

Hernandez memulai Los Angeles dengan home run solo shortstop Blue Jays Max Scherzer di inning kedua. Ohtani melanjutkannya dengan home run pertamanya malam itu di inning ketiga. Tapi hanya ini dua kelemahan Scherzer.

Pelempar bintang veteran mengunci rekor home run. Dia dipukul untuk tiga perolehan run pada lima pukulan dalam 4,1 inning.

Toronto kembali berada di puncak posisi keempat.

Penangkap Blue Jays, Alejandro Kirk, melakukan home run tiga kali dari Tyler Glasnow untuk memberi Toronto keunggulan. Vladimir Guerrero Jr. dan Bo Bichette mencetak gol di ruang bawah tanah. Kemudian, Andres Jimenez mencetak gol Addison Barger dengan pengorbanan.

Alejandro Kirk melakukan home run

Alejandro Kirk dari Toronto Blue Jays merayakannya setelah melakukan home run tiga kali melawan Los Angeles Dodgers pada inning keempat di Game 3 Seri Dunia, Senin, 27 Oktober 2025, di Los Angeles. (Foto AP/David J. Phillip)

Ganda RBI Ohtani dan single RBI Freddie Freeman menyamakan permainan di posisi terbawah kelima. Tapi Bichette memilih Guerrero dalam home run untuk kembali memimpin.

Tentu saja, Ohtani mempunyai peluang untuk memberikan dampak yang lebih besar. Dengan tidak ada seorang pun yang tersingkir di posisi terbawah ketujuh, Ohtani melakukan pukulan keras dari Ceranthony Dominguez untuk menyamakan kedudukan lagi.

Promo Seri Dunia Dodgers dan Blue Jays

Los Angeles Dodgers dan Toronto Blue Jays bertemu di Seri Dunia 2025. (rubah)

Klik di sini untuk mengunduh aplikasi FOX NEWS

Itu adalah maraton 18 inning dari sana, menyamai rekor permainan terpanjang dalam sejarah Seri Dunia.

Game 4 dijadwalkan untuk Selasa malam pukul 8 malam ET di FOX.

Ikuti Fox News Digital Liputan olahraga di X Dan berlangganan Buletin Huddle Olahraga Fox News.



Tautan sumber

Continue Reading

Berita

Hannity mengumumkan bahwa dia akan menjadi tuan rumah balai kota bersama Jack Ciattarelli

Published

on

baruAnda sekarang dapat mendengarkan artikel Fox News!

Pembawa acara Fox News Sean Hannity mengumumkan bahwa ia akan menjadi tuan rumah balai kota dengan calon gubernur New Jersey dari Partai Republik Jack Ciattarelli, yang akan disiarkan di Fox News Kamis.

Pemilihan gubernur New Jersey adalah salah satu pemilu yang paling diawasi ketat, dengan Ciattarelli sekali lagi berupaya mengubah Garden State dari biru menjadi merah setelah nyaris mengalahkan Gubernur Demokrat Phil Murphy pada tahun 2021.

CIATTARELLI mendapatkan momentum dalam pemilihan gubernur New Jersey karena jajak pendapat semakin ketat

Jajak pendapat telah diperketat dalam beberapa pekan terakhir terhadap lawannya, calon gubernur dari Partai Demokrat, Rep. Mickey Sherrill.

Para pemilih keturunan Asia-Amerika akan memainkan peran besar dalam pemilihan gubernur New Jersey, dan pejabat DNC ​​memperingatkan bahwa partai tersebut harus meningkatkan upaya penjangkauan AAPI pada pemilu mendatang. (Victor J. Blue/Getty Images; Mark Kozlarich/Getty Images)

Jajak pendapat Fox News yang dilakukan pada 10-14 Oktober menunjukkan Sherrill mendapat 50% dukungan di kalangan calon pemilih, sementara Ciattarelli mendapat 45%. Keunggulan Sherrill turun 5 poin dari keunggulan 8 poinnya dalam jajak pendapat Fox News bulan September di New Jersey.

MAGA STAR bergabung dengan CIATTARELLI dalam kampanye di New Jersey ketika Partai Republik bertujuan untuk menggulingkan kantor gubernur

Dalam sebuah wawancara dengan Fox News Digital pada tanggal 15 Oktober, Chiattarelli mencatat bahwa ia telah “mendapatkan keuntungan besar” dalam pencalonannya pada tahun 2021 “di Hudson County dan Passaic County,” dua kubu lama Partai Demokrat. Dia juga mencatat bahwa Presiden Donald Trump memiliki pengikut di negara-negara tersebut.

Kandidat Partai Republik untuk gubernur New Jersey Jack Ciattarelli

Jack Ciattarelli, calon gubernur New Jersey dari Partai Republik, dalam wawancara dengan Fox News Digital pada 15 Oktober 2025 di Bayonne, New Jersey. (Paul Steinhauser/Berita Fox)

“Presiden melakukannya dengan sangat baik pada tahun 2024 di wilayah yang sama. Dan jika Anda melihat siapa yang mendukung saya, termasuk beberapa tokoh Demokrat terkemuka di sini di Hudson County, masyarakat menginginkan perubahan,” kata Ciattarelli.

Klik di sini untuk informasi lebih lanjut tentang cara berpartisipasi di Balai Kota Hannity bersama Jack Ciattarelli

Sementara itu, Sherrill mencatat persetujuan Ciattarelli terhadap kebijakan Presiden Trump terhadap dirinya.

NJ REPUBLICAN CIATTARELLI MENGANCAM UNTUK MENUNTUT CHERYL ATAS KLAIM OPIOID

Pada tanggal 8 Oktober, dia menuduh saingannya dari Partai Republik “tidak menunjukkan tanda-tanda akan menentang presiden ini.”

“Faktanya, presiden sendiri menggambarkan Jack sebagai 100% MAGA, dan dia telah menunjukkan semua tandanya,” Cheryl menegaskan.

Perlombaan ini diguncang oleh tuduhan-tuduhan yang meledak-ledak dari kedua belah pihak.

Menurut catatan militer Sherrill, Akademi Angkatan Laut AS melarangnya berpartisipasi dalam upacara wisuda tahun 1994 di tengah skandal kecurangan, yang disebut Ciattarelli sebagai diskualifikasi.

Saksikan FOX NEWS Kamis pukul 9 malam ET untuk Balai Kota Hannity bersama Jack Ciattarelli

Veteran tersebut kemudian menargetkan lawannya dari Partai Republik dengan menuduhnya “terlibat” dalam puluhan ribu kematian akibat opioid di New Jersey, berdasarkan kepemilikannya terhadap perusahaan penerbitan medis yang mendorong konten yang mempromosikan penggunaan opioid sebagai pengobatan berisiko rendah untuk nyeri kronis.

KLIK DI SINI UNTUK MENDAPATKAN APLIKASI FOX NEWS

Mengunjungi Hannity.com Untuk informasi tiket balai kota hari Kamis di Point Pleasant, New Jersey, menjelang pemilihan negara bagian pada 4 November.

Tautan sumber

Continue Reading

Berita

Kerangka kerja Google Watch and Learn memecahkan hambatan data untuk pelatihan agen komputer

Published

on

Kerangka kerja baru yang dikembangkan oleh para peneliti di Google Cloud dan DeepMind bertujuan untuk mengatasi salah satu tantangan utama dalam mengembangkan Agen Penggunaan Komputer (CUA): mengumpulkan contoh pelatihan berkualitas tinggi dalam skala besar.

Bingkai, di-dubbing Perhatikan dan pelajari (W&L), mengatasi masalah pembuatan data pelatihan dengan cara yang tidak memerlukan anotasi manusia dan dapat secara otomatis mengekstrak demo dari video mentah.

Eksperimen mereka menunjukkan bahwa data yang dihasilkan oleh W&L dapat digunakan untuk melatih atau menyempurnakan penggunaan komputer dan model dasar yang ada guna meningkatkan kinerja mereka dalam tugas-tugas penggunaan komputer. Namun yang sama pentingnya, pendekatan yang sama dapat digunakan dalam konstruksi Belajar dalam konteks (ICL) merupakan contoh agen pengguna komputer, yang memungkinkan perusahaan membuat CUA untuk tugas internal yang disesuaikan tanpa memerlukan pelatihan model khusus yang mahal.

Kemacetan data CUA

Web kaya dengan tutorial video dan screencast yang menggambarkan alur kerja kompleks untuk menggunakan aplikasi. Video-video ini adalah tambang emas yang bisa didapat Agen penggunaan komputer Dengan pengetahuan domain dan instruksi untuk menyelesaikan berbagai tugas melalui interaksi antarmuka pengguna.

Namun, sebelum dapat digunakan untuk melatih agen CUA, video ini harus diubah menjadi saluran beranotasi (yaitu, serangkaian deskripsi tugas, tangkapan layar, dan tindakan), yang merupakan proses yang mahal dan memakan waktu jika dilakukan secara manual.

Pendekatan yang ada untuk mengatasi hambatan data ini bergantung pada anotasi video ini melalui penggunaan model bahasa multimodal, yang biasanya menghasilkan akurasi rendah dan contoh yang salah. Pendekatan yang berbeda menggunakan agen otonom yang mengeksplorasi antarmuka pengguna secara mandiri untuk mengumpulkan jalur. Namun, teknik yang menggunakan pendekatan ini biasanya menghasilkan contoh sederhana yang tidak berguna dalam situasi dunia nyata yang tidak dapat diprediksi.

Seperti yang dicatat oleh para peneliti dalam makalah mereka, “Secara umum, pendekatan ini mengandalkan heuristik rapuh, mahal karena mengandalkan eksplorasi di lingkungan nyata, atau menghasilkan demonstrasi dengan kompleksitas rendah yang tidak sesuai dengan niat manusia.”

Perhatikan dan pelajari

Kerangka kerja Watch and Learn berupaya untuk mengatasi tantangan dalam menciptakan demonstrasi CUA dengan memikirkan kembali rumusan masalah.

Alih-alih menghasilkan lintasan secara langsung atau mengandalkan jaringan pipa multi-tahap yang kompleks, para peneliti membingkai masalahnya sebagai “tujuan dinamis terbalik”: dengan dua pengamatan berturut-turut, memprediksi tindakan perantara yang mengarah pada transformasi.

Menurut para peneliti, formulasi ini “lebih mudah dipelajari, menghindari heuristik buatan tangan, dan dapat digeneralisasi dengan kuat di seluruh aplikasi.”

Kerangka kerja W&L dapat dibagi menjadi tiga fase utama: pelatihan model dinamika terbalik (IDM), pengambilan video mentah, dan pelatihan agen CUA.

Pada fase pertama, para peneliti menggunakan agen untuk berinteraksi dengan halaman web langsung untuk membuat 500.000 transisi (dua pengamatan berturut-turut dan tindakan yang mengarah pada transisi). Mereka kemudian menggunakan data ini (bersama dengan 132.000 transisi yang dianotasi manusia dari kumpulan data terbuka yang ada) untuk melatih model dinamis terbalik (IDM) yang melakukan dua pengamatan berturut-turut dan memprediksi tindakan transisi. IDM yang dilatih, sebuah model transformator kecil, mengungguli model dasar yang tersedia dalam memprediksi tindakan transformasi.

Selanjutnya, para peneliti merancang saluran yang mengambil video dari platform seperti YouTube dan menjalankannya melalui IDM untuk membuat trek berkualitas tinggi. IDM mengambil frame video berturut-turut dan mengidentifikasi tindakan (menggulir, mengklik) yang menyebabkan perubahan pada lingkungan, yang kemudian dikompilasi ke dalam jalur beranotasi. Dengan menggunakan metode ini, mereka menghasilkan 53.125 jalur dengan label kerja yang sangat akurat.

Contoh-contoh ini dapat digunakan untuk melatih model penggunaan komputer yang efektif untuk tugas-tugas tertentu. Namun para peneliti juga menemukan bahwa jalur yang diekstraksi melalui IDM dapat berfungsi sebagai contoh pembelajaran kontekstual untuk meningkatkan kinerja CUA pada tugas yang diberikan pada waktu inferensi. Untuk ICL, mereka menggunakan Gemini 2.5 Flash untuk menambahkan anotasi tambahan ke contoh pemantauan/tindakan di jalur, yang kemudian dapat dimasukkan ke dalam prompt agen CUA (biasanya 3-5 contoh) selama inferensi.

“Peran ganda ini (pelatihan dan pembinaan dalam konteks) memungkinkan integrasi yang fleksibel dengan model sumber terbuka dan agen tujuan umum,” tulis para peneliti.

W&L beraksi

Untuk menguji kegunaan W&L, para peneliti melakukan serangkaian percobaan menggunakan model web sumber tertutup dan terbuka Standar OSWorldyang mengevaluasi agen di lingkungan desktop dan sistem operasi nyata dalam berbagai tugas, termasuk produktivitas, pemrograman, dan desain.

Untuk menyempurnakannya, mereka menggunakan koleksi 53.000 lintasan untuk melatih dua model sumber terbuka: UI-TARS-1.5, model bahasa gerak dan visi sumber terbuka yang kuat yang dirancang khusus untuk penggunaan komputer, dan Ratu 2.5-VLLLM Multimodal Tertimbang Terbuka.

Untuk pengujian pembelajaran kontekstual, mereka menerapkan contoh W&L pada model multimedia tujuan umum seperti Gemini 2.5 Flash, OpenAI o3, dan Claude Sonnet 4.

W&L menghasilkan peningkatan dibandingkan OSWorld di semua kategori model, termasuk hingga 3 poin untuk ICL dalam model tujuan umum dan hingga 11 poin untuk model sumber terbuka yang disempurnakan.

Yang penting, manfaat ini dicapai tanpa anotasi manual apa pun, “menunjukkan bahwa alur kerja manusia dalam skala web dapat berfungsi sebagai landasan praktis dan terukur untuk mengembangkan CUA menuju penerapan di dunia nyata,” tulis para peneliti.

Hal ini dapat mempunyai implikasi penting bagi penerapan di dunia nyata, memungkinkan organisasi mengubah koleksi video dan rekaman konferensi yang ada menjadi data pelatihan untuk CUA. Ini juga mempermudah pembuatan jalur pelatihan baru. Yang harus Anda lakukan adalah merekam video melakukan berbagai tugas dan membubuhi keterangan dengan IDM. Ketika model-model terkemuka terus ditingkatkan dan menjadi lebih murah, Anda dapat berharap untuk mendapatkan lebih banyak manfaat dari data yang ada dan bidang ini akan terus berkembang.

Tautan sumber

Continue Reading

Trending