Berita
Kecerdasan buatan dari Google sekarang dapat menelusuri web atas nama Anda, klik tombol, isi model dengan penggunaan komputer Gemini 2.5
Beberapa penyedia terbesar model bahasa besar (LLM) berusaha memotong robot obrolan multimedia – dan memperluas model mereka "Agen" Yang sebenarnya dapat mengambil lebih banyak tindakan atas nama pengguna melalui situs web. Kembalikan Openai Chatgpt (sebelumnya dikenal sebagai agen OpenAI "Operator") Dan penggunaan komputer Anthropic, keduanya dikeluarkan selama dua tahun terakhir.
Sekarang, Google juga berada di game yang sama. Hari ini, raksasa penelitian Perusahaannya DeepMind AI Lab telah meluncurkan versi Gueini 2.5 Pro LLM Power yang baru, diperkaya dan terlatih. Dikenal sebagai "Gemini 2.5 Pro Gunakan komputer,," Mana yang bisa Gunakan browser virtual untuk menelusuri web atas nama Anda, memulihkan informasi, mengisi formulir, dan bahkan mengambil langkah -langkah di situs web – Semua ini melalui satu pesan teks kepada pengguna.
"Ini adalah hari -hari pertama, tetapi kemampuan model untuk berinteraksi dengan web – seperti menggulir, mengisi model dan bergerak dalam daftar drop – sulit. Langkah penting berikutnya dalam membangun agen untuk tujuan umum," Katanya CEO Google Sander Pachay, Sebagai bagian dari a Pernyataan panjang panjang di jejaring sosial, X.
Model ini tidak tersedia untuk konsumen langsung dari Google.
alih-alih, Mitra Google Dengan perusahaan lain, BrowserMendirikannya Mantan insinyur Twilio Paul Klein pada awal 2024Yang disajikan oleh al -dhahri "Rusak" Browser Web untuk digunakan oleh agen dan aplikasi kecerdasan buatan. (A. "Rusak" Browser adalah apa yang tidak memerlukan antarmuka pengguna grafis, atau antarmuka pengguna grafis, untuk bergerak melalui web, meskipun dalam hal ini dan lainnya, Browserbase menawarkan representasi grafis pengguna).
Pengguna dapat menampilkan model penggunaan komputer Gemini 2.5 baru secara langsung di Browserbase Di Sini Dan bahkan membandingkannya bersama dengan penawaran lama yang bersaing dengan Openai dan Antropik dengan cara baru "Browser Square" Itu diluncurkan oleh startup (meskipun hanya satu model tambahan yang dapat dipilih bersama dengan Gemini setiap kali).
Untuk kecerdasan dan pengembang buatan, itu disiapkan sebagai bahan awal, meskipun dimiliki oleh LLM melalui Gemini API di Google AI Studio ke Model awal yang cepatDan Google Claude Fertens AI Formulir yang ditentukan dan platform aplikasi.
Penawaran baru tergantung pada kemampuan Gemini 2.5 ProDirilis lagi pada bulan Maret 2025 tetapi telah diperbarui secara signifikan beberapa kali sejak itu, dengan fokus khusus pada memungkinkan agen kecerdasan buatan untuk membuat reaksi langsung dengan antarmuka pengguna, termasuk browser dan aplikasi seluler.
Secara umum sepertinya Gemini 2.5 Penggunaan komputer dirancang untuk memungkinkan pengembang membuat agen yang dapat menyelesaikan tugas berbasis antarmuka secara mandiri – seperti mengklik, menulis, melewati, mengisi model dan bergerak di belakang layar login.
Alih -alih hanya mengandalkan aplikasi atau input terorganisir, model ini memungkinkan sistem kecerdasan buatan untuk berinteraksi dengan program secara visual dan fungsional, seperti halnya seseorang.
Tes praktis lokal untuk pengguna
Dalam tes proses awal dan non -ilmiah saya di Browserbase, program penggunaan komputer Gemini 2.5 telah berhasil pindah ke situs web resmi Taylor Swift sesuai dengan instruksi dan memberi saya ringkasan tentang apa yang dijual atau dipromosikan di atas – versi khusus dari album terbaru. "The Life of a Girl Review."
Dalam tes lain, saya meminta komputer Gemini 2.5 Penggunaan Komputer di Amazon untuk lampu surya bertingkat tinggi dan ulasan yang bagus yang dapat saya letakkan di halaman belakang rumah saya, dan saya senang menontonnya dengan sukses menyelesaikan pencarian Google Captcha untuk menyingkirkan pengguna non -manusia ("Pilih semua kotak dengan sepeda motor."Saya melakukannya dalam hitungan detik.
Namun, begitu dia tiba di sana, dia berhenti dan tidak dapat menyelesaikan misi, meskipun dia disajikan "Tugas bersaing" pesan.
Perlu juga dicatat di sini bahwa sementara OpenAi dan Claude Antopic dapat membuat dan mengedit file lokal – seperti presentasi PowerPoint, jadwal data atau dokumen teks – atas nama pengguna, penggunaan komputer Gemini 2.5 saat ini tidak menyediakan akses langsung ke sistem file atau kemampuan membuat file asli.
Sebagai gantinya, ini dirancang untuk mengontrol antarmuka pengguna web dan ponsel dan menavigasi mereka melalui prosedur seperti mengklik, menulis, dan lewat. Produksinya terbatas pada prosedur antarmuka pengguna yang diusulkan atau respons tekstual dalam gaya chatbot; Pengembang harus berurusan dengan output terorganisir seperti dokumen atau file secara terpisah, dan ini sering melalui instruksi perangkat lunak khusus atau proses integrasi dengan pihak eksternal.
Standar Kinerja
Google mengatakan bahwa penggunaan komputer Gemini 2.5 telah menunjukkan hasil perintis dalam berbagai standar kontrol antarmuka, terutama bila dibandingkan dengan sistem kecerdasan buatan utama lainnya termasuk agen Clauds Sonnet dan OpenAI.
Penilaian dilakukan melalui browserbase dan tes Google pribadi.
Beberapa poin terkemuka termasuk:
-
Online-Mind2Web (Base Base): 65,7% untuk Gemini 2.5 dibandingkan dengan 61,0% (Clauds Sonnet 4) dan 44,3% (agen openai)
-
WebVoyageer (basis siaran): 79,9% untuk Gemini 2.5 dibandingkan dengan 69,4% (Clauds Sonnet 4) dan 61,0% (agen openai)
-
Dunia Android (Pikiran dalam): 69,7% untuk Gemini 2.5 dibandingkan dengan 62,1% (Claude Sonit 4); Model openai tidak dapat diukur karena ketidaktepatannya
-
Dunia Operasi: Non -Backed oleh Gemini 2.5; Hasil dari pesaing yang lebih tinggi adalah 61,4%
Selain akurasi yang kuat, Google menyatakan bahwa model ini bekerja dengan waktu yang kurang dari solusi kontrol browser lainnya – faktor utama dalam penggunaan produksi seperti otomatisasi dan pengujian antarmuka pengguna.
Bagaimana bekerja
Agen yang sedang berjalan dengan formulir penggunaan komputer berfungsi dalam lingkaran interaksi. Mereka menerima:
-
Misi pengguna diarahkan
-
Snapshot layar antarmuka
-
Sejarah prosedur masa lalu
Model menganalisis input ini dan menghasilkan antarmuka pengguna yang disarankan, seperti mengklik tombol atau menulis di lapangan.
Jika perlu, ia dapat meminta konfirmasi dari pengguna akhir untuk tugas -tugas paling berbahaya, seperti pembelian.
Setelah prosedur dilakukan, kondisi fasad diperbarui dan tangkapan layar baru dikirim lagi ke formulir. Episode berlanjut sampai tugas selesai atau dihentikan karena kesalahan atau keputusan keselamatan.
Model ini menggunakan alat khusus yang disebut computer_use
Itu dapat digabungkan ke lingkungan yang disesuaikan menggunakan alat seperti dramawan Atau melalui Browser Pasir eksperimental.
Kasus Penggunaan dan Adopsi
Menurut Google, tim telah memulai secara internal dan eksternal untuk menggunakan model di beberapa bidang:
-
Tim Platform Pembayaran Google Laporan menunjukkan bahwa penggunaan komputer Gemini 2.5 telah berhasil memulihkan lebih dari 60% dari operasi pengujian yang gagal, yang mengurangi sumber utama efisiensi teknik.
-
TertarikPlatform agen kecerdasan buatan dari entitas eksternal mengatakan bahwa model mengungguli orang lain dalam tugas menganalisis data kompleks, yang mengarah pada promosi kinerja hingga 18% dalam penilaian yang paling sulit.
-
KZ.comDan itu adalah penyedia kecerdasan buatan yang diantisipasi, bahwa model Gemini sering bekerja 50% lebih cepat Salah satu solusi yang bersaing selama reaksi antarmuka.
Model ini juga digunakan dalam upaya pengembangan produk Google, termasuk Proyek Mariner, Agen uji firebaseDan Mode Kecerdasan Buatan dalam Penelitian.
Langkah -langkah keamanan
Dan karena model ini secara langsung mengontrol fasad program, Google menekankan tindak lanjut dari pendekatan keselamatan multi -layer:
-
A Layanan Keselamatan untuk setiap langkah Setiap prosedur memeriksa proposal sebelum implementasi.
-
Pengembang dapat menentukan Instruksi di tingkat sistem Untuk mencegah atau meminta konfirmasi prosedur tertentu.
-
Model ini mencakup prosedur perlindungan terintegrasi untuk menghindari prosedur yang dapat membahayakan atau melanggar kebijakan penggunaan Google.
Misalnya, jika formulir menghadapi tes CAPTCHA, itu akan membuat prosedur untuk mengklik kotak seleksi dengan tanda yang memerlukan konfirmasi pengguna, memastikan bahwa sistem tidak berlanjut tanpa pengawasan manusia.
Kemampuan teknis
Model ini mendukung berbagai prosedur antarmuka pengguna tertanam seperti:
-
click_at
,,type_text_at
,,scroll_document
,,drag_and_drop
Dan lebih banyak lagi -
Pekerjaan tertentu dapat ditambahkan oleh pengguna untuk memperluas akses ke lingkungan ponsel atau yang disesuaikan
-
Koordinat layar (skala 0-1000) diselesaikan dan diterjemahkan lagi ke dalam dimensi piksel selama implementasi
Menerima Foto dan teks Input dan output Tanggapan teks atau Panggilan Pekerjaan Untuk melakukan tugas. Resolusi layar yang disarankan untuk hasil terbaik adalah 1440×900Meskipun dapat bekerja dengan ukuran lain.
Harga API tetap hampir identik dengan Gueini 2.5 Pro
Harga untuk Gemini 2.5 Gunakan komputer Ini sangat konsisten dengan standar Gemini 2.5 Pro. Keduanya mengikuti struktur penagihan yang sama untuk setiap simbol khas: ikon -ikon input yang khas dihargai $ 1,25 per juta ikon Untuk klaim kurang dari 200.000 simbol, dan $ 2,50 per juta ikon Untuk tuntutan lebih lama dari itu.
Simbol output mengikuti divisi serupa dengan harga tertentu 10,00 dolar per juta Untuk tanggapan yang lebih kecil dan $ 15.00 Untuk mereka yang lebih tua.
Di mana model bervariasi dalam ketersediaan dan fitur tambahan.
Gemini 2.5 Pro termasuk lapisan gratis Pengembang diizinkan untuk menggunakan model tanpa biaya apa pun, tanpa penyebaran maksimum simbol yang khas, meskipun penggunaannya dapat dikenakan batasan rata -rata atau pembatasan saham tergantung pada undang -undang (seperti Google AI Studio).
Akses gratis ini mencakup simbol input dan output. Setelah pengembang melebihi saham yang dialokasikan untuk mereka atau beralih ke lapisan yang dibayar, harga standar diterapkan untuk setiap simbol yang khas.
sebaliknya, Gemini 2.5 Penggunaan komputer tersedia secara eksklusif melalui lapisan berbayar. di sana Tidak ada kebebasan akses Saat ini tersedia untuk model ini, semua penggunaan tunduk pada biaya berdasarkan simbol khas dari awal.
Dalam hal fitur, Gemini 2.5 Pro mendukung kemampuan opsional seperti penyimpanan konteks sementara (mulai dari $ 0,31 per juta ikon berbeda) dan landasan menggunakan pencarian Google (gratis hingga 1500 permintaan per hari, kemudian 35 USD per 1000 permintaan tambahan). Ini tidak tersedia untuk menggunakan komputer saat ini.
Diskriminasi lain adalah memproses data: output dari model penggunaan komputer tidak digunakan untuk meningkatkan produk Google di lapisan berbayar, sementara penggunaan lapisan bebas Gemini 2.5 Pro berkontribusi untuk meningkatkan model kecuali langganan dibatalkan secara eksplisit.
Secara umum, pengembang dapat mengharapkan biaya yang sama berdasarkan simbol khas di kedua model, tetapi mereka harus mempertimbangkan mengakses lapisan, termasuk kemampuan dan kebijakan penggunaan data ketika menentukan model yang sesuai dengan kebutuhan mereka.