Connect with us

Berita

EAGLET meningkatkan kinerja agen AI pada misi jangka panjang dengan membuat rencana yang disesuaikan

Published

on

Seharusnya tahun 2025 tahun "agen kecerdasan buatan," Menurut CEO Nvidia Jensen Huang, dan lainnya di industri AI. Dalam banyak hal, hal ini telah terjadi, dengan banyak penyedia model AI terkemuka seperti OpenAI, Google, dan bahkan pesaing Tiongkok seperti Alibaba merilis model atau aplikasi AI terperinci yang dirancang untuk fokus pada serangkaian tugas sempit, seperti penelusuran web dan penulisan laporan.

Namun masih ada rintangan besar bagi masa depan agen AI yang berkinerja tinggi dan andal: meyakinkan mereka untuk tetap mengerjakan tugas ketika tugas tersebut mencakup beberapa langkah. Tes benchmark pihak ketiga Hal ini menunjukkan bahwa model AI yang paling kuat pun mengalami tingkat kegagalan yang lebih tinggi, semakin banyak langkah yang mereka ambil untuk menyelesaikan suatu tugas, dan semakin banyak waktu yang mereka habiskan untuk mengerjakannya (di luar jam kerja).

A Kerangka akademik baru yang disebut EAGLET Ini mengusulkan cara praktis dan efektif untuk meningkatkan kinerja tugas jangka panjang di agen berbasis LLM – tanpa memerlukan klasifikasi data manual atau pelatihan ulang.

Ini dikembangkan oleh para peneliti dari Universitas Tsinghua, Universitas Peking, DeepLang AI, dan Universitas Illinois Urbana-Champaign. Anak Garuda menawarkan a "Grafik global" Yang dapat diintegrasikan ke dalam alur kerja agen yang ada untuk mengurangi halusinasi dan meningkatkan efisiensi tugas.

EAGLET adalah model bahasa yang disempurnakan yang menafsirkan instruksi tugas—biasanya disajikan sebagai perintah oleh pengguna atau lingkungan operasi agen—dan menghasilkan rencana tingkat tinggi untuk agen (didukung oleh LLM-nya). Dia tidak melakukan intervensi selama implementasi, namun panduan awal yang diberikannya membantu mengurangi kesalahan perencanaan dan meningkatkan tingkat penyelesaian tugas.

Mengatasi masalah perencanaan pada agen jangka panjang

Banyak agen berbasis LLM kesulitan menyelesaikan tugas jangka panjang karena mereka mengandalkan pemikiran reaktif dan langkah demi langkah. Pendekatan ini sering kali mengarah pada perilaku coba-coba, perencanaan halusinasi, dan tindakan yang tidak efektif.

EAGLET mengatasi keterbatasan ini dengan memperkenalkan a Unit Perencanaan Global Yang bekerja sama dengan agen pelabuhan.

Daripada menggabungkan perencanaan dan pembangkitan pekerjaan ke dalam satu model, EAGLET memisahkan keduanya, sehingga memungkinkan strategi tingkat tugas yang lebih kohesif.

Pipeline pelatihan dua tahap tanpa anotasi manusia

Perencana EAGLET dilatih menggunakan proses dua tahap dan tidak memerlukan rencana atau anotasi yang ditulis manusia.

Fase pertama melibatkan pembuatan rencana sintesis dengan LLM berkemampuan tinggi, seperti GPT-5 dan DeepSeek-V3.1-Think.

Rencana-rencana ini kemudian disaring menggunakan strategi baru yang disebut pemfilteran konsensus simetris, yang hanya mempertahankan rencana-rencana yang meningkatkan kinerja tugas untuk agen eksekusi ahli dan pemula.

Pada tahap kedua, proses pembelajaran penguatan berbasis aturan menyempurnakan rencana lebih lanjut, menggunakan fungsi penghargaan yang dirancang khusus untuk mengevaluasi seberapa baik setiap rencana membantu keberhasilan banyak agen.

Memperkenalkan Bonus Peningkatan Kapasitas Ekspor (ECGR)

Salah satu inovasi utama EAGLET adalah Port Capability Gain Bonus (ECGR).

Imbalan ini mengukur nilai rencana yang dibuat dengan memeriksa apakah rencana tersebut membantu agen berkemampuan tinggi dan rendah untuk menyelesaikan tugas dengan lebih berhasil dan dengan langkah yang lebih sedikit.

Hal ini juga mencakup faktor pembusukan yang mendukung jalur misi yang lebih pendek dan efisien. Pendekatan ini menghindari pemberian imbalan berlebihan yang hanya berguna bagi agen yang sudah kompeten dan mendukung panduan perencanaan yang lebih umum.

Kompatibel dengan dealer dan model saat ini

Bagan EAGLET dirancang bersifat modular dan "pasang dan mainkan," Artinya, ini dapat dimasukkan ke dalam saluran proxy yang ada tanpa harus melatih ulang eksekutornya.

Dalam evaluasinya, skema ini meningkatkan kinerja di berbagai model dasar, termasuk GPT-4.1, GPT-5, Llama-3.1, dan Qwen2.5.

Ini juga terbukti efektif terlepas dari strategi stimulasinya, bekerja dengan baik dengan perintah standar gaya ReAct serta metode seperti Reflexion.

Performa mutakhir di seluruh tolok ukur

EAGLET telah diuji pada tiga tolok ukur yang banyak digunakan untuk tugas agen jangka panjang: ScienceWorld, yang mensimulasikan eksperimen ilmiah dalam lingkungan laboratorium berbasis teks; ALFWorld, yang menugaskan agen untuk menyelesaikan aktivitas rumah tangga melalui bahasa alami di lingkungan simulasi rumah; dan WebShop, yang menilai perilaku yang diarahkan pada tujuan dalam antarmuka belanja online yang realistis.

Di ketiga domain tersebut, agen implementasi yang dilengkapi EAGLET mengungguli agen implementasi non-perencanaan dan baseline perencanaan lainnya, termasuk MPO dan KnowAgent.

Dalam eksperimen yang dilakukan pada model Llama-3.1-8B-Instruct open source, EAGLET meningkatkan kinerja rata-rata dari 39,5 menjadi 59,4, peningkatan sebesar +19,9 poin di seluruh tugas.

Dalam skenario ScienceWorld yang belum terlihat, kinerja meningkat dari 42,2 menjadi 61,6.

Dalam skenario yang dilihat oleh ALFWorld, EAGLET meningkatkan skor dari 22,9 menjadi 54,3, peningkatan kinerja lebih dari 2,3x.

Peningkatan yang lebih kuat terlihat pada model yang lebih mumpuni.

Misalnya, GPT-4.1 meningkat dari rata-rata 75,5 menjadi 82,2 dengan EAGLET, dan GPT-5 meningkat dari 84,5 menjadi 88,1, meskipun performanya sudah kuat.

Pada beberapa benchmark, peningkatan performa mencapai +11,8 poin, seperti saat menggabungkan EAGLET dengan metode port ETO dalam misi tak terlihat ALFWorld.

Dibandingkan dengan dasar perencanaan lainnya seperti MPO, EAGLET secara konsisten memberikan tingkat penyelesaian tugas yang lebih tinggi. Misalnya, dalam tugas tak terlihat ALFWorld menggunakan GPT-4.1, MPO mencapai 79,1, sementara EAGLET mencetak 83,6 – keunggulan +4,5 poin.

Selain itu, makalah ini menunjukkan bahwa agen yang menggunakan EAGLET rata-rata menyelesaikan tugas dalam langkah yang lebih sedikit. Menggunakan GPT-4.1 sebagai port, jumlah hop rata-rata menurun dari 13,0 (tanpa skema) menjadi 11,1 (EAGLET). Dengan GPT-5, angkanya menurun dari 11,4 menjadi 9,4, yang mendukung klaim peningkatan efisiensi implementasi.

Peningkatan efisiensi dalam pelatihan dan implementasi

Dibandingkan dengan metode berbasis RL seperti GiGPO, yang memerlukan ratusan iterasi pelatihan, EAGLET mencapai hasil yang lebih baik atau sebanding dengan sekitar seperdelapan upaya pelatihan.

Efisiensi ini juga diterapkan pada eksekusi: agen yang menggunakan EAGLET biasanya memerlukan lebih sedikit langkah untuk menyelesaikan tugas. Hal ini berarti berkurangnya waktu inferensi dan penghitungan biaya dalam skenario produksi.

Belum ada hukum umum

Pada versi yang dikirimkan ke arXiv, penulis belum merilis implementasi EAGLET open source. Tidak jelas apakah atau kapan kode tersebut akan dirilis, di bawah lisensi apa, atau bagaimana kode tersebut akan dipelihara, yang mungkin membatasi kegunaan kerangka kerja ini untuk penerapan di perusahaan dalam waktu dekat.

VentureBeat telah menghubungi penulis untuk mengklarifikasi poin-poin ini dan akan memperbarui artikel ini ketika kami mendengarnya kembali.

Masih ada pertanyaan mengenai penerapan di tingkat perusahaan

Meskipun skema ini digambarkan sebagai perangkat lunak plug-and-play, masih belum jelas apakah EAGLET dapat dengan mudah diintegrasikan ke dalam kerangka agen perusahaan populer seperti LangChain atau AutoGen, atau apakah memerlukan tumpukan khusus untuk mendukung pemisahan eksekusi skema.

Demikian pula, pengaturan pelatihan memanfaatkan beberapa agen implementasi, yang mungkin sulit untuk direplikasi di lingkungan perusahaan dengan akses terbatas terhadap model tersebut. VentureBeat bertanya kepada para peneliti apakah metode penyaringan konsensus dapat diadaptasi untuk tim yang hanya memiliki akses ke model pelaksana tunggal atau sumber daya komputasi yang terbatas.

Para penulis EAGLET melaporkan keberhasilan di seluruh jenis dan ukuran model, namun belum diketahui skala model minimum yang layak untuk penerapan praktis. Misalnya, dapatkah tim perusahaan menggunakan skema dengan model terbuka subparameter 10B secara efektif di lingkungan yang sensitif terhadap latensi? Selain itu, kerangka kerja ini dapat memberikan nilai spesifik industri di berbagai bidang seperti dukungan pelanggan atau otomatisasi TI, namun masih harus dilihat betapa mudahnya skema ini dapat disesuaikan atau disesuaikan untuk sektor-sektor tersebut.

Perencanaan waktu nyata versus perencanaan yang dibuat sebelumnya

Pertanyaan terbuka lainnya adalah bagaimana EAGLET diterapkan dengan baik dalam praktik. Haruskah perencana waktu nyata bekerja bersama pelaksana dalam satu lingkaran, atau lebih baik menggunakannya secara offline untuk membuat rencana global terlebih dahulu untuk jenis tugas yang diketahui? Setiap pendekatan mempunyai implikasi terhadap waktu akses, biaya, dan kompleksitas operasional. VentureBeat telah mengajukan pertanyaan ini kepada penulis dan akan melaporkan kembali setiap ide yang muncul.

Pertukaran strategis untuk tim perusahaan

Bagi para pemimpin teknis di organisasi menengah hingga besar, EAGLET mewakili bukti konsep yang meyakinkan untuk meningkatkan keandalan dan efisiensi agen LLM. Namun tanpa alat atau pedoman implementasi yang umum, kerangka kerja ini masih memberikan keputusan membangun versus menunggu. Perusahaan harus mempertimbangkan potensi keuntungan dalam kinerja dan efisiensi tugas dibandingkan dengan biaya untuk mereproduksi atau memperkirakan proses pelatihan internal.

Kasus penggunaan potensial di lingkungan perusahaan

Untuk organisasi yang mengembangkan sistem AI yang efektif — terutama di lingkungan yang memerlukan perencanaan berjenjang, seperti otomatisasi TI, dukungan pelanggan, atau interaksi online — EAGLET menawarkan model cara menggabungkan perencanaan tanpa pelatihan ulang. Kemampuannya untuk menjalankan model sumber terbuka dan tertutup, ditambah dengan pendekatan pelatihan yang efisien, dapat menjadikannya titik awal yang menarik bagi tim yang ingin meningkatkan kinerja agen dengan overhead minimal.

Tautan sumber

Continue Reading
Click to comment

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Berita

Teknologi baru “Pemikiran Markovian” membuka jalan menuju pemikiran AI dengan jutaan simbol

Published

on

Para peneliti di Mila telah mengusulkan teknik baru yang membuat model linguistik besar (LLM) jauh lebih efisien ketika melakukan inferensi kompleks. Bernama pemikiran Markovian,Pendekatan ini memungkinkan LLM untuk terlibat dalam penalaran yang berkepanjangan tanpa menimbulkan biaya komputasi yang mahal yang saat ini membatasi tugas-tugas tersebut.

Implementasi tim, sebuah lingkungan yang disebut Delethink, membangun rantai inferensi menjadi potongan-potongan berukuran tetap, memecahkan masalah penskalaan yang mengganggu respons LLM yang sangat panjang. Perkiraan awal menunjukkan bahwa untuk model parameter 1,5 miliar, metode ini dapat mengurangi biaya pelatihan lebih dari dua pertiga dibandingkan pendekatan standar.

Kutukan kuadrat dari inferensi string panjang

Agar LLM dapat memecahkan masalah yang kompleks, Anda sering kali perlu membuat rantai panjang token “berpikir” perantara, yang sering disebut sebagai rantai penalaran (CoT). Dalam beberapa tahun terakhir, para peneliti telah menemukan bahwa penggunaan… Pembelajaran penguatan (RL) untuk melatih model guna menghasilkan CoT yang lebih panjang (terkadang disebut sebagai LongCoT) yang sangat meningkatkan kemampuan penalaran mereka.

Namun, cara standar untuk melakukan hal ini memiliki kelemahan serius: kecerdasan buatan "negara" (Vektor ditambah semua kode logika yang dihasilkan sejauh ini dalam pemrosesannya) bertambah seiring dengan setiap kode logika baru. Untuk berbicara Model berbasis transformatorArtinya, biaya komputasi akan melonjak secara kuadrat seiring bertambahnya panjang rantai penalaran, sehingga menjadi sangat mahal untuk melatih model pada tugas-tugas yang sangat kompleks.

Sebagian besar upaya saat ini untuk mengelola biaya ini berfokus pada membatasi jumlah pemikiran yang dilakukan model, yang secara implisit lebih memilih solusi yang lebih singkat atau mengakhiri proses lebih awal. Meskipun metode ini memberikan sedikit bantuan, para peneliti MILAA masih bekerja dalam kerangka LongCoT dan oleh karena itu pada dasarnya berkomitmen pada sifat kuadratnya.

Daripada mencoba mengendalikan pertumbuhan aritmatika, Mila menciptakan lingkungan RL yang menghindari masalah kuadrat sama sekali. Seperti yang dijelaskan oleh rekan penulis Amir Hossein Kazeminejad, tujuannya adalah untuk mengaktifkan kemampuan seperti berpikir multi-minggu dan penemuan ilmiah. "Sistem ini (dan RL yang diperlukan untuk mengaktifkan kemampuan tersebut) tidak didukung oleh model LongCoT saat ini, karena biaya komputasi kuadrat," Dia berkata.

Pikirkan sebagian dengan Delethink

Solusi yang ditemukan para peneliti adalah model yang mereka sebut "pemikir Markovian" Model ini beralasan sambil menjaga ukuran jendela konteks inferensinya tetap konstan. Ide dasarnya adalah mengubah pengaturan RL kelas "Berapa lama model berpikir?" dari "Jumlah konteks yang perlu diproses." Jika dilakukan dengan benar, pemikir Markovian akan mengubah masalah pertumbuhan kuadrat menjadi komputasi linier dan kebutuhan memori konstan untuk inferensi LLM.

Para peneliti mempraktikkan model ini melalui Delethink, yang memaksa model untuk mempertimbangkan serangkaian potongan berukuran tetap, seperti 8,000 token sekaligus. Dalam setiap bagian, model membuat kesimpulan seperti biasanya, menggunakan mekanisme perhatian klasik. Namun ketika mencapai potongan maksimum, lingkungan akan mengatur ulang konteksnya, membuat prompt baru yang menyertakan kueri asli ditambah permintaan singkat "meneruskan" Dari bagian sebelumnya. Misalnya, relai dapat berupa beberapa kode terakhir dari bagian CoT sebelumnya atau ringkasan hasil yang paling penting.

Penataan ulang masalah ini memaksa model untuk belajar bagaimana memasukkan ringkasan kemajuannya, atau "keadaan Markovian tekstual," Pada tahap ini terus memikirkan bagian selanjutnya. Hal ini mengatasi kekhawatiran umum mengenai apakah model dapat mengingat detail penting dari langkah sebelumnya.

Menurut Kazemnejad, model mempelajari apa yang harus diingatnya. "Dengan pelatihan…model dipaksa untuk belajar bagaimana melanjutkan dalam situasi kritis," Dia menjelaskan. Dia menambahkan klarifikasi penting untuk penggunaan praktis: vektor masukan asli, termasuk dokumen atau data kontekstual yang ditambahkan ke dalamnya, tidak diubah. “Pendekatan kami menargetkan fase inferensi dan tidak mengubah vektor." Dia berkata.

Hapus pemikiran tentang pekerjaan

Untuk menguji pendekatan mereka, para peneliti melatih R1-Distill-1.5B dengan Delethink pada kumpulan data soal matematika tingkat kompetisi, kemudian mengevaluasinya berdasarkan beberapa tolok ukur. Model ini dilatih untuk mempertimbangkan hingga 24.000 token tetapi dengan batas tetap sebesar 8.000 token.

Peneliti Bandingkan ini dengan model yang dilatih menggunakan metode LongCoT-RL standar. Temuan mereka menunjukkan bahwa model yang dilatih dengan Delethink dapat menganalisis hingga 24,000 token, menyamai atau melampaui model LongCoT yang dilatih dengan anggaran yang sama yaitu 24,000 token berdasarkan standar matematika. Dalam tugas lain seperti pertanyaan tingkat pemrograman dan PhD, Delethink juga menyamai atau sedikit mengalahkan LongCoT. “Secara keseluruhan, hasil ini menunjukkan bahwa Delethink menggunakan kode penalarannya seefektif LongCoT-RL dengan pengurangan komputasi,” tulis para peneliti.

Manfaatnya menjadi lebih nyata ketika anggaran pelatihan diperluas. Meskipun model yang dilatih dengan LongCoT dengan cepat mencapai batas pelatihannya, model yang dilatih dengan Delethink terus meningkatkan performanya. Misalnya, beberapa masalah matematika tidak dapat diselesaikan hingga model tersebut menguraikan hingga 140.000 simbol, jauh melebihi anggaran pelatihan sebesar 24.000 simbol. Fitur komputasi linier ini sangat bagus untuk aplikasi perusahaan. Para peneliti memperkirakan bahwa melatih model dengan panjang pemikiran rata-rata 96.000 simbol akan memerlukan 27 bulan H100-GPU dengan LongCoT, dibandingkan hanya 7 bulan dengan Delethink.

Efisiensi ini meluas langsung ke inferensi, yang merupakan biaya operasional utama bagi sebagian besar organisasi. "Model yang dilatih dengan penalaran Markovian menggunakan heuristik yang sama (hapus pelacakan) selama waktu pengujian, yang memberikan manfaat yang sama dari aritmatika linier dan memori persisten setelah pelatihan." kata Kazemnejad. Dia memberikan contoh praktis: agen AI bisa melakukan hal itu "Debug basis kode yang besar dan pikirkan untuk waktu yang lama…yang tentu saja mengurangi biaya secara signifikan dibandingkan dengan pendekatan LongCoT tradisional."

Menariknya, para peneliti menemukan bahwa model inferensi yang sudah jadi, bahkan tanpa pelatihan khusus apa pun, memang menunjukkan kemampuan bernalar dengan cara Markovian. Temuan ini mempunyai implikasi praktis langsung bagi pengembang. "Dalam praktiknya, ini berarti – tanpa Delethink-RL – model ini benar-benar dapat menjalankan lingkup pelacakan delethink dan bekerja secara kompetitif dengan LongCoT pada tugas benchmark kami," kata Kazemnejad.

Pengalaman mereka dengan model yang lebih besar seperti GPT-OSS 120B Tunjukkan kinerja yang kuat dengan Delethink di berbagai tugas kompleks. Kemampuan bawaan ini memberikan titik awal yang kuat untuk pelatihan RL, yang membantu menjelaskan mengapa metode ini sangat efektif. “Secara keseluruhan, hasil ini menunjukkan bahwa Delethink kompatibel dan konsisten dengan model tercanggih,” para peneliti menyimpulkan.

Keberhasilan pemikiran Markovian menunjukkan bahwa hal ini mungkin dilakukan "Model berpikir generasi penerus untuk berpikir dalam jutaan simbol," Catatan peneliti. Hal ini membuka pintu bagi kemampuan AI yang secara fundamental baru, melampaui keterbatasan yang ada saat ini.

"Pemikiran Markovian…membuka jalan bagi model-model yang dapat “berpikir” dalam jangka waktu yang sangat panjang, yang kami anggap sebagai langkah penting menuju penemuan ilmiah pada akhirnya," kata Kazemnejad. "Pendekatan kami menghilangkan hambatan besar dan memungkinkan pelatihan untuk misi jangka panjang, sehingga memungkinkan kemampuan generasi berikutnya."

Tautan sumber

Continue Reading

Berita

Para pejabat mengatakan tersangka ditangkap setelah mobilnya menabrak barikade Gedung Putih

Published

on

baruAnda sekarang dapat mendengarkan artikel Fox News!

Seorang tersangka ditangkap Selasa malam setelah dia menabrakkan mobilnya ke barikade Gedung Putih, menurut Dinas Rahasia.

“Pada hari Selasa, 21 Oktober, sekitar pukul 22.37, seseorang mengemudikan kendaraannya menuju gerbang kendaraan Dinas Rahasia yang terletak di Jalan 17 dan E, Northwest D.C.,” kata juru bicara Dinas Rahasia dalam sebuah pernyataan.

Pernyataan itu menambahkan: “Orang tersebut segera ditangkap oleh petugas dari divisi resmi Dinas Rahasia AS, dan kendaraan tersebut dievaluasi oleh Dinas Rahasia dan Departemen Kepolisian Metropolitan dan dianggap aman.”

Trump rayakan pembongkaran Gedung Putih saat ballroom baru dibuka: ‘Musik di telinga saya’

Sebuah kendaraan terlihat setelah menabrak penghalang keamanan di kompleks Gedung Putih pada 21 Oktober 2025, di Washington, D.C. (Andrew Leyden/Getty Images)

Juru bicara tersebut menambahkan bahwa informasi tambahan akan diberikan setelah penyelidikan selesai.

Hillary Clinton membuat marah para pemilih karena tidak membangun ballroom di Gedung Putih untuk Trump: ‘Itu bukan rumahnya’

Sebuah mobil menabrak penghalang Gedung Putih

Sebuah mobil menabrak pembatas Gedung Putih pada 21 Oktober 2025, di Washington, DC (dan itu datang)

KLIK DI SINI UNTUK MENDAPATKAN APLIKASI FOX NEWS

DC Fire dan EMS mengonfirmasi kepada Fox News bahwa mereka membantu Dinas Rahasia dalam penyelidikan dan kemudian mulai membersihkan tempat kejadian.

Tautan sumber

Continue Reading

Berita

Pengalaman AI Studio baru dari Google memungkinkan siapa pun membuat dan memublikasikan aplikasi secara langsung hanya dalam hitungan menit

Published

on

Google AI Studio baru saja mendapatkan peningkatan pemrograman besar-besaran dengan antarmuka, tombol, saran, dan fitur komunitas baru yang memungkinkan siapa saja yang memiliki ide untuk sebuah aplikasi — bahkan pemula, orang awam, atau non-pengembang seperti Anda — untuk mewujudkannya dan memublikasikannya langsung ke web agar siapa pun dapat menggunakannya dalam beberapa detik. menit.

Tab Build yang diperbarui kini tersedia di ai.studio/buildDan memulainya gratis.

Pengguna dapat mencoba membuat aplikasi tanpa harus memasukkan informasi pembayaran terlebih dahulu, meskipun beberapa fitur lanjutan seperti Veo 3.1 dan penerapan Cloud Run memerlukan kunci API berbayar.

Bagi saya, fitur-fitur baru ini menjadikan model dan penawaran AI Google lebih kompetitif, dan mungkin lebih disukai, bagi banyak pengguna umum dibandingkan dengan pesaing startup AI seperti Claude Code dari Anthropic dan Codex OpenAI, yang masing-masing "Pengodean suasana" Produk terfokus yang disukai pengembang – namun tampaknya memiliki hambatan masuk yang lebih tinggi atau mungkin memerlukan lebih banyak pengetahuan teknis.

Awal Baru: Mode Build yang Didesain Ulang

Tab Build yang diperbarui berfungsi sebagai titik masuk ke pemrograman dinamis. Ini memperkenalkan desain dan alur kerja baru di mana pengguna dapat memilih rangkaian model dan fitur AI Google untuk mendukung aplikasi mereka. Standarnya adalah Gemini 2.5 Pro, yang bagus untuk sebagian besar situasi.

Setelah pilihan dibuat, pengguna cukup menjelaskan apa yang ingin mereka bangun, dan sistem secara otomatis merakit komponen yang diperlukan menggunakan API Gemini.

Mode ini mendukung kemampuan pencampuran seperti Nano Banana (model AI yang ringan), Veo (untuk pemahaman video), Gambar (untuk pembuatan gambar), Senter (untuk inferensi yang meningkatkan kinerja), dan Google Penelusuran.

Patrick Loeber, hubungan pengembang di Google DeepMind, menyoroti bahwa pengalaman ini bertujuan untuk membantu pengguna “meningkatkan aplikasi mereka dengan AI” menggunakan jalur klaim aplikasi yang sederhana.

Dalam demo video yang dia posting

Dari prompt hingga produksi: Konstruksi dan pengeditan waktu nyata

Setelah aplikasi dibuat, pengguna mengakses editor yang sepenuhnya interaktif. Di sebelah kiri, terdapat antarmuka bantuan kode tradisional tempat pengembang dapat mengobrol dengan model AI untuk mendapatkan bantuan atau saran. Di sebelah kanan, editor kode sumber lengkap menampilkan aplikasi.

Setiap komponen, seperti titik masuk React, panggilan API, atau file desain, dapat diedit secara langsung. Tooltip membantu pengguna memahami fungsi setiap file, yang khususnya berguna bagi mereka yang kurang paham dengan TypeScript atau kerangka kerja front-end.

Aplikasi dapat disimpan ke GitHub, diunduh secara lokal, atau dibagikan secara langsung. Dapat diterapkan dalam lingkungan studio atau melalui Cloud Run jika diperlukan penskalaan atau hosting tingkat lanjut.

Inspirasi sesuai permintaan: tombol “Saya merasa beruntung”.

Salah satu fitur penting dalam pembaruan ini adalah tombol “Saya Beruntung”. Dirancang untuk pengguna yang membutuhkan kreativitas, ini menghasilkan konsep aplikasi acak dan mengonfigurasi pengaturan aplikasi yang sesuai. Setiap edisi menghasilkan ide berbeda, lengkap dengan fitur dan komponen AI yang disarankan.

Contoh yang dihasilkan selama demonstrasi meliputi:

  • Chatbot interaktif berbasis peta yang didukung oleh Google Penelusuran dan AI percakapan.

  • Dream Garden Designer menggunakan alat pembuatan dan perencanaan gambar tingkat lanjut.

  • Sebuah aplikasi game dengan host AI yang dapat dipilih pengguna, mengintegrasikan Imagine dan Flashlight dengan Gemini 2.5 Pro untuk percakapan dan berpikir.

Logan Kilpatrick, kepala produk di Google AI Studio dan Gemini AI, mencatat dalam video demonya bahwa fitur tersebut mendorong penemuan dan eksperimen.

“Anda mendapatkan pengalaman yang sangat keren dan berbeda,” katanya, menekankan perannya dalam membantu pengguna menemukan ide-ide baru dengan cepat.

Tes praktis: Dari klaim hingga penerapan dalam 65 detik

Untuk menguji alur kerja baru, saya meminta Gemini untuk:

Aplikasi web pelemparan dadu acak di mana pengguna dapat memilih antara ukuran dadu umum (6 sisi, 10 sisi, dll.) dan kemudian melihat animasi pelemparan dadu dan juga memilih warna dadu.

Dalam waktu 65 detik (lebih dari satu menit), AI Studio mengembalikan aplikasi web yang berfungsi penuh Termasuk:

  • Pemilih ukuran dadu (d4, d6, d8, d10, d12, d20)

  • Opsi penyesuaian warna yang menarik

  • Efek bergulir animasi dengan hasil acak

  • Antarmuka pengguna yang bersih dan modern dibuat dengan React, TypeScript, dan Tailwind CSS

Platform ini juga membuat satu set lengkap file terstruktur, termasuk App.tsx, konstanta.ts, dan komponen terpisah untuk logika dan kontrol dadu.

Setelah dibuat, mudah untuk mengulanginya: menambahkan efek suara untuk setiap interaksi (menggulung, memilih dadu, mengubah warna) hanya memerlukan satu tindak lanjut dari asisten bawaan. Gemini juga menyarankan hal ini.

Dari sana, aplikasi dapat dipratinjau secara langsung atau diekspor menggunakan kontrol bawaan untuk:

  • Simpan ke GitHub

  • Unduh basis kode lengkap

  • Salin proyek untuk di-remix

  • Penerbitan melalui alat terintegrasi

Pengujian singkat saya menunjukkan betapa cepatnya bahkan aplikasi utilitas kecil dapat beralih dari ide menjadi prototipe interaktif—tanpa meninggalkan browser atau menulis kode boilerplate secara manual.

Peningkatan dan peningkatan fitur yang disarankan oleh AI

Selain pembuatan kode, Google AI Studio kini menawarkan saran fitur peka konteks. Dihasilkan oleh kemampuan Senter Gemini, rekomendasi ini menganalisis aplikasi saat ini dan menyarankan perbaikan yang relevan.

Dalam satu contoh, sistem menyarankan penerapan fitur yang menampilkan riwayat foto yang dibuat sebelumnya di tab Photo Studio. Peningkatan berulang ini memungkinkan pembuat untuk memperluas fungsionalitas aplikasi dari waktu ke waktu tanpa memulai dari awal.

Kilpatrick menekankan bahwa pengguna dapat terus meningkatkan proyek mereka seiring berjalannya waktu, melalui kombinasi pembuatan otomatis dan modifikasi manual. “Anda dapat masuk dan terus mengubah dan meningkatkan pengalaman yang Anda inginkan secara berulang,” katanya.

Kebebasan untuk memulai dan fleksibilitas untuk berkembang

Pengalaman baru ini tersedia gratis bagi pengguna yang ingin mencoba, merancang, membuat prototipe, atau membuat aplikasi ringan. Tidak perlu memasukkan informasi kartu kredit untuk mulai menggunakan pengkodean getaran.

Namun, kemampuan yang lebih canggih — seperti menggunakan model seperti Veo 3.1 atau memublikasikan melalui Cloud Run — memerlukan peralihan ke kunci API berbayar.

Struktur penetapan harga ini bertujuan untuk menurunkan hambatan masuk untuk bereksperimen sambil memberikan jalur yang jelas untuk melakukan ekspansi bila diperlukan.

Dirancang untuk semua tingkat keahlian

Salah satu tujuan utama peluncuran Vibe Coding adalah membuat pengembangan aplikasi AI dapat diakses oleh lebih banyak orang. Sistem ini mendukung alat pembuatan visual tingkat tinggi dan pengeditan kode tingkat rendah, sehingga menciptakan alur kerja yang dapat digunakan oleh pengembang di seluruh tingkat pengalaman.

Kilpatrick menyatakan bahwa meskipun dia lebih akrab dengan Python daripada TypeScript, dia masih menganggap editor ini berguna karena deskripsi file yang berguna dan tata letaknya yang intuitif.

Fokus pada kemudahan penggunaan ini dapat menjadikan AI Studio pilihan menarik bagi pengembang yang mengeksplorasi AI untuk pertama kalinya.

Lebih banyak lagi yang akan datang: Seminggu peluncuran

Peluncuran kode getaran adalah yang pertama dari serangkaian pengumuman yang diharapkan sepanjang minggu ini. Meskipun fitur spesifik masa depan belum terungkap, Kilpatrick dan Looper telah mengisyaratkan bahwa pembaruan tambahan sedang dalam proses.

Dengan pembaruan ini, Google AI Studio memposisikan dirinya sebagai lingkungan yang fleksibel dan mudah digunakan untuk membuat aplikasi yang didukung AI, baik untuk kesenangan, pembuatan prototipe, atau penerapan produksi. Fokusnya jelas: menjadikan kekuatan API Gemini tersedia tanpa kerumitan yang tidak perlu.

Tautan sumber

Continue Reading

Trending