Berita

Apakah perusahaan baru yang baru -baru ini hilang telah menghilang untuk menguraikan keandalan agen kecerdasan buatan lembaga? Pelajari AUI-1 AUI-1

Published

2 minggu ago

Oktober 7, 2025

Wadi Wibowo

Selama lebih dari satu dekade, kecerdasan buatan berjanji kepada penyelidik dengan asisten serupa manusia yang dapat melakukan lebih dari sekadar mengobrol. Namun, bahkan dengan mempelajari model linguistik besar (LLM) seperti chatgpt, Gemini dan Claude bagaimana berpikir, menjelaskan dan memprogram, salah satu kelompok interaksi penting tetap tanpa batas besar – yang dapat menyelesaikan tugas untuk orang -orang dengan andal untuk orang -orang Karena mengobrol.

sampai Model kecerdasan buatan terbaik hanya direkam Persentase ketiga puluh di bangku terminal padat, Ini adalah standar referensi yang berafiliasi dengan entitas eksternal yang dirancang untuk mengevaluasi kinerja agen kecerdasan buatan saat menyelesaikan berbagai tugas berbasis browser, dan jauh lebih rendah daripada keandalan yang dibutuhkan oleh sebagian besar lembaga dan pengguna. Dan kriteria penting yang penting Seperti tau-bench, Yang mengukur Keandalan agen kecerdasan buatan untuk menemukan penerbangan dan memesannya Atas nama pengguna, Anda juga tidak memiliki tingkat keberhasilan yang jauh lebih tinggi, dengan Hanya 56% untuk agen dan model adalah kinerja terbaik (Claude 3.7 Sonata) – berarti agen gagal dalam waktu sekitar setengah dari waktu.

Itu berbasis di New York City AUI INC.Berpartisipasi dalam pendiriannya Ond al -helou Dan Uri CohenDia percaya bahwa dia akhirnya mencapai solusi untuk meningkatkan keandalan agen kecerdasan buatan ke tingkat yang sebagian besar perusahaan dapat percaya bahwa mereka akan melakukan apa yang diminta dari mereka, dan andal.

Fondasi baru untuk perusahaan dipanggil Apollo-1 – yang tetap dalam inspeksi dengan laboratorium pertama sekarang, tetapi dekat dengan publikasi umum yang akan segera terjadi – berdasarkan prinsip yang ia sebut Logika saraf simbolik negara.

Itu adalah struktur hibrida yang bahkan mendukungnya Skeptis tentang llm seperti gary marcusDirancang untuk memastikan hasil yang konsisten dan kompatibel dengan politik dalam setiap interaksi dengan pelanggan.

“Kecerdasan buatan dari percakapan itu terutama menjadi dua,” kata Elhelo dalam sebuah wawancara baru -baru ini dengan VentureBeat. “Babak pertama – dialog terbuka – diperlakukan dengan indah oleh LLMS. Ini telah dirancang untuk penggunaan kreatif atau eksplorasi. Setengah lainnya adalah dialog yang diarahkan ke tugas, karena selalu ada tujuan khusus di balik percakapan. Setengah ini tetap tanpa solusi karena memerlukan kepastian.”

AUI didefinisikan tentu Seperti perbedaan antara agen yang melakukan tugas “mungkin” dan agen yang hampir dilakukan oleh “selalu”.

Misalnya, aktif Maskapai penerbangan tau-bench, mencapai tingkat keberhasilan yang luar biasa hingga 92,5%Meninggalkan semua pesaing lain saat ini sangat terbelakang dalam debu – sesuai dengan standar umum dengan ventureBeat dan Diposting di AUI.

Elhelo memberikan contoh -contoh sederhana: Bank yang harus memaksakan verifikasi identitas dari jumlah yang dipulihkan lebih dari $ 200, atau maskapai penerbangan yang harus selalu memberikan promosi kepada pengusaha sebelum kelas ekonomi.

Dia berkata, “Ini bukan preferensi.” “Mereka adalah persyaratan. Tidak ada pendekatan generasi murni yang dapat memberikan jenis kepastian perilaku ini.”

AUI telah dibahas dan bekerja untuk meningkatkan keandalan terlebih dahulu melalui port berita berlangganan InformasiTetapi dia belum menerima liputan luas di media yang tersedia untuk umum – sejauh ini.

Dari pola pencocokan ke prosedur yang diharapkan

Tim berpendapat bahwa model Transformers, berdasarkan desain mereka, tidak dapat memenuhi kondisi ini. Model bahasa besar menghasilkan teks yang masuk akal, bukan perilaku yang dijamin. “Ketika Anda meminta Master of Business Administration untuk selalu menyediakan asuransi sebelum pembayaran, ia biasanya melakukannya,” kata Elhelo. “Buat Apollo -1 dengan aturan ini, dan itu akan melakukannya – setiap saat.”

Dia mengatakan perbedaan ini berasal dari arsitektur yang sama. Transformers memprediksi simbol berikutnya. Sebaliknya, Apollo-1 memprediksi Prosedur berikut Dalam percakapan, Anda mengerjakan apa yang Anda sebut AUI a Simbolisme tertulis.

Cohen menjelaskan gagasan itu dengan istilah yang lebih teknis. Dia berkata: “Simbolisme gugup berarti bahwa kita mengintegrasikan model dominan.” “Lapisan simbolis memberi Anda – ia tahu apa niat, entitas dan guru – sementara lapisan saraf memberi Anda kelancaran bahasa. Pemikir simbolis saraf duduk di antara mereka. Ini adalah jenis otak yang berbeda untuk dialog.”

Di mana Transformers menangani semua output sebagai generasi teks, Apollo-1 menjalankan episode pemikiran tertutup: perangkat enkripsi menerjemahkan bahasa alami menjadi keadaan simbolik, mesin status mempertahankan kondisi ini, mesin keputusan menentukan prosedur berikut, diimplementasikan oleh skema, dan perangkat kecerobohan mengubah hasilnya lagi menjadi bahasa. “Prosesnya diulang,” kata Cohen. “Diulangi sampai tugas selesai. Dengan cara ini dia menjadi tidak bisa dihindari daripada probabilitas.”

Model dasar untuk tugas

Tidak seperti robot obrolan tradisional atau sistem otomatisasi yang disesuaikan, Apollo-1 bertujuan untuk berfungsi sebagai Dasar Untuk dialog yang diarahkan ke tugas – satu sistem yang tidak memiliki bidang yang dapat disiapkan untuk layanan perbankan, perjalanan, ritel atau asuransi melalui apa yang Anda sebut AUI Sistem.

Elhelo berkata: “Sistem ini bukan file formasi.” “Ini adalah kontrak perilaku. Anda menentukan dengan tepat bagaimana agen Anda harus bertindak dalam situasi yang menarik, dan Apollo-1 menjamin implementasi perilaku ini.”

Lembaga dapat menggunakan router untuk mengenkripsi bukaan simbolik – tujuan, parameter dan kebijakan – di samping batas -batas alat dan aturan berdasarkan kasus.

Misalnya, aplikasi pengiriman makanan dapat memaksakan “jika alergi disebutkan, restoran selalu diinformasikan”, sedangkan pasokan telekomunikasi dapat ditentukan “setelah tiga upaya pembayaran yang gagal, tunda layanan.” Dalam kedua kasus, perilaku tersebut diimplementasikan pasti, bukan secara statistik.

Delapan tahun dalam Membuat

AUI Road to Apollo-1 dimulai pada tahun 2017, ketika tim mulai mengenkripsi jutaan percakapan nyata yang diarahkan pada tugas-tugas yang ditangani oleh kekuatan manusia yang terdiri dari 60.000 orang.

Karya ini menyebabkan bahasa simbolis yang mampu memisahkan Dial pengetahuan Langkah, Pembatasan dan Aliran – Dari Pengetahuan deskriptif Seperti entitas dan atribut.

Al -Helou berkata: “Idenya adalah bahwa dialog yang diarahkan pada tugas memiliki pola prosedural global.” “Memberikan makanan, memperlakukan klaim, dan mengelola semua permintaan berbagi struktur yang serupa. Setelah ini dirancang secara eksplisit, Anda pasti dapat menghitungnya.”

Dari sana, perusahaan membangun pemikir simbolik saraf, sebuah sistem yang menggunakan kasus simbolik untuk menentukan apa yang akan terjadi setelah itu alih -alih menebak melalui prediksi simbolik.

Kriteria menunjukkan bahwa arsitektur membuat perbedaan nyata.

Dalam penilaian Universitas AUI, Apollo-1 telah mencapai lebih banyak 90 persen Selesaikan tugas sesuai dengan standar τ-bench-airline, dibandingkan dengan 60 persen Claude-4.

Selesai 83 persen Dari pembicaraan reservasi langsung di Google Flights untuk 22 persen Untuk Gemini 2.5-flash dan 91 persen Skenario ritel di Amazon di seberang 17 persen Untuk rovos.

“Ini bukan perbaikan bertahap,” kata Cohen. “Ini adalah perbedaan yang dapat diandalkan dalam ukuran.”

Pelengkap, bukan pesaing

AUI tidak mempromosikan Apollo-1 sebagai alternatif dari model bahasa besar, tetapi sebagai mitra yang diperlukan. Dalam kata-kata Elhelo: “Transformers meningkatkan kemungkinan kreatif. Apollo-1 meningkatkan kepastian perilaku. Bersama-sama, serangkaian kecerdasan buatan dari percakapan itu bersama-sama.”

Model ini sudah berjalan dalam versi eksperimental terbatas dengan perusahaan Fortune 500 yang belum diluncurkan di seluruh sektor termasuk pembiayaan, perjalanan, dan ritel.

AUI juga mengkonfirmasi a Kemitraan Strategis dengan Google Dan rencana untuk Ketersediaan umum pada bulan November 2025Ketika membuka API pemrograman fasad (API), mengeluarkan dokumen lengkap, menambahkan kemampuan suara dan gambar. Pelanggan dan mitra potensial yang tertarik dapat berlangganan informasi lebih lanjut saat itu Ini tersedia di situs web AUI University.

Sampai saat itu, perusahaan akan menyimpan detail untuk melipat kerahasiaan. Ketika ditanya tentang apa yang akan terjadi setelah itu, dia tersenyum manis. Dia berkata, “Katakan saja kita hanya bahwa kita sedang mempersiapkan iklan.” “hampir.”

Menuju pembicaraan yang beroperasi

Terlepas dari semua pengembangan teknisnya, penawaran Apollo -1 sederhana: menciptakan kecerdasan buatan yang dapat dipercaya oleh perusahaan untuk bekerja – bukan hanya berbicara. “Kami sedang dalam misi untuk memberikan karakter demokratis untuk mencapai kecerdasan buatan yang sukses,” kata Cohen mendekati akhir wawancara.

Masih melihat apakah Apollo-1 akan menjadi standar baru untuk dialog yang diarahkan pada tugas. Tetapi jika struktur AUI bekerja seperti yang dijanjikan, maka kesenjangan jangka panjang antara obrolan yang tampaknya manusia dan agen yang melakukan pekerjaan manusia yang dapat diandalkan dapat dimulai pada akhir fading.

Tautan sumber

ridlwan.com

Berita

Apakah perusahaan baru yang baru -baru ini hilang telah menghilang untuk menguraikan keandalan agen kecerdasan buatan lembaga? Pelajari AUI-1 AUI-1

Dari pola pencocokan ke prosedur yang diharapkan

Model dasar untuk tugas

Delapan tahun dalam Membuat

Pelengkap, bukan pesaing

Menuju pembicaraan yang beroperasi

Leave a Reply

Leave a Reply

Trending

Dari pola pencocokan ke prosedur yang diharapkan

Model dasar untuk tugas

Delapan tahun dalam Membuat

Pelengkap, bukan pesaing

Menuju pembicaraan yang beroperasi

Leave a Reply Batalkan balasan

Leave a Reply

Trending

Leave a Reply