Berita
Model visi cohere baru yang bekerja pada unit pemrosesan grafis, melampaui VLM kelas pertama atas tugas visual
Ingin lebih banyak visi yang cerdas dari kotak masuk Anda? Berlangganan buletin mingguan kami untuk mendapatkan apa yang hanya terkait dengan lembaga AI, data dan pemimpin keamanan. Berlangganan sekarang
Fitur penelitian mendalam yang tinggi dan analisis yang didukung kecerdasan buatan lainnya telah membuat lebih banyak model dan layanan yang ingin menyederhanakan proses ini dan membaca lebih banyak dokumen yang sudah digunakan perusahaan.
Perusahaan Kecerdasan Buatan Kanada berpadu Itu ditempatkan pada modelnya, termasuk model visual yang baru dirilis, untuk menunjukkan bahwa fitur pencarian yang dalam juga harus ditingkatkan untuk digunakan lembaga.
Perusahaan telah merilis perusahaan, model visual yang digunakan oleh institusi yang menargetkan, berdasarkan bagian belakang masalahnya. Perusahaan mengatakan bahwa model parameter adalah 112 miliar yang dapat “membuka visi data visual yang berharga, dan mengambil keputusan yang sangat akurat yang bergantung pada data dengan mengidentifikasi OCR dan analisis gambar,” kata perusahaan.
Perusahaan mengatakan: “Apakah itu menjelaskan buklet produk dengan rencana kompleks atau menganalisis gambar adegan dunia nyata untuk mendeteksi risiko, visi tersebut melebihi perlakuan tantangan yang paling menuntut bagi lembaga,” kata perusahaan itu. Di posting blog.
AI Impact Series kembali ke San Francisco – 5 Agustus
Tahap selanjutnya dari kecerdasan buatan di sini – apakah Anda siap? Bergabunglah dengan para pemimpin dari Block, GSK dan SAP untuk mengambil tampilan eksklusif tentang cara memulai kembali agen independen dari tugas alur kerja yayasan-dari keputusan dalam waktu yang sebenarnya untuk otomatisasi komprehensif.
Mengamankan tempat Anda sekarang – ruang terbatas: https://bit.ly/3guPlf
Ini berarti bahwa visi dapat membaca dan menganalisis jenis gambar yang paling umum yang dibutuhkan oleh lembaga: grafik, grafik, rencana, dokumen yang dipindai dan PDF.
Karena didasarkan pada perintah A, perintah A memerlukan melihat dua atau kurang dari unit pemrosesan grafis, seperti model teks. Model visi juga mempertahankan kemampuan teks pada A untuk membaca kata -kata pada gambar dan memahami setidaknya 23 bahasa. Cohere mengatakan bahwa, tidak seperti model lain, visi tersebut mengurangi total biaya kepemilikan lembaga dan sepenuhnya ditingkatkan untuk kasus pengambilan.
Bagaimana mengajarkan masalah ini
Cohere mengatakan itu mengikuti a Arsitektur LLAV Untuk membangun modelnya, termasuk model visual. Struktur ini mengubah fitur visual menjadi simbol penglihatan lembut, yang dapat dibagi menjadi ubin yang berbeda.
Perusahaan mengatakan bahwa ubin ini diteruskan ke menara teks, “parameter padat, 111b.” Dengan cara ini, satu gambar mengonsumsi hingga 3328 simbol. “
Kwaidle mengatakan bahwa ia melatih model visual dalam tiga tahap: menyelaraskan bahasa visi, subjek kontrol (SFT) dan belajar untuk memperkuat setelah pelatihan dengan komentar manusia (RLHF).
Perusahaan mengatakan: “Pendekatan ini memungkinkan penunjukan fitur enkripsi foto ke area yang mencakup model bahasa.” “Sebaliknya, selama tahap SFT, kami melatih yang dikodekan pada satu waktu, transformator penglihatan dan model bahasa pada berbagai tugas multimedia untuk pendidikan.”
Bayangkan AI
Tes standar menunjukkan bahwa visi melebihi model lain dengan kemampuan visual yang sama.
Colle Compet Command Vision Against OpenaiGPT 4.1, MatiHubungi 4 Mafrick, kesalahanPixtral besar dan salah 3 dalam sembilan tes standar. Perusahaan tidak menyebutkan apakah telah menguji model terhadap antarmuka pemrograman aplikasi mistral yang berfokus pada OCR, OCR Mistral.
Visi ini melampaui model lain dalam tes seperti ChartQA, Ocrbench, AI2D dan TextVQA. Secara umum, visibilitas mencapai 83,1 % dibandingkan dengan GPT 4.1 78,6 %, dan Llama 4 Maverkk 80,5 % dan 78,3 % dari Medium Mistral 3.
Sebagian besar model LLMS hari ini adalah multimedia, yang berarti mereka dapat membuat atau memahami media visual seperti gambar atau video. Namun, lembaga umumnya menggunakan lebih banyak dokumen grafis seperti grafik dan PDF, sehingga mengekstraksi informasi dari sumber data yang tidak terstruktur sering terbukti sulit.
Dengan penelitian yang mendalam di High, pentingnya membawa model yang mampu membaca dan menganalisis data yang tidak terorganisir dan bahkan mengunduhnya.
Cohere juga mengatakan bahwa mereka memberikan kepemimpinan dalam sistem bobot terbuka, berharap bahwa perusahaan yang ingin pindah dari model tertutup atau kepemilikan akan mulai menggunakan produk mereka. Sejauh ini, ada beberapa perhatian dari pengembang.
Tautan sumber