Berita
Suara emotif AI startup hume meluncurkan model baru untuk EVI 3 dengan suara berdedikasi cepat
Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut
Kantor pusatnya AI Startup Hume telah meluncurkan model AI terbaru untuk antarmuka suara simpatik (EVI)EVI 3 (Evee “tiga, seperti Pokémon), dan menargetkan segala sesuatu mulai dari operasi sistem dukungan pelanggan dan pelatihan kesehatan hingga novel cerita yang luar biasa dan persahabatan virtual.
EVI 3 memungkinkan pengguna untuk membuat suara mereka sendiri dengan berbicara dengan model (ini adalah suara untuk jaring/pidato untuk pidato), dan bertujuan untuk menetapkan standar baru untuk alam, ekspresi dan “simpati” sesuai dengan apa itu, yaitu bagaimana pengguna melihat pemahaman model untuk emosi mereka dan kemampuannya untuk bertentangan atau mengendalikan tanggapannya sendiri, dalam hal nada dan pemilihan kata.
EVI 3, perancang perusahaan, pengembang dan pencipta, dirancang pada model audio rumah sebelumnya dengan memberikan alokasi yang lebih maju, respons yang lebih cepat, dan peningkatan pemahaman emosional.
Pengguna individu dapat berinteraksi dengannya hari ini Hume’s Live di situs webnya Dan aplikasi iOS, tetapi dikatakan bahwa kedatangan pengembang melalui antarmuka aplikasi Hume (API) tersedia dalam “minggu -minggu mendatang”, sebagai a Posting blog dari perusahaan Negara
Pada titik ini, pengembang akan dapat memasukkan EVI 3 dalam sistem layanan pelanggan mereka, proyek kreatif mereka atau asisten yang jelas – untuk harga (lihat di bawah).
Saya mengizinkan saya untuk menggunakan untuk mengklarifikasi penciptaan suara buatan baru yang didedikasikan dalam hitungan detik berdasarkan kualitas yang saya jelaskan – campuran kehangatan, kepercayaan diri, dan nada pria. Berbicara dengannya tampak lebih alami dan mudah daripada model kecerdasan buatan lainnya, dan tentu saja stok suara dari para pemimpin teknologi lama seperti Apple dengan Siri dan Amazon dengan Alexa.
MelakukanAnda harus mengenal pengembang dan perusahaan tentang EVI 3
Hume EVI 3 dirancang untuk serangkaian penggunaan dari layanan pelanggan dan dalam aplikasi untuk membuat konten dalam buku dan permainan audio.
Pengguna diizinkan untuk menentukan karakteristik kepribadian yang akurat, karakteristik vokal, nada emosional dan topik percakapan.
Ini berarti bahwa ia dapat menghasilkan apa pun dari bukti simpatik yang hangat hingga busa dan narator yang berbahaya – hingga permintaan seperti “nyamuk yang sangat berbisik dengan aksen Prancis tentang rencananya untuk mencuri keju dari dapur.”
EVI 3 adalah kekuatan dasar dari kemampuannya untuk mengintegrasikan kecerdasan emosional secara langsung ke dalam eksperimen berbasis suara.
Tidak seperti chatbots tradisional atau asisten vokal yang sangat bergantung pada reaksi berbasis teks atau teks, EVI 3 beradaptasi dengan bagaimana orang berbicara secara normal di stadion, pasien, berhenti, dan poni vokal untuk membuat percakapan yang lebih menarik, dan manusia.
Namun, model Hume yang saat ini kurang – yang disajikan oleh open source dan pesaing kepemilikan, seperti ElevenLabs – adalah kloning suara, atau salinan suara pengguna atau orang lain yang identik dengan cepat, seperti CEO perusahaan.
Namun, Hume telah mengindikasikan bahwa ia akan menambahkan kemampuan seperti teks atau model Octav ke kata -kata, karena disebut “segera hadir” di Hume di web, dan laporan sebelumnya telah menemukan kepada perusahaan bahwa itu akan memungkinkan pengguna untuk mengulangi suara dari kurang dari lima detik suara.
Hume menyatakan bahwa ia menentukan prioritas jaminan dan pertimbangan moral sebelum fitur ini tersedia secara luas. Saat ini, kloning ini tidak dapat tersedia di EVI itu sendiri, karena Hume menekankan alokasi suara yang fleksibel sebagai gantinya.
Standar internal pengguna muncul lebih suka EVI 3 daripada formulir audio GPT-4O Openai
Menurut Tes Khusus Hume dengan 1720 pengguna, EVI 3 lebih disukai pada GPT-4O OpenAI di setiap kategori evaluasi: alam, ekspresi, simpati, pemrosesan gangguan, kecepatan respons, kualitas suara, modifikasi suara/pola, dan pemahaman emosi atas permintaan (fitur dicakup “atas permintaan”.
Juga, biasanya diasumsikan melampaui keluarga model Google Gemini dan open source baru AI Model Perusahaan AI Dari mantan penulis Oculus yang berpartisipasi, Brendan Iribe.
Ini juga mencakup lebih sedikit waktu transmisi (sekitar 300 mililiter), dukungan multi -bahasa yang kuat (Inggris dan Spanyol, dengan lebih banyak bahasa yang akan datang), dan suara tanpa batas tanpa batas. Hume juga menulis di situs webnya (lihat tangkapan layar di bawah):
Kemampuan utama meliputi:
- Generasi kali Teks ekspresif untuk berbicara dengan amandemen.
- MemboikotMengakhiri aliran percakapan yang dinamis.
- Alokasi suara dalam percakapanSehingga pengguna dapat menyesuaikan pola berbicara yang sebenarnya.
- API Siap Arsitektur (Segera), sehingga pengembang dapat mengintegrasikan EVI 3 langsung ke dalam aplikasi dan layanan.
Harga dan mencapai pengembang
Hume menawarkan harga berbasis harga yang fleksibel melalui EVI, Octave TTS dan API untuk mengukur ekspresi.
Sementara antarmuka pemrograman aplikasi EVI 3 belum diumumkan (itu ditandai dengan nama TBA), polanya menunjukkan bahwa itu akan digunakan, dengan diskon untuk lembaga untuk buletin besar.
Untuk kembali ke sana, harga EVI 2 adalah $ 0,072 per menit – 30 % lebih rendah dari pendahulunya, EVI 1 ($ 0,102/menit.
Untuk pencipta dan pengembang yang bekerja dengan proyek teks ke kata -kata, rencana Hume’s Octave TTS berkisar dari lapisan gratis (10.000 surat pidato, sekitar 10 menit suara) hingga rencana di tingkat institusi. Ini adalah keruntuhannya:
- bebas: 10.000 surat, suara kustom tanpa batas, $ 0 bulanan
- awal: 30.000 surat (sekitar 30 menit), 20 proyek, $ 3 per bulan
- pencipta: 100.000 huruf (sekitar 100 menit), 1000 proyek, penggunaan berdasarkan penggunaan (0,20/1000 dolar), $ 10 per bulan
- Profesional: 500.000 huruf (sekitar 500 menit), 3000 proyek, tambahan 0,15/1000 dolar, $ 50/bulan
- ukuran: 2.000.000 huruf (sekitar 2000 menit), 10.000 proyek, tambahan 0,13/1000 dolar, 150 dolar per bulan
- pekerjaan: 10.000.000 huruf (sekitar 10.000 menit), 20.000 proyek, tambahan 0,10/1.000 dolar, 900 dolar per bulan
- proyek: Harga khusus dan penggunaan tanpa batas
Untuk pengembang yang bekerja pada waktu atau analisis emosional yang sebenarnya, Hume juga memberikan gaji karena merencanakan $ 20 dalam kredit gratis dan tidak ada kewajiban yang diberikan. Pelanggan perusahaan berukuran besar dapat memilih rencana lembaga khusus yang ditandai dengan lisensi untuk pengumpulan data, solusi lokal, integrasi yang dialokasikan, dan dukungan lanjutan.
Sejarah Hume dalam model kecerdasan buatan emosional
Didirikan pada tahun 2021 oleh Alan Quinn, mantan Google DeepMind, Hume bertujuan untuk menjembatani kesenjangan antara perbedaan emosional manusia dan interaksi diri.
Perusahaan melatih model -modelnya pada kumpulan data yang diperluas yang berasal dari ratusan ribu peserta di seluruh dunia – tidak hanya berbicara dan teks, tetapi juga struktur suara dan ekspresi wajah.
“Kecerdasan emosional termasuk kemampuan untuk menyimpulkan niat dan preferensi dari perilaku. Ini adalah inti dari apa yang coba dicapai oleh fasad AI,” kata Queen kepada VentureBeat. Tugas Hume adalah membuat fasad kecerdasan buatan lebih responsif, manusia, dan pada akhirnya lebih berguna – apakah itu membantu pelanggan untuk bergerak dalam aplikasi atau narasi cerita dengan campuran drama dan humor yang benar.
Pada awal 2024, perusahaan meluncurkan EVI 2, yang memberikan 40 % lebih sedikit dari jintan dan 30 % harga dibandingkan dengan EVI 1, bersama dengan fitur -fitur baru seperti kustomisasi audio dinamis dan Holocaust.
Februari 2025 menyaksikan kemunculan Octave untuk pertama kalinya, mesin teks dengan kata -kata konten konten yang mampu mengendalikan emosi pada tingkat kalimat dengan teks teks.
Dengan EVI 3 sekarang untuk eksplorasi praktis dan akses penuh API, hanya sekitar sudut, Hume berharap untuk memungkinkan pengembang dan pencipta untuk membayangkan kembali apa yang mungkin terjadi dengan suara AI.
Tautan sumber