Berita

Suara kecerdasan buatan yang sudah dikonversi: model TTS baru meningkatkan penjualan 15 % untuk merek utama

Published

on

Bergabunglah dengan acara bahwa para pemimpin lembaga telah dipercaya selama hampir dua dekade. VB Transform menggabungkan orang yang membangun strategi AI untuk institusi nyata. Pelajari lebih lanjut


Mendapatkan suara bukan hanya retina dan akurat, tetapi juga beragam Itu masih merupakan konflik dalam AI untuk percakapan.

Pada akhirnya, orang ingin mendengar suara yang terlihat seperti atau setidaknya alami, tidak hanya standar penyiaran Amerika di abad kedua puluh.

Mulai Pelek Tantangan ini ditangani dengan Arcana Text to-Ticech (TTS), model bahasa lisan yang dapat dengan cepat menghasilkan suara “tak berujung” baru dari kedua jenis kelamin, beragam usia, bahasa dan bahasa yang hanya bergantung pada deskripsi teks sederhana dari karakteristik yang dimaksud.

Model ini membantu meningkatkan penjualan pelanggan – untuk Domino dan Wingstop – 15 %.

“Ini adalah satu hal yang Anda miliki model berkualitas tinggi, mirip dengan kehidupan, dan orang sungguhan mengatur,” Lili Clifford, CEO Rime dan Co -Founder, mengatakan kepada VentureBeat. “Ini adalah hal lain bahwa Anda memiliki model yang hanya dapat membuat satu suara, tetapi variasi tanpa akhir untuk suara di sepanjang garis demografis.”

Model suara “pria berperilaku”

Model Multimedia TTS dan tekanan otomatis pada percakapan alami telah dilatih dengan orang sungguhan (tidak seperti aktor vokal). Pengguna cukup menulis deskripsi yang diarahkan ke teks dengan karakteristik suara dan demografis yang diperlukan.

Misalnya: “Saya ingin wanita 30 -tahun yang tinggal di California saat dia berada di perangkat lunak” atau “Beri saya suara seorang pria Australia.”

“Setiap kali Anda melakukannya, Anda akan mendapatkan suara yang berbeda,” kata Kalford.

Model Mist V2 TTS Rime dirancang untuk aplikasi yang besar dan tenang, memungkinkan lembaga untuk merumuskan suara unik dari kebutuhan bisnis mereka. “Pelanggan mendengar suara yang memungkinkan percakapan alami dan dinamis tanpa perlu agen manusia,” kata Kalford.

Bagi mereka yang mencari opsi di luar kotak, pada saat yang sama, Rime menawarkan delapan pengeras suara terkemuka dengan properti unik:

  • Luna (wanita, keren tapi menarik, Gen-Z optimis)
  • Celeste (wanita, hangat, santai, mencintai kesenangan)
  • Orion (pria, lebih tua, Amerika asal Afrika, Saeed)
  • Orca (pria, 20 tahun, pengetahuan musiman emo pada tahun 2000)
  • Astra (wanita, muda, lebar)
  • Esther (wanita, lebih tua, Cina Amerika, cinta)
  • Esteel (wanita, usia paruh baya, Amerika asal Afrika, terlihat sangat manis)
  • Andromeda (wanita, muda, napas, perasaan yoga)

Model ini memiliki kemampuan untuk beralih antar bahasa, dapat dibisikkan, menjadi sarkastik dan bahkan diejek. Arakna juga dapat memasukkan tawa dalam pidato saat memberikan simbol yang khas . Ini dapat mengembalikan berbagai output realistis, dari “tawa kecil teredam hingga berhenti besar,” kata Rime. Itu juga bisa menjelaskan modelnya Dan Bahkan Dengan benar, meskipun dia tidak dilatih secara eksplisit untuk melakukannya.

“Ini menimbulkan emosi dari konteks,” ia menulis rime dalam makalah artistik. “Dia tertawa, menghela nafas, kepeduliannya, bernafas dengan suara yang terdengar dan membuat suara mulut tersembunyi. Dia mengatakan” umm “dan diskriminasi alam lainnya. Dia memiliki perilaku yang muncul yang masih kita temukan. Singkatnya, dia berperilaku manusia.”

Menangkap percakapan alami

Rime menghasilkan kode vokal yang diterjemahkan dalam ucapan menggunakan pendekatan pengkodean, yang mengatakan Rime memberikan “sintesis lebih cepat daripada waktu nyata.” Saat diluncurkan, waktu untuk Audio Pertama mencapai 250 milidetik, dan waktu cloud publik adalah sekitar 400 mililiter.

Arkan telah dilatih dalam tiga tahap:

  • Pra -Pelatihan: Rime menggunakan model bahasa open source besar sebagai kolom eksternal dan pra -pelatihan pada sekelompok besar pasangan teks untuk membantu mempelajari pola linguistik dan audio publik.
  • Dikondisikan untuk mengawasi dengan pengumpulan data kerajaan “besar”.
  • Penyempurnaan Pembicara Khusus: Rime memilih pengeras suara yang ia temukan “yang paling sempurna” antara pengumpulan data, percakapan, dan keandalan.

Data rime termasuk teknik percakapan sosial linguistik (kolaborasi dalam konteks sosial seperti kelas, jenis kelamin, lokasi), idioilek (kebiasaan bicara individu) dan nuansa linguistik (aspek komunikasi non -verbal yang kompatibel dengan ucapan).

Model ini juga telah dilatih tentang detail halus dari aksen, kata -kata pengisian (“Uhs”, “uhs” dan “UMS”) serta berhenti sementara, dan pola stres tambahan (intonasi, waktu, penekanan pada beberapa klip logis) dan mengubah kode multi -bahasa (ketika multi -speaker turning ganti ganti -gulung).

Perusahaan mengikuti pendekatan unik untuk mengumpulkan semua data ini. Kalford menjelaskan bahwa, model pembangun biasanya mengumpulkan kutipan dari aktor vokal, kemudian membuat formulir untuk mereproduksi karakteristik orang tersebut berdasarkan pengenalan teks. Atau, mereka akan menyingkirkan data buku buku audio.

“Pendekatan kami benar -benar berbeda,” jelasnya. “Itu, bagaimana kita membuat koleksi data kerajaan terbesar dalam pidato percakapan?”

Untuk melakukan ini, Rime membangun studio pendaftarannya di QIMU di San Francisco dan menghabiskan beberapa bulan untuk mempekerjakan orang -orang Craigslist, melalui wanita mulut, atau berkumpul sendiri, teman -teman mereka dan keluarga mereka. Alih -alih percakapan teks, mereka merekam percakapan alami dan obrolan.

Kemudian mereka menjelaskan suara dengan data definisi terperinci, pengkodean seks, usia, aksen, dan efek bicara dan bahasa. Rime ini memungkinkan resolusi 98 hingga 100 %.

Kalford mengindikasikan bahwa mereka terus meningkatkan pengumpulan data ini.

Dia berkata, “Bagaimana kita membuatnya terlihat pribadi? Anda tidak akan pernah sampai di sana jika Anda hanya menggunakan aktor vokal,” katanya. “Kami benar -benar telah melakukan hal yang sulit dalam mengumpulkan data alami. Saus besar Rime adalah bahwa ini bukan aktor. Ini adalah orang -orang nyata.”

“Sukses untuk Alokasi”, yang menciptakan suara terperinci

Rime berencana memberi pelanggan kemampuan untuk menemukan suara yang akan bekerja lebih baik untuk menerapkannya. Mereka membangun alat “kustomisasi” untuk memungkinkan pengguna menguji A/B dengan suara yang berbeda. Setelah reaksi spesifik, API melaporkan ke Rime, yang menyediakan panel informasi analitik yang mendefinisikan kinerja terbaik berdasarkan standar keberhasilan.

Tentu saja, pelanggan memiliki definisi yang berbeda tentang panggilan yang sukses. Dalam layanan makanan, ini mungkin dijual untuk meminta kentang goreng atau sayap tambahan.

“Tujuan kami adalah bagaimana membuat aplikasi yang memudahkan pelanggan kami untuk melakukan eksperimen ini sendiri?” Kata Kalford. “Karena pelanggan kami bukan manajer vokal, kami tidak. Tantangannya menjadi bagaimana membuat lapisan analisis pelanggan ini benar -benar intuitif.”

Indikator kinerja utama lainnya pelanggan meningkatkan kesediaan penelepon untuk berbicara dengan kecerdasan buatan. Mereka menemukan bahwa ketika beralih ke Rime, penelepon lebih cenderung berbicara dengan robot.

“Untuk pertama kalinya, orang -orang seperti,” Tidak, Anda tidak perlu mentransfer saya. Saya benar -benar siap untuk berbicara dengan Anda.

Jalankan 100 juta panggilan per bulan

Rime dianggap sebagai salah satu pelanggannya Domino, Wingstop, Convert Now dan Yloopo. Keleford mencatat bahwa banyak pekerjaan melakukan banyak pekerjaan dengan pusat komunikasi yang besar, dan pengembang kelembagaan yang membangun sistem respons audio interaktif (IVR).

“Ketika kami beralih ke Rime, kami melihat peningkatan segera dalam dua angka dalam kemungkinan panggilan kami.” “Bekerja dengan Rime berarti kami memecahkan banyak masalah kemiringan terakhir yang tampaknya membebankan aplikasi yang sangat berpengaruh.”

CPO Yolopo GE Juefeng mengindikasikan bahwa untuk penerapan perusahaan yang sangat diterbitkan, mereka perlu membangun kepercayaan langsung dengan konsumen. “Kami menguji setiap model di pasar dan menemukan bahwa suara Rime mengubah pelanggan ke tingkat tertinggi,” katanya.

Keleford mengatakan Rime sudah membantu hampir 100 juta panggilan telepon per bulan. Dia berkata: “Jika Anda memanggil Domino’s atau Wingstop, ada peluang dari 80 hingga 90 % untuk mendengar suara Rime.”

Melihat masa depan, Rime akan mendorong lebih banyak ke penawaran lokal untuk mendukung jintan rendah. Bahkan, mereka mengharapkan ini, pada akhir 2025, 90 % dari ukurannya akan diimplementasikan. “Alasannya adalah bahwa Anda tidak akan pernah cepat jika Anda menjalankan model -model ini di cloud,” kata Kalford.

Juga, Rime terus menyesuaikan modelnya untuk mengatasi tantangan linguistik lainnya. Misalnya, frasa yang tidak pernah ditemui model, seperti lidah besar Domino. Seperti yang ditunjukkan Keleford, bahkan jika suara itu berdedikasi dan alami dan merespons dalam waktu yang sebenarnya, itu akan gagal jika ia tidak dapat menangani kebutuhan unik perusahaan.

“Masih ada banyak masalah yang pesaing kami melihat masalah dalam mil terakhir, tetapi pelanggan kami melihat masalah di mil pertama,” kata Kalford.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version