Berita

NVIDIA meluncurkan salinan sumber terbuka sepenuhnya dari TDT-0.B-V2 Pond

Published

on

Bergabunglah dengan buletin harian dan mingguan untuk mendapatkan pembaruan terbaru dan konten eksklusif untuk meliput kecerdasan buatan terkemuka di industri ini. Pelajari lebih lanjut


Itu menjadi nvidia Salah satu perusahaan paling berharga di dunia Dalam beberapa tahun terakhir, berkat pasar saham, jumlah permintaan untuk unit pemrosesan grafis (GPU) diperhatikan. Chip yang kuat dibuat nvidia yang digunakan untuk menyediakan grafik dalam video game, dan juga semakin, untuk melatih model bahasa dan menerbitkan Amnesty International.

Tapi Nvidia tidak lebih dari sekadar membuat perangkat, tentu saja, dan program untuk menjalankannya. Mempertimbangkan era kecerdasan buatan truc, Santa Clara Company juga telah meluncurkan lebih banyak model kecerdasan buatan yang paling sering terjadi dan gratis untuk para peneliti dan pengembang untuk mengambil, mengunduh, memodifikasi, dan menggunakannya secara komersial dan terbaru Pakeet-TDT-0.6B-V2Model Pengenalan Otomatis (ASR) Wajah Vaibhav “VB” Srivastav, “Salin 60 menit suara dalam satu detik (pikiran emoji).

Ini adalah generasi baru NVIDIA, yang pertama kali meluncurkan Niqab pada Januari 2024 dan diperbarui lagi April tahun ituTapi versi kedua ini sangat kuat, karena saat ini memimpin Perwujudan wajah terbuka ASR Dengan rata -rata “tingkat kesalahan lantai” (kali model ini salah menyalin kata yang diucapkan) hanya 6,05 % (dari 100).

Untuk menempatkannya dalam perspektif yang benar, ia mendekati model cadangan seperti OpenAI GPT-4O Trecribe (dengan 2,46 % dalam bahasa Inggris) dan Elevenlabs Scribe (3,3 %).

Ini menyediakan semua ini sambil mempertahankan secara bebas tersedia di bawah pemegang saham komersial CC -BY -44 Lisensi Rumor KreatifYang menjadikannya proposal yang menarik untuk lembaga komersial dan pengembang indie yang ingin membangun layanan pidato dan penyalinan dalam permintaan berbayar mereka.

Kinerja standar dan berdiri

Model ini mencakup 600 juta guru dan meningkatkan campuran struktur inti FastConformer dan TDT.

Ia dapat menyalin satu jam suara hanya dalam satu detik, asalkan dimainkan pada perangkat Nvidia yang disukai GPU.

Standar kinerja diukur dalam RTFX (faktor waktu aktual) dari 3386.02 dengan ukuran 128 batch, dan ditempatkan di bagian atas kriteria ASR saat ini yang dijaga oleh wajah yang dianut.

Menggunakan kasus dan ketersediaan

PARAKEET-TDT-0.6B-V2 dirilis di seluruh dunia pada 1 Mei 2025, dan bertujuan untuk pengembang, peneliti dan tim industri untuk membangun aplikasi seperti layanan penyalinan, ajudan suara, generator sub-terjemahan, dan platform kecerdasan buatan untuk percakapan.

Model ini mendukung tanda baca, menggambar, dan timeline tingkat waktu, menyediakan paket salinan lengkap untuk berbagai kebutuhan pidato untuk teks.

Akses dan penerbitan

Pengembang dapat mempublikasikan model menggunakan grup Nemo Tools dari NVIDIA. Proses persiapan kompatibel dengan Python dan Pytorch, dan model dapat digunakan secara langsung atau disita untuk tugas -tugas lapangan.

Lisensi Open Source (CC -BY -44) juga memungkinkan penggunaan komersial, membuatnya menarik bagi perusahaan dan lembaga yang sedang berkembang.

Data Pelatihan dan Pengembangan Model

PARAKEET-TDT-0.B-V2 telah dilatih dalam kelompok besar dan besar yang disebut kumpulan data lumbung. Ini termasuk sekitar 120.000 jam suara bahasa Inggris, dan terdiri dari 10.000 jam data berkualitas tinggi yang ditransfer oleh manusia dan 110.000 jam pidato palsu.

Sumber berkisar dari koleksi data terkenal seperti Librispeech, Mozilla Commune ke YouTube-Commons dan LibriLight.

NVIDIA berencana untuk menemukan pengumpulan data lumbung secara umum setelah menampilkannya di Interspeech 2025.

Evaluasi dan daya tahan

Model ini dievaluasi melalui beberapa kriteria ASR dalam bahasa Inggris, termasuk AMI, RETKERS22, Gigaspeede dan Spgispeed, dan menunjukkan kinerja melingkar yang kuat. Itu tetap kuat di bawah berbagai kondisi kebisingan dan memimpin dengan baik bahkan dengan format suara yang mirip dengan panggilan telepon, dengan hanya kerusakan sederhana dalam laju sinyal ke noise.

Kompatibilitas dan efisiensi perangkat

Parkit-TDT-0.B-V2 telah ditingkatkan untuk lingkungan GPU NVIDIA, dukungan untuk perangkat seperti panel A100, H100, T4 dan V100.

Meskipun kinerja unit pemrosesan grafis -end tinggi meningkat secara maksimal, masih dimungkinkan untuk memuat model pada sistem dengan kurang dari 2 GB RAM, yang memungkinkan skenario penerbitan yang lebih luas.

Pertimbangan etis dan penggunaan yang bertanggung jawab

NVIDIA mencatat bahwa model ini dikembangkan tanpa menggunakan data pribadi dan mematuhi kerangka kerja kecerdasan buatan yang bertanggung jawab.

Meskipun tidak ada langkah -langkah khusus yang diambil untuk mengurangi bias demografis, model telah melewati standar kualitas internal dan mencakup dokumen terperinci tentang proses pelatihan, kumpulan data, dan kepatuhan dengan privasi.

Dia menarik perhatian dari pembelajaran mesin dan masyarakat open source, terutama setelah secara publik menyoroti media sosial. Komentator mencatat kemampuan model untuk mengungguli alternatif komersial ASR dengan kelangsungan hidup sumber terbuka yang sepenuhnya dan digunakan secara komersial.

Pengembang yang tertarik untuk mencoba model dapat mencapainya Sulaman Atau melalui koleksi Nevidia Nemo Tools. Instruksi instalasi, program tekstual eksperimental dan arah integrasi tersedia dengan mudah untuk memfasilitasi eksperimen dan penerbitan.


Tautan sumber

Leave a Reply

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Trending

Exit mobile version