Berita
Beyond von Neuman: Menuju struktur yang tak terhindarkan terpadu
Alternatif yang akurat untuk perjalanan spekulasi-numerik dan terselubung, dan matriks matriks
Selama lebih dari setengah abad, komputasi mengandalkan Dari Newman Atau model Harvard. Hampir setiap chip modern – unit pemrosesan pusat, unit pemrosesan grafis dan bahkan banyak akselerator khusus – berasal dari desain ini. Seiring waktu, seperti struktur baru Kata pendidikan yang sangat panjang (VLIW), prosesor aliran data dan GPU telah ditawarkan untuk memproses kemacetan kinerja tertentu, tetapi tidak ada yang memberikan alternatif komprehensif untuk model yang sama. Pendekatan baru yang disebut Implementasi yang tak terhindarkan Ini menentang situasi saat ini. Alih -alih secara dinamis menebak pedoman yang dioperasikan setelah itu, ia menentukan setiap proses yang cermat di tingkat kursus, membuat jadwal prediktif untuk implementasi. Ini memungkinkan satu prosesor untuk menyatukan akun numerik dan header dan pemrosesan matriks kedua beban kerja untuk AI umum dan padat tanpa mengandalkan akselerator terpisah.
Akhir dari menebak
Dalam implementasi dinamis, kesulitan instruksi di masa depan, mengirim pekerjaan di luar pengaturan dan menurun ketika prediksi salah. Ini menambah kompleksitas, hilang dan dapat menampilkan kesenjangan keamanan. Implementasi yang tak terhindarkan sepenuhnya menghilangkan spekulasi. Semua instruksi memiliki pembukaan waktu tetap dan penyesuaian sumber daya, yang memastikan bahwa mereka dikeluarkan persis dalam kursus yang benar. Mekanisme di balik ini adalah matriks sumber daya waktu: kerangka penjadwalan yang mengatur sumber daya akun, memori dan kontrol dari waktu ke waktu. Ini sangat mirip dengan operasi jadwal kereta api, dan operasi orbit dan matriks bergerak melalui jaringan akun simultan tanpa pipa atau kios sengketa.
Mengapa AI Institute Concern
Beban karya AI Enterprise AI mendorong cokelat ke perbatasannya. Unit pemrosesan grafis produktif besar menawarkan kekuatan dan konflik yang luar biasa dengan kemacetan memori. Unit pemrosesan pusat memberikan fleksibilitas, tetapi mereka tidak memiliki paralel dengan alasan dan pelatihan modern. Solusi berganda sering menawarkan klip waktu, sinkronisasi dan fragmentasi program. Dalam karya besar beban kecerdasan buatan, kelompok data tidak dapat cocok untuk cache, dan prosesor harus ditarik langsung dari DRAM atau HBM. Dibutuhkan ratusan kursus, meninggalkan unit fungsional dalam ketidakaktifan dan energi pembakaran. Jalur pipa tradisional diberikan kepada semua akreditasi, yang meningkatkan kesenjangan kinerja antara produktivitas teoritis dan pengiriman. Implementasi yang tak terhindarkan mengatasi tantangan ini dengan tiga cara penting. Pertama, ini menyediakan struktur terpadu di mana kerja sama tujuan publik dan percepatan kecerdasan buatan pada satu segmen, menghilangkan pengeluaran umum perubahan antara unit. Kedua, ini memberikan kinerja prediktif melalui implementasi kursus yang cermat, yang membuatnya ideal untuk aplikasi sensitif untuk melanjutkan seperti kesimpulan besar (LLM), deteksi penipuan dan otomatisasi industri. Akhirnya, ini mengurangi konsumsi energi dan sidik jari fisik dengan menyederhanakan logika kontrol, yang pada gilirannya diterjemahkan menjadi area yang lebih kecil yang mati dan penggunaan energi rendah. Tepat dengan memprediksi kapan data akan mencapai – apakah dalam 10 kursus atau 200 – implementasi yang tak terhindarkan dapat menjadi instruksi yang bergantung pada pembukaan di kursus yang benar di masa mendatang. Ini mengubah waktu kedatangan dari bahaya menjadi acara yang dapat dijadwalkan, yang membuat unit implementasi benar -benar digunakan dan menghindari utas besar dan biaya isolasi umum yang digunakan oleh unit pemrosesan grafis atau chip VLIW khusus. Dalam karya -karya karya yang dirancang, desain seragam ini memberikan produktivitas yang sama dengan perangkat akselerator cepat saat mengoperasikan kode tujuan umum, memungkinkan satu prosesor peran yang biasanya dibagi antara CPU dan unit pemrosesan grafis. Adapun tim penerbitan LLM, ini berarti bahwa server inferensi dapat ditangkap dengan jaminan kinerja yang tepat. Untuk manajer infrastruktur data, ini memberikan satu target untuk akun yang ditetapkan dari perangkat tepi ke rak cloud tanpa menulis ulang program utama.
Perbandingan antara struktur iPhone Neuman tradisional dan implementasi yang tak terhindarkan. Gambar yang dibuat oleh penulis.
Inovasi arsitektur utama
Implementasi yang tak terhindarkan dilakukan pada banyak teknik pemberdayaan. Matriks Sumber Daya Waktu menerbitkan sumber daya dan memori akun dalam pembukaan waktu tetap. Catatan Phantom memungkinkan setelah batas file pendaftaran material. Gudang sementara vektor dan catatan vektor yang diperbesar memungkinkan memperluas ruang lingkup perlakuan paralel dari kecerdasan buatan. Instruksi untuk memulai kembali gudang sementara yang mengelola perubahan peristiwa untuk AC, tanpa mengandalkan spekulasi. Pasangan pendaftaran ganda dalam arsitektur/pembacaan ganda kapasitas penulisan tanpa hukuman untuk lebih banyak pelabuhan. DRAM menu tunggu langsung ke loader/store di toko, memori mencapai kemampuan untuk mengakses beberapa ruang silikon yang memotong gudang SRAM, biaya dan energi. Dalam nukleus pemodelan AI dan DSP, desain tradisional membuat beban, menunggu pengembalian, lalu lanjutkan – menyebabkan seluruh ketidakaktifan pipa. Saluran pipa dan akun implementasi yang tak terhindarkan yang disetujui secara paralel dimuat, memungkinkan episode yang sama beroperasi tanpa gangguan, dan mengurangi waktu implementasi dan joule untuk setiap proses. Bersama -sama, inovasi -inovasi ini menciptakan mesin aritmatika yang menggabungkan elastisitas CPU dengan produktivitas berkelanjutan dari terburu -buru, tanpa perlu chip terpisah.
Efek dari dimensi kecerdasan buatan
Sementara beban karya kecerdasan buatan adalah penerima manfaat yang jelas, implementasi yang tak terhindarkan memiliki dampak luas pada bidang lain. Sistem keselamatan kritis seperti yang ada di mobil, ruang dan ruang angkasa manfaat dari jaminan waktu yang tak terhindarkan. Sistem analisis waktu yang sebenarnya dalam pembiayaan dan proses diperoleh kemampuan untuk bekerja tanpa gemetar. Platform komputasi tepi dapat bekerja, karena semua watt masalah energi dapat bekerja lebih efisien. Dengan menghilangkan menebak dan penegakan waktu yang diharapkan, sistem berdasarkan pendekatan ini menjadi lebih mudah diverifikasi, lebih aman dan lebih efisien dalam energi.
Efek dari institusi
Untuk institusi yang menyebarkan kecerdasan buatan, efisiensi arsitektur diterjemahkan langsung menjadi keunggulan kompetitif. Implementasi yang tidak memihak dan bebas jintan menyederhanakan perencanaan perencanaan kelompok inferensi LLM, memastikan waktu respons yang konsisten bahkan di bawah beban puncak. Konsumsi energi yang rendah dan mengurangi biaya untuk pengoperasian mengurangi sidik jari silikon, terutama di pusat data besar di mana biaya pendinginan dan energi mendominasi anggaran. Di lingkungan tepi, kemampuan untuk menjalankan berbagai beban kerja mengurangi satu irisan perangkat SKU, mempersingkat jadwal waktu dan mengurangi kompleksitas pemeliharaan.
Jalur ke depan untuk komputasi lembaga
Transisi ke implementasi yang tak terhindarkan tidak hanya terkait dengan kinerja mentah; Ini merupakan pengembalian ke kesederhanaan arsitektur, karena dapat melayani satu segmen beberapa peran tanpa kompromi. Karena kecerdasan buatan meresapi setiap sektor, dari manufaktur hingga keamanan siber, kemampuan untuk mengoperasikan berbagai beban pekerjaan yang diharapkan pada satu struktur akan menjadi keuntungan strategis. Yayasan yang membentuk infrastruktur selama lima tahun ke sepuluh tahun ke depan harus melihat perkembangan ini dengan cermat. Implementasi yang tak terhindarkan memiliki kemampuan untuk mengurangi kompleksitas perangkat, mengurangi biaya energi dan menyederhanakan penyebaran perangkat lunak – dengan memungkinkan kinerja yang konsisten melalui berbagai aplikasi.
Thang Minh Tran adalah arsitek kecil dan penemu lebih dari 180 paten dalam CPU dan desain cepat.