Pendapat

GPT-5 gagal dalam tes hype

Published

2 bulan ago

Agustus 16, 2025

Ina Susanti

Pekan lalu, pada hari peluncuran GPT-5, AI hype berada pada tingkat yang lebih tinggi sepanjang masa.

Dalam briefing pers, CEO OpenAI Sam Altman mengatakan GPT-5 adalah “sesuatu yang saya tidak pernah ingin kembali,” tonggak sejarah yang mirip dengan iPhone pertama dengan layar retina. Malam sebelum siaran langsung, Altman Diposting Gambar bintang kematian, membangun lebih banyak hype. Di X, pengguna dia menulis bahwa antisipasi “terlihat seperti malam Natal”. Semua mata berada di produsen chatgpt, sementara orang -orang di seluruh industri menunggu untuk melihat apakah iklan akan memberikan atau mengecewakan. Dan dengan sebagian besar akun, wahyu besar akan gagal.

Hype untuk model lama baru Openai telah dibangun selama bertahun-tahun untuk meluncurkan GPT-4. Dalam AMA Reddit dengan Altman dan tim Oktober lalu, pengguna terus bertanya pada tanggal peluncuran GPT-5, mencari detail tentang sumber daya mereka dan apa yang akan membedakannya. Seorang reditor bertanya, “Mengapa GPT-5 memakan waktu begitu lama?” Altman menjawab bahwa komputasi adalah batasan dan bahwa “semua model ini cukup rumit dan kami tidak dapat mengirim sebanyak mungkin hal yang kami inginkan.”

Tetapi ketika GPT-5 muncul di ChatGPT, pengguna tidak terkesan. Kemajuan yang cukup besar yang mereka harapkan tampaknya sebagian besar bertahap, dan keuntungan utama model berada di daerah -daerah seperti biaya dan kecepatan. Namun, dalam jangka panjang, ini bisa menjadi taruhan finansial yang solid untuk Openai – meskipun kurang mencolok.

Orang-orang menunggu dunia GPT-5. (Pengguna x Diposting Setelah jabatan Altman’s Death Star, “semua orang mengubah harapan.”) Dan Openai tidak meremehkan proyeksi ini, Memanggil GPT-5 “Sistem AI terbaiknya” dan “lompatan signifikan dalam kecerdasan” dengan “kinerja cutting -edge dalam pengkodean, matematika, penulisan, kesehatan, persepsi visual, dan banyak lagi.” Altman mengatakan dalam briefing pers bahwa berbicara dengan model “tampaknya berbicara dengan ahli tingkat doktoral.”

Hype ini berkontribusi pada kontras yang kuat dengan kenyataan. Model dengan kecerdasan di tingkat doktoral, misalnya, bersikeras Ada tiga “B” di kata blueberry, bagaimana beberapa pengguna media sosial menemukan? Dan saya akan melakukan itu tidak bisa mengidentifikasi Berapa banyak nama negara termasuk surat “r”? Dia akan Rotule salah Peta AS dengan negara -negara yang diciptakan, termasuk “Jefst baru”, “Micann”, “Nakamia Baru”, “Krizona” dan “Miroinia” dan label Nevada sebagai perpanjangan dari California? Orang -orang yang menggunakan bot untuk dukungan emosional menemukan sistem yang keras dan jauh baru, memprotes begitu tinggi sehingga Openai membawa dukungan ke model yang lebih tua. Meme berlimpah – a mewakili GPT-4 dan GPT-4O sebagai naga yang tangguh dengan GPT-5 di sebelahnya sebagai yang sederhana.

Pengadilan Opini Publik Ahli juga belum memaafkan. Gary Marcus, salah satu guru suara terkemuka di AI dan emeritus psikologi di New York University, Disebut model “Tunggu, kelebihan beban dan luar biasa.” Peter Wildford, salah satu pendiri Institut Kebijakan dan Strategi AI, dia menulis Dalam ulasan Anda, “Apakah ini penghancuran besar yang kami cari? Sayangnya, tidak.” Zvi Mowshowitz, blogger industri AI yang populer, menyebutnya “Model yang bagus, tapi tidak bagus.” Redditor di GPT-5 Reddit Resmi AMA dia menulis“Seseorang mengatakan Sam 5 adalah sampah yang panas.”

Pada hari-hari setelah peluncuran GPT-5, serangan kritik yang tidak penting sedikit penting. Konsensus umum adalah bahwa meskipun GPT-5 tidak sama pentingnya dengan uang muka, ia menawarkan pembaruan biaya dan kecepatan, dan lebih sedikit halusinasi, dan sistem sakelar yang menawarkan untuk secara otomatis mengarahkan konsultasi back-end Anda ke model yang paling masuk akal untuk merespons, sehingga Anda tidak harus memutuskan Anda sepanjang hari. Altman bersandar pada narasi itu, menulis“GPT-5 adalah model paling cerdas yang pernah kami lakukan, tetapi hal utama yang kami tekan adalah kegunaan dunia nyata dan aksesibilitas/aksesibilitas massal.”

Peneliti Openi Christina Kim Diposting Dalam X yang dengan GPT-5, “Kisah Nyata adalah kegunaan. Membantu dengan apa yang orang peduli dengan pengiriman uang, penulisan kreatif dan navigasi dalam informasi kesehatan-dengan lebih banyak ketegasan dan lebih sedikit gesekan. Kami juga memotong halusinasi. Ini lebih baik dikalibrasi, kata ‘Saya tidak tahu’, memisahkan fakta dari anggapan dan dapat memindahkan jawaban dengan kutipan ketika Anda menginginkan” “” “”

Ada pemahaman luas bahwa, jujur saja, GPT-5 telah membuat chatgpt kurang fasih. Posting media sosial viral mengeluh bahwa model baru tidak memiliki nuansa dan kedalaman dalam tulisan mereka, menjadi robot dan dingin. Bahkan dalam materi pemasaran GPT-5 itu sendiri, perbandingan berdampingan dari GPT-4O dan GPT-5 pernikahan roti panggang yang dihasilkan oleh GPT-5 tampaknya tidak seperti kemenangan tidak terbuka untuk model baru-saya secara pribadi lebih suka yang ke-4. Saat Altman tanya redditors Jika mereka mengira GPT-5 lebih baik menulis, dia menerima serangan komentar yang membela model GPT-4O yang sudah pensiun; Dalam satu hari, dia setuju dengan tekanan dan setidaknya untuk sementara mengembalikannya ke chatgpt.

Tetapi ada bagian depan di mana model tampaknya lebih bersinar: pengkodean. Iterasi GPT-5 Saat ini di atas Tabel klasifikasi model AI paling populer dalam kategori pengkodean, dengan Claude melakukan antropik tiba di urutan kedua. Promosi peluncuran Openai menunjukkan game yang dihasilkan AI (bola menyusut dan balap kecepatan mengetik), alat seni piksel, simulator baterai dan penampil lofi. Ketika saya mencoba menggetarkan permainan puzzle dengan alat, itu memiliki banyak kekurangan, tetapi saya menemukan kesuksesan dengan proyek yang lebih sederhana, seperti pelajaran bordir interaktif.

Ini adalah kemenangan besar bagi Openai, karena menghadapi perang pengkodean AI dengan pesaing seperti antropik, Google dan lainnya untuk waktu yang lama. Perusahaan bersedia menghabiskan banyak untuk pengkodean AI, dan ini adalah salah satu generator pendapatan paling realistis untuk startup AI yang membakar uang.

Openai juga menyoroti kehebatan GPT-5 dalam perawatan kesehatan, tetapi ini sebagian besar tidak diuji dalam praktiknya, kami tidak tahu seberapa sukses itu untuk sementara waktu.

Tolok ukur AI semakin berarti semakin sedikit dalam beberapa tahun terakhir, karena mereka sering berubah dan beberapa perusahaan yang memilih hasil yang mereka ungkapkan. Tetapi secara umum, mereka dapat memberi kita citra GPT-5 yang masuk akal. Model ini berkinerja lebih baik daripada pendahulunya dalam banyak tes di industri, tetapi peningkatan ini tidak ada artinya untuk ditulis, menurut banyak orang di industri ini. Sebagai Wildford Meletakkan“Ketika datang ke evaluasi formal, GPT-5 sebagian besar adalah apa yang diharapkan akan ditunggu-tunggu peningkatan bertahap dan tidak ada yang layak meme bintang vagus.”

Tetapi jika sejarah baru -baru ini memiliki sesuatu untuk dikatakan tentang hal itu, peningkatan bertahap kecil ini mungkin lebih mungkin diterjemahkan menjadi laba konkret daripada mengesankan konsumen individu. Perusahaan AI tahu bahwa jalan manufaktur uang terbesar mereka adalah pelanggan perusahaan, kontrak pemerintah dan investasi dan meningkatkan tambahan dalam referensi yang solid, dan berinvestasi dalam memperluas pengkodean dan Halusinasi Pertarungan, adalah cara terbaik untuk memanfaatkan ketiganya.

Ikuti topik dan penulis Dalam cerita ini, lihat lebih banyak seperti ini di umpan beranda pribadi Anda dan menerima dan pembaruan email.

Hayden Field

Tautan sumber

ridlwan.com

Pendapat

GPT-5 gagal dalam tes hype

Leave a Reply

Leave a Reply

Trending

Leave a Reply Batalkan balasan

Leave a Reply

Trending

Leave a Reply