Tim Kaiming He Merilis Model Diffusi Bahasa ELF dengan 45 miliar Token Pelatihan

Menurut Beating, tim Kaiming He dari MIT baru-baru ini merilis ELF (Embedded Language Flows), sebuah model difusi bahasa yang menyimpang dari pendekatan autoregresif “memprediksi token berikutnya” yang digunakan oleh model bergaya GPT. Sebagai gantinya, ELF melakukan generasi teks dalam ruang embedding kontinu, mengubahnya menjadi token diskrit hanya pada langkah terakhir.

Pada tolok ukur generasi tanpa kondisi OpenWebText, ELF-B dengan 105M parameter mencapai sekitar 24,1 perplexity generasi (Gen. PPL) dengan sampling 32 langkah, mengungguli berbagai baseline model bahasa difusi diskrit maupun kontinu. Yang menonjol, ELF-B hanya memerlukan kira-kira 45 miliar token pelatihan, sekitar satu orde besarnya lebih sedikit dibanding metode sebanding yang biasanya melampaui 500 miliar token.

Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.

Artikel Terkait

Samsung Berencana Memulai Produksi Massal Memori Server AI CXL 3,1 pada Kuartal Keempat

Menurut The Korea Herald, Samsung Electronics berencana memulai produksi massal modul memori CXL 3.1 untuk server AI pada kuartal keempat, setelah pengiriman sampel pada kuartal ketiga. Modul CMM-D 3.1 menggabungkan DRAM dan pengontrol CXL dalam satu papan, mendukung hingga 1 terabyte dengan bandwidth 72 gigabytes per detik pada PCIe 6.0. Samsung sebelumnya mengirimkan sampel CXL 2.0 ke lebih dari 40 perusahaan termasuk Microsoft dan Amazon.

GateNews1menit yang lalu

Mantan Peneliti AI Alibaba Linjun Lin Meluncurkan Lab AI Baru Senilai Sekitar 2 Miliar Dolar AS

Menurut The Information, Linjun Lin, mantan peneliti AI di Alibaba, baru-baru ini mendirikan sebuah laboratorium kecerdasan buatan baru. Startup tersebut diperkirakan memiliki valuasi sekitar $2 miliar.

GateNews3menit yang lalu

Anthropic Dalam Pembicaraan untuk Mengakuisisi Startup Alat Pengembang Stainless dengan Nilai Minimal 300 Juta Dolar AS

Menurut The Information, Anthropic sedang dalam pembicaraan tingkat lanjut untuk mengakuisisi startup alat pengembang Stainless dengan nilai sedikitnya 300 juta dolar AS. Alat pengembang Stainless telah diadopsi oleh OpenAI dan Google.

GateNews23menit yang lalu

Andrew Ng: “AI tidak akan memicu gelombang PHK besar-besaran”, perekrutan software engineer tetap kuat

領域知名學者、DeepLearning.AI 創辦人 Andrew Ng(吳恩達)5 月 12 日於 X 與 The Batch 電子報發文主張「AI 不會引發失業 besar(jobpocalypse)」,langsung membantah narasi kepanikan pengangguran massal akibat AI. Berdasarkan unggahan asli Andrew Ng, postingan ini mendapat lebih dari 2.600 kali suka dan merupakan salah satu opini paling ramai dibahas di bidang AI pada pekan tersebut. Argumen inti Ng: perekrutan untuk rekayasa perangkat lunak masih kuat, tingkat pengangguran bertahan di 4,3% Ng membantah narasi “AI akan menyebabkan pengan

ChainNewsAbmedia1jam yang lalu

Chip Kunlun Tian Chi supernode 256-card milik Baidu akan diluncurkan pada bulan Juni dengan peningkatan throughput sebesar 25%

Menurut Baidu, pada 13 Mei selama konferensi pengembang Create 2026, perusahaan mengumumkan bahwa Kunlun Chip Tian Chi supernode 256 kartu-nya akan resmi diluncurkan pada Juni, dengan kinerja throughput meningkat 25% dibanding generasi sebelumnya serta efisiensi inferensi yang ditingkatkan 50%. Supernode ini telah menyelesaikan adaptasi untuk model-model arus utama termasuk Wenxin, DeepSeek, GLM, dan MiniMax, dengan latensi end-to-end yang dioptimalkan 50% melalui arsitektur jaringan HPN 5.0 yan

GateNews2jam yang lalu

Cerebras Harga IPO Melewati Rentang $150-160, Menggalang $4,8 miliar Berkat Permintaan Besar

Menurut Bloomberg, Cerebras Systems bersiap menetapkan harga IPO-nya di atas kisaran US$150-160 pada 13 Mei 2026, dengan permintaan untuk penjualan saham melonjak lebih dari 20 kali lipat dibandingkan jumlah saham yang tersedia. Produsen chip AI itu menawarkan 30 juta saham dan akan menghimpun US$4,8 miliar pada batas atas kisaran, menjadikannya IPO AS terbesar tahun ini di luar penempatan privat. Perusahaan melaporkan laba bersih sebesar US$87,9 juta dari US$510 juta pendapatan pada 2025, diban

GateNews2jam yang lalu
Komentar
0/400
Tidak ada komentar