Theo Beating, nhóm của MIT Kaiming He gần đây đã công bố ELF (Embedded Language Flows), một mô hình khuếch tán ngôn ngữ đi chệch khỏi cách tiếp cận tự hồi quy “dự đoán token tiếp theo” mà các mô hình kiểu GPT sử dụng. Thay vào đó, ELF thực hiện sinh văn bản trong không gian nhúng liên tục, chỉ chuyển đổi sang các token rời rạc ở bước cuối cùng.
Trong các benchmark sinh không điều kiện trên OpenWebText, ELF-B với 105M tham số đạt xấp xỉ 24,1 độ nghịch đảo sinh (Gen. PPL) với lấy mẫu 32 bước, vượt trội nhiều mô hình ngôn ngữ khuếch tán rời rạc và liên tục khác. Đáng chú ý, ELF-B chỉ cần khoảng 45 tỷ token huấn luyện, ít hơn cỡ một bậc độ lớn so với các phương pháp tương đương vốn thường vượt quá 500 tỷ token.
Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo
Tuyên bố miễn trừ trách nhiệm.
Bài viết liên quan
Samsung Dự Kiến Sản Xuất Hàng Loạt Các Mô-đun Bộ Nhớ Máy Chủ AI CXL 3.1 Vào Quý 4
Theo The Korea Herald, Samsung Electronics dự kiến bắt đầu sản xuất hàng loạt các module nhớ CXL 3.1 cho máy chủ AI vào quý IV, sau các lô mẫu được giao trong quý III. Module CMM-D 3.1 tích hợp DRAM và bộ điều khiển CXL trên một bo mạch, hỗ trợ lên tới 1 terabyte với băng thông 72 gigabyte mỗi giây trên PCIe 6.0. Trước đó, Samsung đã gửi các mẫu CXL 2.0 tới hơn 40 công ty, bao gồm Microsoft và Amazon.
GateNews1phút trước
Cựu nhà nghiên cứu AI của Alibaba Linjun Lin ra mắt phòng thí nghiệm AI mới với trị giá khoảng 2 tỷ USD
Theo The Information, Linjun Lin, cựu nhà nghiên cứu AI tại Alibaba, gần đây đã thành lập một phòng thí nghiệm trí tuệ nhân tạo mới. Startup này được ước tính có giá trị khoảng 2 tỷ USD.
GateNews3phút trước
Anthropic đang đàm phán để mua lại công ty khởi nghiệp công cụ dành cho nhà phát triển Stainless với giá trị từ ít nhất 300 triệu USD
Theo The Information, Anthropic đang trong các cuộc đàm phán nâng cao để mua lại startup công cụ dành cho nhà phát triển Stainless với giá từ ít nhất 300 triệu USD. Các công cụ dành cho nhà phát triển của Stainless đã được OpenAI và Google sử dụng.
GateNews23phút trước
Andrew Ng: “AI sẽ không gây ra làn sóng thất nghiệp lớn”, tuyển dụng phần mềm vẫn mạnh mẽ
AI 領域知名學者、DeepLearning.AI 創辦人 Andrew Ng(吳恩達)5 月 12 日於 X 與 The Batch 電子報發文主張「AI 不會引發失業大潮(jobpocalypse)」,直接反駁主流 AI 失業恐慌敘事。根據 Andrew Ng 原推,這篇貼文獲得逾 2.600 次按讚、是當週 AI 領域最具話題性的觀點文章之一。 Ng 的核心論點:軟體工程招聘仍然強勁、失業率維持 4,3% Ng 用三組具體數據反駁「AI 將造成大規模失業」的敘事: 軟體工程是受 AI 工具影響最深的產業(編碼代理人快速進步),但軟體工程師的招聘仍然強勁 儘管 AI 進展快速,美國目前失業率維持在 4,3% 的健康區間 從歷史經驗看:AI 創造的新工作數量、明顯高於它取代的工作數量、與過去技術浪潮一致 Ng 直言:「AI—就像其他任何技術一樣—確實影響工作、但講述大規模失業的誇大故事是不負責任且有害的。我們應該制止這類敘事。」 為什麼「AI 失業」敘事如此流行:Ng 點出 3 個誘因 Ng 指出 3 個結構性誘因、解釋為什麼這套敘事被持續放大: 第一、前沿 AI 實驗室自身有強誘因
ChainNewsAbmedia1giờ trước
Siêu nút 256 card Kunlun Chip Tian Chi của Baidu sẽ ra mắt vào tháng 6, cải thiện thông lượng 25%
Theo Baidu, vào ngày 13 tháng 5 trong hội nghị nhà phát triển Create 2026, công ty thông báo rằng siêu nút Kunlun Chip Tian Chi gồm 256 card của hãng sẽ chính thức ra mắt vào tháng 6, với hiệu năng thông lượng được cải thiện 25% so với thế hệ trước và hiệu quả suy luận tăng 50%. Siêu nút này đã hoàn tất việc tối ưu cho các mô hình phổ biến bao gồm Wenxin, DeepSeek, GLM và MiniMax, đồng thời độ trễ end-to-end đã được tối ưu 50% nhờ kiến trúc mạng HPN 5.0 được nâng cấp. Nó hỗ trợ xây dựng các cụm
GateNews2giờ trước
Cerebras chào bán IPO cao hơn biên $150-160, huy động được 4,8 tỷ USD nhờ nhu cầu khổng lồ
Theo Bloomberg, Cerebras Systems dự kiến định giá IPO vượt lên trên khoảng 150-160 USD vào ngày 13/5/2026, khi nhu cầu đối với đợt bán cổ phần tăng hơn 20 lần so với số lượng cổ phiếu sẵn có. Nhà sản xuất chip AI này chào bán 30 triệu cổ phiếu và có thể huy động 4,8 tỷ USD ở mức cao nhất của khung giá, qua đó trở thành IPO lớn nhất tại Mỹ trong năm nay, không tính các thương vụ chào bán riêng. Công ty công bố lợi nhuận ròng 87,9 triệu USD trên doanh thu 510 triệu USD trong năm 2025, so với khoản
GateNews2giờ trước