Zyphra mã nguồn mở ZAYA1-74B bản xem trước: huấn luyện end-to-end toàn bộ phần cứng AMD, 4B kích hoạt tổng tham số 74B

币界网消息,Zyphra开源的ZAYA1-74B预览版采用全AMD硬件进行端到端训练,模型总参数达到740亿,单次激活40亿。
Mô hình này dựa trên kiến trúc chuyên gia hỗn hợp (MoE), toàn bộ quá trình tiền huấn luyện và mở rộng ngữ cảnh đều được thực hiện trên card tăng tốc AMD MI300X.
Để tối ưu hiệu quả cho văn bản dài, mô hình đã thay thế lớp chú ý toàn cục bằng chú ý cửa sổ trượt kích thước 4K (SWA), thử nghiệm chính thức cho thấy thiết kế này giảm đáng kể việc sử dụng bộ đệm KV mà không làm giảm hiệu năng.
Trong quá trình huấn luyện, đã sử dụng 150 nghìn tỷ token dữ liệu tiền huấn luyện, và trong quá trình huấn luyện trung gian 30 nghìn tỷ token, đã dần mở rộng cửa sổ ngữ cảnh lên đến 256K.
Zyphra chọn công bố điểm PASS để chứng minh khả năng của nền tảng này trong việc tạo ra các bước suy luận chính xác, phiên bản đầy đủ của ZAYA1-74B dự kiến sẽ được phát hành trong vài tuần tới.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Ghim