Microsoft mở nguồn ba phiên bản của mô hình nhúng văn bản Harrier, phiên bản 27B đứng đầu bảng xếp hạng đa ngôn ngữ MTEB v2

BlockBeatNews

Theo giám sát của 1M AI News, Microsoft đã phát hành mã nguồn mở một họ mô hình nhúng văn bản đa ngôn ngữ trên Hugging Face là harrier-oss-v1, gồm ba phiên bản: 270M, 0.6B và 27B. Trang mô tả mô hình cho thấy chuỗi này sử dụng kiến trúc chỉ giải mã (decoder-only), last-token pooling và chuẩn hóa L2; hỗ trợ tối đa 32768 token và có thể dùng cho truy xuất, phân cụm, độ tương đồng ngữ nghĩa, phân loại, khai thác song ngữ và sắp xếp lại.

Multilingual MTEB v2 là bộ chuẩn nhúng văn bản đa ngôn ngữ được dùng phổ biến trong ngành, chủ yếu kiểm thử các tác vụ như truy xuất, phân loại, phân cụm và độ tương đồng ngữ nghĩa. Trang mô tả mô hình của Microsoft cho biết điểm số của ba phiên bản trên bộ chuẩn này lần lượt là 66.5, 69.0 và 74.3, trong đó phiên bản 27B đã đứng đầu bảng ngay trong ngày ra mắt. Các phiên bản 270M và 0.6B cũng bổ sung việc sử dụng mô hình nhúng lớn hơn để chưng cất kiến thức; cả ba mô hình đều được phát hành theo giấy phép MIT.

Tuyên bố miễn trừ trách nhiệm: Thông tin trên trang này có thể đến từ bên thứ ba và không đại diện cho quan điểm hoặc ý kiến của Gate. Nội dung hiển thị trên trang này chỉ mang tính chất tham khảo và không cấu thành bất kỳ lời khuyên tài chính, đầu tư hoặc pháp lý nào. Gate không đảm bảo tính chính xác hoặc đầy đủ của thông tin và sẽ không chịu trách nhiệm cho bất kỳ tổn thất nào phát sinh từ việc sử dụng thông tin này. Đầu tư vào tài sản ảo tiềm ẩn rủi ro cao và chịu biến động giá đáng kể. Bạn có thể mất toàn bộ vốn đầu tư. Vui lòng hiểu rõ các rủi ro liên quan và đưa ra quyết định thận trọng dựa trên tình hình tài chính và khả năng chấp nhận rủi ro của riêng bạn. Để biết thêm chi tiết, vui lòng tham khảo Tuyên bố miễn trừ trách nhiệm.
Bình luận
0/400
Không có bình luận