Theo giám sát của 1M AI News, Microsoft đã phát hành mã nguồn mở một họ mô hình nhúng văn bản đa ngôn ngữ trên Hugging Face là harrier-oss-v1, gồm ba phiên bản: 270M, 0.6B và 27B. Trang mô tả mô hình cho thấy chuỗi này sử dụng kiến trúc chỉ giải mã (decoder-only), last-token pooling và chuẩn hóa L2; hỗ trợ tối đa 32768 token và có thể dùng cho truy xuất, phân cụm, độ tương đồng ngữ nghĩa, phân loại, khai thác song ngữ và sắp xếp lại.
Multilingual MTEB v2 là bộ chuẩn nhúng văn bản đa ngôn ngữ được dùng phổ biến trong ngành, chủ yếu kiểm thử các tác vụ như truy xuất, phân loại, phân cụm và độ tương đồng ngữ nghĩa. Trang mô tả mô hình của Microsoft cho biết điểm số của ba phiên bản trên bộ chuẩn này lần lượt là 66.5, 69.0 và 74.3, trong đó phiên bản 27B đã đứng đầu bảng ngay trong ngày ra mắt. Các phiên bản 270M và 0.6B cũng bổ sung việc sử dụng mô hình nhúng lớn hơn để chưng cất kiến thức; cả ba mô hình đều được phát hành theo giấy phép MIT.