Rakuten publie le modèle Rakuten AI 3.0, les fichiers de configuration révèlent une architecture sous-jacente DeepSeek V3

Gate News, le 17 mars, a annoncé que le groupe Rakuten avait publié aujourd'hui Rakuten AI 3.0, un « modèle d'IA haute performance le plus grand du Japon », en open source gratuit sous licence Apache 2.0. Ce modèle est basé sur une architecture MoE (experts mixtes), avec un total de 671 milliards de paramètres, 37 milliards activés à chaque inférence, une fenêtre contextuelle de 128K, optimisé pour le japonais, surpassant GPT-4o dans plusieurs tests de référence en japonais. Ce modèle est le fruit du projet GENIAC, mené conjointement par le ministère de l'Économie, du Commerce et de l'Industrie du Japon et l'Agence de développement technologique pour l'énergie et l'industrie (NEDO), avec une partie du financement pour la puissance de calcul d'entraînement fournie par le gouvernement japonais. Dans son annonce, Rakuten a décrit la source du modèle de base comme « tirant pleinement parti des résultats optimaux de la communauté open source », sans nommer de modèle spécifique. La communauté a rapidement consulté les fichiers du modèle publié sur HuggingFace et a découvert que dans le fichier config.json, il était clairement indiqué model_type: deepseek_v3 et architectures: DeepseekV3ForCausalLM, avec un total de 671 milliards de paramètres, 37 milliards activés, une fenêtre contextuelle de 128K, ce qui correspond parfaitement à DeepSeek V3, indiquant que ce modèle a été affiné à partir de DeepSeek V3 avec des données en japonais.
Avertissement : Les informations figurant sur cette page peuvent provenir de sources tierces et sont fournies à titre indicatif uniquement. Elles ne reflètent pas les points de vue ou opinions de Gate et ne constituent pas un conseil financier, d’investissement ou juridique. Le trading des actifs virtuels comporte des risques élevés. Veuillez ne pas vous fonder uniquement sur les informations de cette page pour prendre vos décisions. Pour en savoir plus, consultez l’avertissement.
Commentaire
0/400
Aucun commentaire