Selon un rapport de Reuters du 30 juin, Meituan a publié le modèle d'IA open source LongCat-2.0, avec une taille de paramètres de 1,6 billion, utilisant une architecture de mélange d'experts sparse (Sparse MoE), entièrement entraîné sur un supercluster de puces ASIC nationales, sans utiliser aucun GPU NVIDIA ou pile logicielle CUDA. La fenêtre de contexte du modèle atteint 1 million de tokens.
Spécifications techniques et cas d'utilisation de LongCat-2.0
LongCat-2.0 utilise une architecture de mélange d'experts sparse (Sparse MoE), similaire aux approches de DeepSeek et de Mixtral de Mistral : le modèle n'active pas les 1,6 billion de paramètres en même temps, mais un routeur interne sélectionne un sous-ensemble spécialisé de modèles pour chaque token, réduisant ainsi les coûts d'inférence par rapport à un modèle dense de taille équivalente. Les principales spécifications techniques et limitations de déploiement sont les suivantes :
Taille des paramètres : 1,6 billion (architecture Sparse MoE, n'active pas tous les paramètres en même temps)
Fenêtre de contexte : 1 million de tokens (DeepSeek-R1-0528 et GPT-OSS ont 128 000 tokens)
Matériel d'entraînement : Supercluster ASIC national (aucun GPU NVIDIA, aucune pile CUDA)
Applications cibles : Agents AI, outils de codage (compréhension de code, édition intégrale, tâches automatisées)
Forme de déploiement : Cluster d'inférence de niveau centre de données, non compatible avec les appareils grand public ou la plupart des déploiements locaux
Contexte du marché de l'entraînement sur puces nationales et données de Bernstein
Meituan affirme que l'architecture d'inférence centrale de LongCat-2.0 est portable et peut fonctionner sur le matériel existant en Chine. Cette publication intervient alors que les contrôles à l'exportation des États-Unis continuent de limiter l'exportation de puces AI avancées vers les entreprises chinoises.
La société de recherche en actions Bernstein estime que NVIDIA détient actuellement environ 40 % de part de marché dans le secteur des puces AI en Chine, Huawei ayant une part similaire ; Bernstein prévoit également que Huawei progressera cette année, faisant chuter la part de NVIDIA sur le marché chinois d'environ 8 points de pourcentage.
État actuel des déclarations de performance : aucune vérification par un tiers
Meituan a comparé LongCat-2.0 à plusieurs modèles en source fermée dans des benchmarks publiés, mais les rapports indiquent que ces déclarations de performance n'ont pas encore été vérifiées par une évaluation indépendante et impartiale d'un tiers.
Le rapport note également que l'optimisation pour les puces nationales pourrait limiter les performances de LongCat-2.0 sur le matériel NVIDIA, qui domine toujours les centres de données mondiaux. Meituan déclare que son architecture d'inférence centrale reste portable, et des tests indépendants détermineront la volonté d'adoption par les développeurs en dehors de la Chine.
Questions fréquentes
Pour quels cas d'utilisation la fenêtre de contexte de 1 million de tokens de LongCat-2.0 est-elle pertinente ?
Au moment du rapport, DeepSeek-R1-0528 et OpenAI GPT-OSS avaient une limite de fenêtre de contexte de 128 000 tokens ; LongCat-2.0 revendique 1 million de tokens, ce qui est potentiellement significatif pour les applications d'agents AI qui doivent traiter des bases de code très longues et des chaînes de tâches complexes. Cependant, ces déclarations de spécifications restent à vérifier de manière indépendante.
Quel est le contexte de la R&D en IA de Meituan ?
L'activité principale de Meituan est la livraison de repas et les services de vie locale. En 2023, elle a acquis la startup AI Light Year Beyond pour 281 millions de dollars, entrant ainsi dans le domaine de l'IA. Ce n'est qu'en 2025 qu'elle a annoncé publiquement ses plans de modèles internes, et LongCat-2.0 est positionné comme le moteur d'inférence pour les agents AI et les outils de codage de l'entreprise.
Quels sont les avantages et inconvénients de l'architecture Sparse MoE de LongCat-2.0 par rapport à un modèle dense de 1,6 billion ?
L'avantage principal du Sparse MoE est de ne pas activer tous les paramètres, mais de router vers des sous-modèles spécifiques, ce qui réduit les coûts de calcul d'inférence par rapport à un modèle dense de taille équivalente. Cependant, l'architecture optimisée pour un matériel spécifique (comme les ASIC nationaux) peut présenter des limitations de performance sur d'autres matériels (comme les GPU NVIDIA), et les résultats de tests indépendants n'ont pas encore été publiés.