DeepSeek a discrètement déployé un test en trois modes le 8 avril : répartition en trois voies rapides, expert et visuel. La communauté y voit un dernier échauffement avant le lancement officiel de la V4.
(Contexte : DeepSeek V4 refuse Nvidia et veut Huawei ! Alibaba, ByteDance et Tencent se disputent l’achat des puces de montée en puissance 950PR)
(Ajout de contexte : où en est la bataille de la “dissociation de la puissance de calcul” annoncée par DeepSeek V4 contre Nvidia ?)
Table des matières
Basculer
Dans la nuit du 8 avril, le site web et l’application de DeepSeek ont poussé une mise à jour en synchronisation, l’interface passant à trois options de mode. Ce n’est pas un lancement officiel complet, mais un test préalable destiné à certains utilisateurs ; toutefois, dès que l’information est sortie, la communauté a immédiatement fait le lien avec le calendrier de publication de la V4.
La répartition des trois modes est assez claire :
Mode rapide (Fast Mode) est l’option par défaut, destinée aux conversations quotidiennes et aux réponses instantanées. Il utilise un modèle léger à faible latence : pas de limite d’utilisation, mais la prise en charge des pièces jointes se limite à l’extraction de texte ; il ne traite pas les images ni la voix.
Mode expert (Expert Mode) est conçu pour des tâches de raisonnement complexes, prend en charge un mode de pensée approfondie. Les tests de la communauté montrent qu’un seul raisonnement peut déclencher plus de 500 secondes de temps de réflexion. Ce mode nécessite d’attendre pendant les heures de pointe, et ne prend pas en charge le téléchargement de pièces jointes ni de voix. Pour l’instant, il reste en phase de test et n’est pas ouvert à tous les utilisateurs.
Mode visuel (Vision Mode) est le plus symbolique des trois. C’est la première fois que DeepSeek prend officiellement en charge l’entrée visuelle côté consommateur. Les capacités multimodales ne sont plus seulement une option technique au niveau de l’API : elles sont directement orientées vers les utilisateurs ordinaires.
La logique globale est la suivante : répartir la consommation de puissance de calcul par type de tâche. Les besoins fréquents à faible charge passent par la voie rapide ; le raisonnement à forte puissance de calcul passe par la voie expert ; les entrées texte et image passent par la voie visuelle. Ce type de conception n’est pas nouveau en soi, mais DeepSeek est le premier modèle de premier plan en Chine qui le fasse à l’échelle d’un produit destiné aux consommateurs.
Les discussions de la communauté sur ce test se sont rapidement focalisées sur une question technique.
Certains utilisateurs ayant testé ont constaté que la qualité des réponses du mode expert n’augmentait que légèrement par rapport au mode rapide, sans l’écart qu’on imaginait. Plus crucial encore : des utilisateurs ont directement interrogé le modèle lui-même, et la réponse obtenue était la suivante : les deux modes ont la même architecture sous-jacente ; la différence vient principalement de l’ajustement du system prompt.
Si c’est vrai, alors l’essence du “mode expert” ressemble davantage à un system prompt calibré qu’à un modèle de raisonnement indépendant.
DeepSeek n’a pas répondu officiellement à cette remise en cause. Vu de l’extérieur, deux interprétations sont possibles : d’une part, il ne s’agit que d’une configuration temporaire de la phase de déploiement progressif, et la véritable stratification des modèles ne sera activée qu’une fois la V4 lancée ; d’autre part, l’objectif d’une conception en couches n’est pas, à la base, un basculement au niveau du modèle, mais plutôt de contrôler la consommation de puissance de calcul en utilisant différents budgets de raisonnement et configurations système, afin de permettre à davantage d’utilisateurs d’utiliser le système en même temps.
Les trois interfaces de modes, elles-mêmes, constituent une amélioration côté expérience utilisateur. Mais la V4 qui leur est reliée, elle, est le véritable poids de cette mise à jour.
L’équipe DeepSeek a confirmé que la V4 est reportée à avril. La raison principale serait le travail d’adaptation en profondeur des puces Huawei Ascend. Les spécifications techniques connues sont assez audacieuses : une échelle de 1 trillion d’arguments, un taux de réussite de 81% aux tests de capacité d’encodage SWE-bench, un tarif API de $0.30/MTok, ainsi qu’une technologie mémoire à long terme développée en interne : Engram. Il s’agit d’un mécanisme de mémoire conditionnelle permettant au modèle de conserver les préférences de l’utilisateur et le contexte d’une conversation à l’autre.
Mais ce qui mérite surtout d’être observé avec la V4, ce sont les choix au niveau de la puissance de calcul.
Si la V4 est réellement exécutée de bout en bout sur des puces nationales comme Huawei Ascend et Cambricon, elle deviendrait le premier modèle de grande envergure “grand public” à l’échelle, entièrement contournant l’écosystème Nvidia CUDA (cependant, comme nous savons qu’il y a beaucoup de puces Nvidia introduites en contrebande en Chine, la situation réelle derrière est encore plus complexe).