Scannez pour télécharger l’application Gate
qrCode
Autres options de téléchargement
Ne pas rappeler aujourd’hui

Évaluation AI sous l'angle quantitatif : les attentes de profit sont toutes inférieures à 1, à quelle distance l'intelligence artificielle est-elle de remplacer les traders ?

Auteur : Frank, PANews

Si on vous donnait 10000 dollars, quelle intelligence artificielle choisiriez-vous pour gérer vos investissements ?

Auparavant, PANews avait effectué une rétrospective sur le concours de trading AI de nof1.ai (lire aussi : Six “traders” AI, dix jours de compétition : un cours public sur la tendance, la discipline et la cupidité). Cependant, lors du concours de nof1.ai, la durée de validité se concentre sur une période de marché spécifique, et la capacité de trading finale des grands modèles AI ne semble pas être complètement révélée dans des cycles de trading spécifiques. De plus, il est urgent de trouver une réponse quant à la capacité de prédiction réelle des modèles AI dans différentes conditions. De plus, récemment, diverses entreprises d'IA ont publié leurs derniers grands modèles, et le classement des capacités des modèles est également en phase de réévaluation.

Pour percer ce mystère, PANews a organisé un “Championnat des Traders IA”. Comprendre la capacité de jugement des grands modèles IA et la capacité de planification des transactions dans différents scénarios. Par exemple, quel cadre temporel ils analysent le mieux, et si le taux de réussite des prédictions de l'IA s'améliore lorsqu'il y a des indicateurs comme conditions d'assistance.

Nous avons prolongé la ligne du temps de 2017 à aujourd'hui et, à partir des données historiques de Binance BTC, nous avons extrait au hasard 100 véritables segments de marché pour construire trois scénarios de test de niveau purgatoire : “K nu de 4 heures”, “Court terme de 15 minutes”, “Tous les indicateurs de 4 heures”. Les six participants représentent le sommet de la puissance de calcul actuelle en Chine et aux États-Unis : Gemini-3-pro, Doubao-1.6-vision, DeepSeek V3.2, Grok 4.1, GPT-5.1, Qwen3-max.

Ce test a collecté les données de chandeliers de 15 minutes des paires de trading au comptant BTC de Binance depuis août 2017 jusqu'à présent, ainsi que les données de chandeliers de 4 heures de 2021 à aujourd'hui. Pour chaque période, 50 images de périodes de 100 chandeliers sont générées aléatoirement. Pour la période de 4 heures, il existe deux types : l'un est une image avec seulement les chandeliers et le volume des transactions, l'autre est un graphique de chandeliers avec des informations sur les indicateurs tels que EMA, SMA, bandes de Bollinger, MACD, RSI, etc. Les graphiques de chandeliers de 15 minutes sont tous des graphiques de chandeliers nus (avec volume des transactions). Les valeurs de données de prix spécifiques ou les valeurs de données des indicateurs correspondants au graphique de chandeliers actuel sont également synchronisées avec l'IA. Tous les résultats de sortie de l'IA peuvent être consultés ici.

Diagramme indicatif avec indicateurs sur 4 heures

Diagramme en chandeliers pur de 4 heures

Au cours du processus de test, les informations et commandes de données obtenues par chaque grand modèle sont exactement les mêmes. D'un autre point de vue, cela teste également la capacité multimodale de ces grands modèles (DeepSeek, n'ayant qu'un modèle de texte, reçoit finalement uniquement des informations de données, sans transmission d'images).

Gemini 3 : Le roi nu des K scellés par les “indicateurs”

Gemini 3 est actuellement le modèle AI le plus en vogue. D'après les commentaires des médias et les tests effectués depuis sa sortie le 18 novembre, il peut être considéré comme le modèle AI multimodal le plus performant à ce jour. Cependant, lors du test de prévision de transaction, les résultats de Gemini 3 ne sont pas les meilleurs, mais plutôt moyens. Parmi les trois scénarios (K en chandelier brut sur 4 heures, K en chandelier brut sur 4 heures avec indicateurs, K en chandelier brut sur 15 minutes), Gemini 3 a obtenu les meilleurs résultats dans le scénario K en chandelier brut sur 4 heures, avec un taux de victoire de 39,58 %, suivi par le scénario K en chandelier brut sur 15 minutes avec 34,04 %. Dans le cas des scénarios avec indicateurs (même période), la précision pour la période de 4 heures a en fait chuté à 31 %, ce qui en fait le moins bon des trois scénarios.

À ce niveau, il semble que Gemini 3 soit meilleur en termes de modèles purs de chandeliers japonais, car l'ajout d'indicateurs tend à créer des interférences. Dans le processus opérationnel spécifique, sans indicateurs, Gemini 3 semble plus enclin à ouvrir des positions, avec 95 % des mouvements de marché optant pour une entrée en cas de chandeliers purs, tandis que ce pourcentage tombe à 71 % une fois les indicateurs ajoutés. Il convient de noter que Gemini 3 est le seul modèle à être rentable dans le cas des chandeliers purs sur 4 heures.

Dans un scénario de 15 minutes, la rentabilité globale de Gemini 3 est la meilleure, avec un bénéfice total de 15,34 %, alors qu'elle a en fait perdu 21,18 % dans un scénario avec indicateur. Cependant, ce type de bénéfice est également une forme de chance à court terme; combiné aux données de ratio de gains et de pertes à chaque fois, l'espérance de bénéfice de Gemini 3 (taux de victoire*ratio de gains et de pertes) est inférieure à 1, ce qui signifie qu'à long terme, il s'agit d'une situation de perte.

DeepSeek V3.2 : la machine à arbitrage “ultra-court terme” aussi stable qu'un vieux chien

DeepSeek est le modèle ayant la meilleure performance globale en termes de taux de victoire parmi les six modèles, et il est également le plus stable. Dans trois scénarios (K en chandeliers nus sur 4 heures, K en chandeliers avec indicateurs sur 4 heures, K en chandeliers nus sur 15 minutes), les taux de victoire sont respectivement de 40 %, 41,38 % et 42,86 %. De ce point de vue, la capacité prédictive de DeepSeek reste relativement stable sur différentes périodes, qu'il y ait ou non des indicateurs.

Cependant, la situation de bénéfice finale de DeepSeek n'est pas bonne, en raison de son ratio de gains et de pertes trop bas, avec une moyenne de seulement 1,25. Ce ratio de gains et de pertes qui privilégie la prise de bénéfices montre également que DeepSeek manque de la capacité à laisser les profits courir pendant le processus de trading. Par conséquent, cela entraîne une attente de bénéfice presque autour de 0,5, ce qui manque également de potentiel de bénéfice à long terme. De plus, DeepSeek est également relativement conservateur en ce qui concerne la décision d'ouverture de positions, avec un taux d'ouverture global de seulement 58%.

Doubao (豆包) : le “MVP polyvalent” de ce concours.

Dans ce match de test, les résultats globaux de Doubao1.6-vision sont les meilleurs. Dans le scénario avec un indicateur de 4 heures, le taux de victoire de Doubao1.6-vision a atteint le plus haut niveau du test, atteignant 50 %, avec un rendement final de 22,2 %. En même temps, dans la période courte de 15 minutes, il a également obtenu un niveau de rendement global de 8,2 %. C'est le seul modèle capable de réaliser des bénéfices stables dans deux dimensions différentes (court terme et indicateur de 4 heures).

De plus, le résultat de Doubao1.6-vision n'est pas réalisé dans un style relativement conservateur, mais atteint un taux d'ouverture moyen de plus de 92 %. En d'autres termes, Doubao1.6-vision choisit d'ouvrir des positions dans la grande majorité des cas. Cependant, comparativement, la capacité de Doubao1.6-vision dépend également beaucoup des signaux d'indicateurs, avec ou sans indicateurs, le profit total diffère de 38 %. De plus, d'après les données du ratio de gains et de pertes, Doubao1.6-vision a un ratio de pertes relativement élevé durant les deux cycles de rendement positif, ce qui est également une raison de sa performance globale exceptionnelle.

Grok 4.1 : le « parieur radical » de xAI

Le style général de Grok 4.1 est audacieux mais dépend des indicateurs trimestriels, tout en étant prêt à poursuivre des profits plus importants. Dans trois scénarios, seul le scénario avec indicateurs sur 4 heures a obtenu un taux de réussite de 34,69 %, tandis que les taux de réussite des deux autres scénarios sont très bas. Dans le cas des chandeliers purs de 4 heures, le taux de réussite n'est que de 14,58 %, et pour une période de 15 minutes, il est de 26,53 %. Cependant, le ratio moyen d'ouvertures de positions atteint 98 %, montrant une volonté d'ouvrir des positions dans presque tous les scénarios de chandeliers. Sous cet angle, le style de Grok 4.1 ressemble davantage à celui d'un joueur de poker incapable de se contrôler.

Cependant, le ratio de gains et de pertes de Grok 4.1 est souvent assez élevé, avec une moyenne de 2, ce qui est le plus élevé parmi tous les modèles. Mais dans l'ensemble, confier des fonds à Grok 4.1 n'est pas un choix judicieux.

GPT 5.1 : les “shorts” extrêmement prudents des pessimistes

Le style d'ouverture de positions de GPT 5.1 est complètement opposé à celui de Grok 4.1. GPT 5.1 est extrêmement prudent, choisissant souvent d'attendre dans la plupart des cas. Au final, sur 150 tests, il n'a ouvert des positions que 52 fois, avec un ratio d'ouverture moyen de seulement 0,34 %.

Cependant, même avec une telle prudence, cela n'a pas permis à GPT 5.1 d'obtenir de meilleures performances en termes de taux de victoire. Dans le meilleur des cas, il n'a obtenu qu'un taux de victoire de 35 %. De plus, par rapport aux périodes de 4 heures et de 15 minutes, GPT 5.1 n'est clairement pas très compétent pour l'ouverture de positions sur de longues périodes. Même avec l'ajout d'indicateurs techniques, le taux de victoire sur 4 heures n'est que de 27 %. En revanche, sur une période de 15 minutes, grâce à un rapport gains/pertes relativement élevé (2,02), il a réussi à obtenir un retour positif, avec un résultat final de 9,9 %.

De plus, GPT 5.1 a une caractéristique marquée par un pessimisme évident, étant très enclin à vendre à découvert. Plus de 70 % des ordres sont des ordres de vente.

Qwen 3 : un “aversion au risque” qui pèse ses mots

Qwen 3 est clairement le modèle de grande taille le plus prudent, n'ouvrant que 44 positions au total lors de tous les tests, avec un taux d'ouverture de seulement 29 %. Cependant, tout comme GPT, cette extrême prudence n'a pas conduit à un taux de réussite plus élevé. Son taux de réussite est également d'environ 34 %, la meilleure performance étant observée dans le scénario avec indicateurs sur 4 heures.

De plus, le ratio de profit et de perte de Qwen 3 est également élevé, atteignant 1,96. On dirait qu'il appartient à des joueurs averses au risque, plus doués pour réduire le nombre d'ordres, mais laissant courir le profit. Dans le cadre de l'indicateur de bande à 4 heures, la valeur d'attente de profit de Qwen 3 est également la plus proche du profit, atteignant 0,95, ce qui est le plus élevé parmi tous les modèles.

Situation de la consolidation des données

Résumé :

Dans l'ensemble, nous pourrions tirer les leçons suivantes de ces processus de trading simulés par l'IA.

Premièrement, pour la grande majorité des modèles, avoir des indicateurs est plus fiable qu'un simple graphique en chandeliers. Avec des indicateurs, le taux de victoire moyen de ces six modèles a atteint 38 %, tandis qu'en l'absence d'indicateurs, le taux de victoire n'est que de 30 %.

Deuxièmement, l'IA pourrait être meilleure pour le trading à court terme plutôt qu'à long terme. Dans un scénario de chandeliers purs de 15 minutes, le taux de victoire moyen des six grands modèles atteint 34 %, supérieur aux 30 % du cycle de 4 heures. Parmi les six modèles, trois sont rentables (Gemini, GPT, Doubao), et le ratio moyen de gains et de pertes est généralement meilleur.

Troisièmement, confier complètement la position à l'IA n'est pas souhaitable. Au cours de ce test, toutes les attentes de profit des modèles d'IA étaient inférieures à 1, ce qui signifie qu'à long terme, avec un tel taux de victoire et un ratio de gains/pertes, leurs résultats finaux seraient tous des pertes. Il ne s'agit que d'une question de rapidité de la perte (bien que, ici, les modèles d'IA n'aient pas été spécialement ajustés, les indicateurs utilisés étaient seulement des indicateurs courants et relativement simples). Par conséquent, si vous souhaitez que l'IA remplace votre propre trading, cela nécessitera probablement un processus d'ajustement plus complexe et davantage de données de backtesting.

Lorsque ce duel de puissance de calcul touche à sa fin, en regardant le chiffre final de notre solde de compte, la leçon la plus importante que nous tirons n'est peut-être pas “quel modèle est le plus fort”, mais plutôt “quelles sont les limites du trading AI”. La conclusion finale est que l'IA d'aujourd'hui ne peut peut-être pas encore remplacer directement un excellent gestionnaire de fonds, mais elle a déjà évolué en un assistant de trading relativement mature sur un aspect, certains étant doués pour l'analyse graphique, d'autres pour la gestion des risques, et certains pour l'analyse des données afin d'atteindre un taux de réussite stable. Et en ce qui concerne les attentes croissantes des gens envers l'IA, remplacer l'humain par l'IA dans le trading reste une question complexe.

BTC0.37%
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
0/400
Aucun commentaire
  • Épingler
Trader les cryptos partout et à tout moment
qrCode
Scan pour télécharger Gate app
Communauté
Français (Afrique)
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)