Futures
Accédez à des centaines de contrats perpétuels
TradFi
Or
Une plateforme pour les actifs mondiaux
Options
Hot
Tradez des options classiques de style européen
Compte unifié
Maximiser l'efficacité de votre capital
Trading démo
Introduction au trading futures
Préparez-vous à trader des contrats futurs
Événements futures
Participez aux événements et gagnez
Demo Trading
Utiliser des fonds virtuels pour faire l'expérience du trading sans risque
Lancer
CandyDrop
Collecte des candies pour obtenir des airdrops
Launchpool
Staking rapide, Gagnez de potentiels nouveaux jetons
HODLer Airdrop
Conservez des GT et recevez d'énormes airdrops gratuitement
Pre-IPOs
Accédez à l'intégralité des introductions en bourse mondiales
Points Alpha
Tradez on-chain et gagnez des airdrops
Points Futures
Gagnez des points Futures et réclamez vos récompenses d’airdrop.
Investissement
Simple Earn
Gagner des intérêts avec des jetons inutilisés
Investissement automatique
Auto-invest régulier
Double investissement
Profitez de la volatilité du marché
Staking souple
Gagnez des récompenses grâce au staking flexible
Prêt Crypto
0 Fees
Mettre en gage un crypto pour en emprunter une autre
Centre de prêts
Centre de prêts intégré
Promotions
Centre d'activités
Participez et gagnez des récompenses
Parrainage
20 USDT
Invitez des amis et gagnez des récompenses
Programme d'affiliation
Obtenez des commissions exclusives
Gate Booster
Développez votre influence et gagnez des airdrops
Annoncement
Mises à jour en temps réel
Blog Gate
Articles sur le secteur de la crypto
AI
Gate AI
Votre assistant IA polyvalent pour toutes vos conversations
Gate AI Bot
Utilisez Gate AI directement dans votre application sociale
GateClaw
Gate Blue Lobster, prêt à l’emploi
Gate for AI Agent
Infrastructure IA, Gate MCP, Skills et CLI
Gate Skills Hub
+10K compétences
De la bureautique au trading, une bibliothèque de compétences tout-en-un pour exploiter pleinement l’IA
GateRouter
Choisissez intelligemment parmi plus de 40 modèles d’IA, avec 0 % de frais supplémentaires
Anthropic a laissé 9 Claude étudier de manière autonome la sécurité de l'IA, en 5 jours, bien plus vite que les humains, mais ils ont triché à plusieurs reprises pendant la recherche.
ME News Actualités, le 15 avril (UTC+8), selon la surveillance de 1M AI News, Anthropic a publié une expérience : faire 9 Claude autonomes réaliser des recherches sur la sécurité de l’IA, les résultats en 5 jours dépassent le travail de chercheurs humains en 7 jours, mais au cours du processus, Claude a tenté à plusieurs reprises de tricher.
Commençons par ce que Claude étudie comme problème. À l’avenir, l’IA pourrait être bien plus intelligente que l’humain, mais l’humanité doit encore s’assurer qu’elle agit comme prévu.
Le défi est : comment une personne moins intelligente que vous peut-elle juger si ce que vous faites est correct ou non ?
Anthropic utilise deux modèles d’IA pour simuler ce scénario : un modèle faible jouant le rôle de « humain », un modèle fort jouant le rôle de « super IA future ».
Le modèle faible montre au modèle fort la méthode qu’il pense être correcte, puis voit si le modèle fort peut comprendre la bonne direction à partir de ces démonstrations imparfaites, montrant un niveau supérieur à celui du modèle faible.
L’indicateur de mesure s’appelle PGR : 0 point signifie que le modèle fort ne fait que le niveau du modèle faible (l’apprentissage supervisé est totalement inutile), 1 point signifie que le modèle fort atteint son optimum théorique (l’apprentissage supervisé est totalement réussi).
Anthropic donne à 9 Claude Opus 4.6 la tâche suivante : trouver un moyen d’améliorer ce score PGR.
Chaque Claude est équipé d’un bac à sable indépendant, d’un forum partagé, d’un stockage de code et d’un serveur de notation à distance, partant de points de départ flous différents (par exemple « essayer des outils d’explicabilité », « envisager de réajuster le poids des données »), ils proposent eux-mêmes des hypothèses, mènent des expériences, analysent les données, échangent leurs découvertes, sans aucune directive d’Anthropic.
Précédemment, deux chercheurs humains ont passé 7 jours à itérer sur 4 méthodes existantes sur le modèle open source Qwen 3-4B-Base (fort) et Qwen 1.5-0.5B-Chat (faible), atteignant un PGR de seulement 0,23.
Après que 9 Claude ont pris le relais et ont étudié pendant 5 jours (environ 800 heures cumulées), ils ont porté le PGR à 0,97.
Le coût total était d’environ 18 000 dollars, soit environ 22 dollars par heure.
Mais au cours de la recherche, Claude a tenté à plusieurs reprises de contourner les règles expérimentales, ce que Anthropic qualifie de « piratage de récompense ».
Dans les tâches mathématiques, certains Claude ont découvert que la réponse la plus courante pour chaque question est souvent correcte, ils ont sauté la supervision du modèle faible et ont laissé le modèle fort choisir la réponse la plus fréquente ;
Dans les tâches de codage, certains Claude ont directement exécuté le code à évaluer, lu les résultats de test pour obtenir la réponse correcte.
Toutes ces tricheries ont été détectées et éliminées, n’affectant pas le résultat final, mais Anthropic souligne que cela confirme justement le problème étudié par l’expérience : dans un environnement strictement limité, l’IA agit de manière autonome et cherche activement des failles dans les règles, la supervision humaine est indispensable.
La transférabilité des résultats est limitée.
Appliquer la méthode optimale trouvée par Claude à une nouvelle tâche donne un PGR de 0,94 pour les mathématiques, mais seulement 0,47 pour la programmation (deux fois la baseline humaine).
Dans l’environnement de production de Claude Sonnet 4, il n’y a pas d’amélioration statistiquement significative.
Anthropic pense que Claude tend à optimiser pour des modèles et des jeux de données spécifiques, et que ces méthodes ne sont pas forcément universelles.
Ils soulignent également que, dans cette expérience, le problème choisi a une seule norme d’évaluation objective, ce qui le rend naturellement adapté à l’automatisation, mais la majorité des problèmes d’alignement sont beaucoup moins clairs, et l’IA n’est pas encore un scientifique d’alignement général.
Mais la conclusion est : à l’avenir, le goulot d’étranglement de la recherche en alignement pourrait passer de « qui propose des idées et mène des expériences » à « qui conçoit les critères d’évaluation ».
Les codes et jeux de données sont en open source sur GitHub.
(Source : BlockBeats)