Akash Network lance AkashML, le premier service d’inférence IA entièrement géré sur des GPU décentralisés

MpostMediaGroup

2025-11-25 09:51:26

En Bref

Akash Network a lancé AkashML, proposant des API compatibles OpenAI, un accès mondial à faible latence et jusqu’à 85 % d’économies pour le déploiement de LLM.

Akash Network, une place de marché de cloud computing, a introduit le premier service d’inférence IA entièrement géré fonctionnant entièrement sur des GPU décentralisés. Ce nouveau service élimine les défis opérationnels auxquels les développeurs étaient confrontés pour gérer une inférence de niveau production sur Akash, offrant les avantages du cloud computing décentralisé sans gestion manuelle de l’infrastructure.

Au lancement, AkashML propose une inférence gérée pour des modèles tels que Llama 3.3-70B, DeepSeek V3 et Qwen3-30B-A3B, disponibles pour un déploiement immédiat et évolutifs à travers plus de 65 centres de données dans le monde. Cette configuration permet une inférence mondiale instantanée, une tarification prévisible à l’utilisation et améliore la productivité des développeurs.

Akash soutient les premiers développeurs IA et startups depuis l’essor des applications IA suite aux avancées initiales d’OpenAI. Au cours des dernières années, l’équipe Akash Core a collaboré avec des clients comme brev.dev (acquis par Nvidia), VeniceAI et Prime Intellect pour lancer des produits desservant des dizaines de milliers d’utilisateurs. Bien que ces premiers utilisateurs étaient techniquement compétents et pouvaient gérer l’infrastructure eux-mêmes, les retours ont indiqué une préférence pour un accès via API sans gestion des systèmes sous-jacents. Ces retours ont guidé le développement d’une version non publique d’AkashML pour certains utilisateurs, ainsi que la création d’AkashChat et d’AkashChat API, ouvrant la voie au lancement public d’AkashML.

AkashML pour réduire jusqu’à 85 % le coût de déploiement des LLM

La nouvelle solution répond à plusieurs défis majeurs rencontrés par les développeurs et entreprises lors du déploiement de grands modèles de langage. Les solutions cloud traditionnelles sont souvent coûteuses, avec des instances réservées pour un modèle 70B dépassant 0,13 $ par entrée et 0,40 $ par sortie par million de tokens, tandis qu’AkashML exploite la concurrence du marché pour réduire les coûts de 70 à 85 %. La charge opérationnelle est un autre obstacle, car l’emballage des modèles, la configuration des serveurs vLLM ou TGI, la gestion des shards et des bascules peuvent prendre des semaines de travail d’ingénierie ; AkashML simplifie cela avec des API compatibles OpenAI permettant la migration en quelques minutes sans modification du code.

La latence est également un problème avec les plateformes centralisées nécessitant des trajets longue distance pour les requêtes. AkashML dirige le trafic vers le plus proche des plus de 80 centres de données mondiaux, offrant des temps de réponse inférieurs à 200 ms, adaptés aux applications en temps réel. Le verrouillage fournisseur limite la flexibilité et le contrôle sur les modèles et les données ; AkashML n’utilise que des modèles ouverts tels que Llama, DeepSeek et Qwen, donnant aux utilisateurs un contrôle total sur le versionnage, les mises à jour et la gouvernance. Les défis de scalabilité sont atténués par l’auto-scaling sur des ressources GPU décentralisées, garantissant 99 % de disponibilité et supprimant les limites de capacité tout en évitant les hausses soudaines de prix.

AkashML est conçu pour une intégration rapide et un retour sur investissement immédiat. Les nouveaux utilisateurs reçoivent $100 en crédits tokens IA pour expérimenter tous les modèles pris en charge via le Playground ou l’API. Un seul endpoint API prend en charge tous les modèles et s’intègre aux frameworks comme LangChain, Haystack ou des agents personnalisés. La tarification est transparente et spécifique à chaque modèle, évitant les coûts imprévus. Les déploiements à fort impact peuvent gagner en visibilité via Akash Star, et les prochaines mises à niveau du réseau, dont BME, les machines virtuelles et le calcul confidentiel, devraient encore réduire les coûts. Les premiers utilisateurs rapportent une réduction des coûts de trois à cinq fois et une latence mondiale constante sous 200 ms, créant un cercle vertueux de baisse des coûts, hausse de l’utilisation et augmentation de la participation des fournisseurs.

Commencer est simple : les utilisateurs peuvent créer un compte gratuit sur playground.akashml.com en moins de deux minutes, explorer la bibliothèque de modèles incluant Llama 3.3-70B, DeepSeek V3 et Qwen3-30B-A3B, et voir les prix affichés à l’avance. Des modèles supplémentaires peuvent être demandés directement depuis la plateforme. Les utilisateurs peuvent tester les modèles instantanément dans le Playground ou via l’API, surveiller l’utilisation, la latence et les dépenses via le tableau de bord, et passer en production avec le ciblage régional et l’auto-scaling.

L’inférence centralisée reste coûteuse, lente et restrictive, tandis qu’AkashML offre un accès entièrement géré, API-first et décentralisé aux meilleurs modèles open source à des prix dictés par le marché. Les développeurs et entreprises souhaitant réduire les coûts d’inférence jusqu’à 80 % peuvent commencer à utiliser la plateforme immédiatement.

AKT3.59%

Voir l'original

Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.