Hier soir, tous les nœuds proxy ont explosé simultanément.
Trois défaillances simultanées : erreur d'autorisation des logs xray sur VPS provoquant un crash du processus, fichier de configuration Clash local corrompu, IP du nœud japonais suspectée d'être bloquée. Le résultat a été — la connexion avec Claude Code a été complètement coupée. C'est à ce moment-là que j'ai réalisé une chose : il m'est très difficile de diagnostiquer le problème en "bare metal". Au cours des six derniers mois, presque toutes les décisions techniques ont été prises en dialoguant avec l'IA. Lecture des logs, modification des configurations, consultation de la documentation, écriture de scripts, tout le processus avec l'IA et Claude Code. Soudainement déconnecté, ce n'est même pas une question de "manque de confort", c'est vraiment que je ne savais pas par où commencer. Finalement, j'ai utilisé la subscription proxy d'un ami pour me remettre en ligne temporairement, en utilisant Claude Code. Je me suis auto-réparé mon infrastructure : identification des causes profondes des trois défaillances simultanées, correction des permissions, restauration de la configuration à partir d'une sauvegarde, migration avec snapshot complet sur Vultr en changeant d'IP. Quatre processus PM2, neuf tâches cron programmées, tout le code et les données restaurés tels quels, et avec un nouvel IP, je suis revenu à pleine santé. Après la réparation, j'ai fait une chose que je devais faire depuis longtemps : je me suis créé un kit de secours hors ligne. Je fais tourner un petit modèle localement, avec un manuel d'urgence (scénarios de défaillance + commandes de diagnostic + paramètres de protocole), et quand je suis déconnecté, le modèle local lit le manuel pour suivre les étapes de diagnostic. Zéro coût, pas besoin de réseau. Une petite réflexion : si tu dépends lourdement de l'IA CLI pour ton travail chaque jour, ton couche proxy/réseau est ta "ligne de vie IA". Elle doit aussi être conçue pour une haute disponibilité — basculement automatique entre nœuds principaux et de secours, plan de dégradation hors ligne, manuel d'urgence. C'est la même logique que pour déployer un service en production, sauf que cette fois, le service qui tombe en panne, c'est ton propre cerveau.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Hier soir, tous les nœuds proxy ont explosé simultanément.
Trois défaillances simultanées : erreur d'autorisation des logs xray sur VPS provoquant un crash du processus, fichier de configuration Clash local corrompu, IP du nœud japonais suspectée d'être bloquée. Le résultat a été — la connexion avec Claude Code a été complètement coupée.
C'est à ce moment-là que j'ai réalisé une chose : il m'est très difficile de diagnostiquer le problème en "bare metal".
Au cours des six derniers mois, presque toutes les décisions techniques ont été prises en dialoguant avec l'IA. Lecture des logs, modification des configurations, consultation de la documentation, écriture de scripts, tout le processus avec l'IA et Claude Code. Soudainement déconnecté, ce n'est même pas une question de "manque de confort", c'est vraiment que je ne savais pas par où commencer.
Finalement, j'ai utilisé la subscription proxy d'un ami pour me remettre en ligne temporairement, en utilisant Claude Code.
Je me suis auto-réparé mon infrastructure : identification des causes profondes des trois défaillances simultanées, correction des permissions, restauration de la configuration à partir d'une sauvegarde, migration avec snapshot complet sur Vultr en changeant d'IP. Quatre processus PM2, neuf tâches cron programmées, tout le code et les données restaurés tels quels, et avec un nouvel IP, je suis revenu à pleine santé.
Après la réparation, j'ai fait une chose que je devais faire depuis longtemps : je me suis créé un kit de secours hors ligne.
Je fais tourner un petit modèle localement, avec un manuel d'urgence (scénarios de défaillance + commandes de diagnostic + paramètres de protocole), et quand je suis déconnecté, le modèle local lit le manuel pour suivre les étapes de diagnostic. Zéro coût, pas besoin de réseau.
Une petite réflexion : si tu dépends lourdement de l'IA CLI pour ton travail chaque jour, ton couche proxy/réseau est ta "ligne de vie IA". Elle doit aussi être conçue pour une haute disponibilité — basculement automatique entre nœuds principaux et de secours, plan de dégradation hors ligne, manuel d'urgence.
C'est la même logique que pour déployer un service en production, sauf que cette fois, le service qui tombe en panne, c'est ton propre cerveau.