Console d’incident

Choisir un symptôme. Repartir avec un plan d’action.

Naxaya transforme les notes terrain en surface de réponse compacte : preuves, diagnostic, action bornée, rollback et notes exactes à ouvrir ensuite.

playbook live 13 symptômes

Cloud

Application Gateway retourne un 502

Ouvrir l’Atlas

Séparer health probe, résolution DNS, paramètres TLS et joignabilité réseau privée avant de modifier l’application.

Preuves

État backend health, résultat de probe, logs gateway, réponse DNS depuis le chemin gateway et paramètres TLS/SNI.

Premiers contrôles

Vérifier l’état de santé backend
Résoudre le nom backend depuis le chemin gateway
Valider TLS/SNI et la configuration de probe

Action bornée

Modifier uniquement la frontière en défaut : probe, FQDN backend, binding certificat ou route. Retester le même chemin après chaque changement.

Retour arrière

Restaurer les anciens paramètres probe/backend et conserver l’horodatage en échec pour comparer.

Passation courte

[Incident] Application Gateway retourne un 502
Contexte : Séparer health probe, résolution DNS, paramètres TLS et joignabilité réseau privée avant de modifier l’application.
Preuves à confirmer : État backend health, résultat de probe, logs gateway, réponse DNS depuis le chemin gateway et paramètres TLS/SNI.
Contrôles immédiats : Vérifier l’état de santé backend | Résoudre le nom backend depuis le chemin gateway | Valider TLS/SNI et la configuration de probe
Action proposée : Modifier uniquement la frontière en défaut : probe, FQDN backend, binding certificat ou route. Retester le même chemin après chaque changement.
Rollback : Restaurer les anciens paramètres probe/backend et conserver l’horodatage en échec pour comparer.

Revue post-incident

Symptôme traité : Application Gateway retourne un 502
Hypothèse initiale : Séparer health probe, résolution DNS, paramètres TLS et joignabilité réseau privée avant de modifier l’application.
Preuves utilisées : État backend health, résultat de probe, logs gateway, réponse DNS depuis le chemin gateway et paramètres TLS/SNI.
Contrôles effectués : Vérifier l’état de santé backend | Résoudre le nom backend depuis le chemin gateway | Valider TLS/SNI et la configuration de probe
Décision / action : Modifier uniquement la frontière en défaut : probe, FQDN backend, binding certificat ou route. Retester le même chemin après chaque changement.
Plan de retour arrière : Restaurer les anciens paramètres probe/backend et conserver l’horodatage en échec pour comparer.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Azure Application Gateway : diagnostiquer les erreurs 502 sans mélanger DNS, TLS et backend health Azure Private Endpoint : construire une matrice de validation avant la mise en production

Cloud

APIM interne retourne une erreur sur une API privée

Ouvrir l’Atlas

Corréler les logs Application Gateway/WAF et APIM, puis séparer DNS, TLS, policy, identité et joignabilité backend privée avant de modifier les policies ou rouvrir les accès.

Preuves

Corréler les logs Application Gateway/WAF et APIM, puis séparer DNS, TLS, policy, identité et joignabilité backend privée avant de modifier les policies ou rouvrir les accès.

Premiers contrôles

Vérifier si le WAF a bloqué la requête
Confirmer qu’APIM reçoit le même chemin
Valider DNS et TLS backend depuis le chemin APIM
Rejouer avec un identifiant de corrélation

Action bornée

Exécuter les premiers contrôles dans l’ordre : Vérifier si le WAF a bloqué la requête | Confirmer qu’APIM reçoit le même chemin | Valider DNS et TLS backend depuis le chemin APIM | Rejouer avec un identifiant de corrélation. Ouvrir les notes liées avant de modifier la production.

Retour arrière

Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Passation courte

[Incident] APIM interne retourne une erreur sur une API privée
Contexte : Corréler les logs Application Gateway/WAF et APIM, puis séparer DNS, TLS, policy, identité et joignabilité backend privée avant de modifier les policies ou rouvrir les accès.
Preuves à confirmer : Corréler les logs Application Gateway/WAF et APIM, puis séparer DNS, TLS, policy, identité et joignabilité backend privée avant de modifier les policies ou rouvrir les accès.
Contrôles immédiats : Vérifier si le WAF a bloqué la requête | Confirmer qu’APIM reçoit le même chemin | Valider DNS et TLS backend depuis le chemin APIM | Rejouer avec un identifiant de corrélation
Action proposée : Exécuter les premiers contrôles dans l’ordre : Vérifier si le WAF a bloqué la requête | Confirmer qu’APIM reçoit le même chemin | Valider DNS et TLS backend depuis le chemin APIM | Rejouer avec un identifiant de corrélation. Ouvrir les notes liées avant de modifier la production.
Rollback : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Revue post-incident

Symptôme traité : APIM interne retourne une erreur sur une API privée
Hypothèse initiale : Corréler les logs Application Gateway/WAF et APIM, puis séparer DNS, TLS, policy, identité et joignabilité backend privée avant de modifier les policies ou rouvrir les accès.
Preuves utilisées : Corréler les logs Application Gateway/WAF et APIM, puis séparer DNS, TLS, policy, identité et joignabilité backend privée avant de modifier les policies ou rouvrir les accès.
Contrôles effectués : Vérifier si le WAF a bloqué la requête | Confirmer qu’APIM reçoit le même chemin | Valider DNS et TLS backend depuis le chemin APIM | Rejouer avec un identifiant de corrélation
Décision / action : Exécuter les premiers contrôles dans l’ordre : Vérifier si le WAF a bloqué la requête | Confirmer qu’APIM reçoit le même chemin | Valider DNS et TLS backend depuis le chemin APIM | Rejouer avec un identifiant de corrélation. Ouvrir les notes liées avant de modifier la production.
Plan de retour arrière : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite APIM interne Azure : diagnostiquer une API privée avant de modifier les policies Snippet KQL : corréler WAF et APIM sur une API privée Azure Azure Application Gateway : diagnostiquer les erreurs 502 sans mélanger DNS, TLS et backend health

Networking

Un nom Private Endpoint résout encore en public

Ouvrir l’Atlas

Confirmer la chaîne CNAME, l’association Private DNS Zone et le forwarding hybride depuis le réseau consommateur.

Preuves

nslookup depuis le subnet workload, chaîne CNAME, liens Private DNS Zone, chemin de forwarding resolver et réponses en cache.

Premiers contrôles

Lancer nslookup depuis le réseau workload
Vérifier le CNAME privatelink
Contrôler les liens Private DNS Zone et forwarders

Action bornée

Corriger d’abord association de zone ou forwarding, puis vider les caches et retester depuis le réseau consommateur.

Retour arrière

Restaurer l’ancien lien ou forwarder et documenter l’écart entre réponse publique et privée.

Passation courte

[Incident] Un nom Private Endpoint résout encore en public
Contexte : Confirmer la chaîne CNAME, l’association Private DNS Zone et le forwarding hybride depuis le réseau consommateur.
Preuves à confirmer : nslookup depuis le subnet workload, chaîne CNAME, liens Private DNS Zone, chemin de forwarding resolver et réponses en cache.
Contrôles immédiats : Lancer nslookup depuis le réseau workload | Vérifier le CNAME privatelink | Contrôler les liens Private DNS Zone et forwarders
Action proposée : Corriger d’abord association de zone ou forwarding, puis vider les caches et retester depuis le réseau consommateur.
Rollback : Restaurer l’ancien lien ou forwarder et documenter l’écart entre réponse publique et privée.

Revue post-incident

Symptôme traité : Un nom Private Endpoint résout encore en public
Hypothèse initiale : Confirmer la chaîne CNAME, l’association Private DNS Zone et le forwarding hybride depuis le réseau consommateur.
Preuves utilisées : nslookup depuis le subnet workload, chaîne CNAME, liens Private DNS Zone, chemin de forwarding resolver et réponses en cache.
Contrôles effectués : Lancer nslookup depuis le réseau workload | Vérifier le CNAME privatelink | Contrôler les liens Private DNS Zone et forwarders
Décision / action : Corriger d’abord association de zone ou forwarding, puis vider les caches et retester depuis le réseau consommateur.
Plan de retour arrière : Restaurer l’ancien lien ou forwarder et documenter l’écart entre réponse publique et privée.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Snippet Azure : vérifier la résolution DNS d’un Private Endpoint Snippet Azure : repérer un drift DNS Private Endpoint DNS hybride Azure : quand utiliser Private Resolver, forwarders on-premises et zones privées Azure Private Endpoint : détecter le drift Terraform, DNS et réseau avant incident

Cloud

Un endpoint privé Azure Storage retourne 403, timeout ou aucun log de requête

Ouvrir l’Atlas

Séparer DNS du sous-service Storage, approbation Private Endpoint, règles firewall, identité runtime et logs Storage avant d’ouvrir l’accès public ou d’élargir RBAC.

Preuves

Séparer DNS du sous-service Storage, approbation Private Endpoint, règles firewall, identité runtime et logs Storage avant d’ouvrir l’accès public ou d’élargir RBAC.

Premiers contrôles

Résoudre le sous-service Storage exact depuis le réseau workload
Vérifier statut Private Endpoint et private DNS zone group
Rejouer avec un client request ID
Corréler les logs Storage pour 403, IP appelante et identité requérante

Action bornée

Exécuter les premiers contrôles dans l’ordre : Résoudre le sous-service Storage exact depuis le réseau workload | Vérifier statut Private Endpoint et private DNS zone group | Rejouer avec un client request ID | Corréler les logs Storage pour 403, IP appelante et identité requérante. Ouvrir les notes liées avant de modifier la production.

Retour arrière

Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Passation courte

[Incident] Un endpoint privé Azure Storage retourne 403, timeout ou aucun log de requête
Contexte : Séparer DNS du sous-service Storage, approbation Private Endpoint, règles firewall, identité runtime et logs Storage avant d’ouvrir l’accès public ou d’élargir RBAC.
Preuves à confirmer : Séparer DNS du sous-service Storage, approbation Private Endpoint, règles firewall, identité runtime et logs Storage avant d’ouvrir l’accès public ou d’élargir RBAC.
Contrôles immédiats : Résoudre le sous-service Storage exact depuis le réseau workload | Vérifier statut Private Endpoint et private DNS zone group | Rejouer avec un client request ID | Corréler les logs Storage pour 403, IP appelante et identité requérante
Action proposée : Exécuter les premiers contrôles dans l’ordre : Résoudre le sous-service Storage exact depuis le réseau workload | Vérifier statut Private Endpoint et private DNS zone group | Rejouer avec un client request ID | Corréler les logs Storage pour 403, IP appelante et identité requérante. Ouvrir les notes liées avant de modifier la production.
Rollback : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Revue post-incident

Symptôme traité : Un endpoint privé Azure Storage retourne 403, timeout ou aucun log de requête
Hypothèse initiale : Séparer DNS du sous-service Storage, approbation Private Endpoint, règles firewall, identité runtime et logs Storage avant d’ouvrir l’accès public ou d’élargir RBAC.
Preuves utilisées : Séparer DNS du sous-service Storage, approbation Private Endpoint, règles firewall, identité runtime et logs Storage avant d’ouvrir l’accès public ou d’élargir RBAC.
Contrôles effectués : Résoudre le sous-service Storage exact depuis le réseau workload | Vérifier statut Private Endpoint et private DNS zone group | Rejouer avec un client request ID | Corréler les logs Storage pour 403, IP appelante et identité requérante
Décision / action : Exécuter les premiers contrôles dans l’ordre : Résoudre le sous-service Storage exact depuis le réseau workload | Vérifier statut Private Endpoint et private DNS zone group | Rejouer avec un client request ID | Corréler les logs Storage pour 403, IP appelante et identité requérante. Ouvrir les notes liées avant de modifier la production.
Plan de retour arrière : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Azure Storage : diagnostiquer un endpoint privé sans ouvrir le compte Snippet KQL : isoler les 403 Azure Storage sur endpoint privé Azure Private Endpoint : détecter le drift Terraform, DNS et réseau avant incident

Cloud

Une probe synthétique échoue sur un chemin privé Azure

Ouvrir l’Atlas

Séparer DNS, TLS, health Application Gateway, blocages WAF et réseau du runner avant de modifier le routage ou le code applicatif.

Preuves

Séparer DNS, TLS, health Application Gateway, blocages WAF et réseau du runner avant de modifier le routage ou le code applicatif.

Premiers contrôles

Résoudre le hostname depuis le réseau de probe
Contrôler TLS/SNI avec le vrai hostname
Corréler le run de probe avec les logs WAF et gateway

Action bornée

Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau de probe | Contrôler TLS/SNI avec le vrai hostname | Corréler le run de probe avec les logs WAF et gateway. Ouvrir les notes liées avant de modifier la production.

Retour arrière

Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Passation courte

[Incident] Une probe synthétique échoue sur un chemin privé Azure
Contexte : Séparer DNS, TLS, health Application Gateway, blocages WAF et réseau du runner avant de modifier le routage ou le code applicatif.
Preuves à confirmer : Séparer DNS, TLS, health Application Gateway, blocages WAF et réseau du runner avant de modifier le routage ou le code applicatif.
Contrôles immédiats : Résoudre le hostname depuis le réseau de probe | Contrôler TLS/SNI avec le vrai hostname | Corréler le run de probe avec les logs WAF et gateway
Action proposée : Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau de probe | Contrôler TLS/SNI avec le vrai hostname | Corréler le run de probe avec les logs WAF et gateway. Ouvrir les notes liées avant de modifier la production.
Rollback : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Revue post-incident

Symptôme traité : Une probe synthétique échoue sur un chemin privé Azure
Hypothèse initiale : Séparer DNS, TLS, health Application Gateway, blocages WAF et réseau du runner avant de modifier le routage ou le code applicatif.
Preuves utilisées : Séparer DNS, TLS, health Application Gateway, blocages WAF et réseau du runner avant de modifier le routage ou le code applicatif.
Contrôles effectués : Résoudre le hostname depuis le réseau de probe | Contrôler TLS/SNI avec le vrai hostname | Corréler le run de probe avec les logs WAF et gateway
Décision / action : Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau de probe | Contrôler TLS/SNI avec le vrai hostname | Corréler le run de probe avec les logs WAF et gateway. Ouvrir les notes liées avant de modifier la production.
Plan de retour arrière : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Azure : rendre les chemins privés vérifiables avec des probes synthétiques Snippet KQL : suivre les probes synthétiques d’un chemin privé Azure Azure Application Gateway : diagnostiquer les erreurs 502 sans mélanger DNS, TLS et backend health Azure Private Endpoint : détecter le drift Terraform, DNS et réseau avant incident

Cloud

L’ingress privé Azure Container Apps échoue ou atteint la mauvaise révision

Ouvrir l’Atlas

Séparer DNS privé, passage Application Gateway, mode d’ingress Container Apps, trafic des révisions et logs console avant rollback ou changement de poids.

Preuves

Séparer DNS privé, passage Application Gateway, mode d’ingress Container Apps, trafic des révisions et logs console avant rollback ou changement de poids.

Premiers contrôles

Résoudre le hostname depuis le réseau appelant
Vérifier target port ingress et révisions actives
Corréler logs system et console

Action bornée

Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau appelant | Vérifier target port ingress et révisions actives | Corréler logs system et console. Ouvrir les notes liées avant de modifier la production.

Retour arrière

Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Passation courte

[Incident] L’ingress privé Azure Container Apps échoue ou atteint la mauvaise révision
Contexte : Séparer DNS privé, passage Application Gateway, mode d’ingress Container Apps, trafic des révisions et logs console avant rollback ou changement de poids.
Preuves à confirmer : Séparer DNS privé, passage Application Gateway, mode d’ingress Container Apps, trafic des révisions et logs console avant rollback ou changement de poids.
Contrôles immédiats : Résoudre le hostname depuis le réseau appelant | Vérifier target port ingress et révisions actives | Corréler logs system et console
Action proposée : Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau appelant | Vérifier target port ingress et révisions actives | Corréler logs system et console. Ouvrir les notes liées avant de modifier la production.
Rollback : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Revue post-incident

Symptôme traité : L’ingress privé Azure Container Apps échoue ou atteint la mauvaise révision
Hypothèse initiale : Séparer DNS privé, passage Application Gateway, mode d’ingress Container Apps, trafic des révisions et logs console avant rollback ou changement de poids.
Preuves utilisées : Séparer DNS privé, passage Application Gateway, mode d’ingress Container Apps, trafic des révisions et logs console avant rollback ou changement de poids.
Contrôles effectués : Résoudre le hostname depuis le réseau appelant | Vérifier target port ingress et révisions actives | Corréler logs system et console
Décision / action : Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau appelant | Vérifier target port ingress et révisions actives | Corréler logs system et console. Ouvrir les notes liées avant de modifier la production.
Plan de retour arrière : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Azure Container Apps : diagnostiquer un ingress privé avant de changer les révisions Snippet KQL : diagnostiquer ingress privé et révisions Container Apps Azure : rendre les chemins privés vérifiables avec des probes synthétiques

Cloud

L’ingress privé AKS retourne 502 ou ne trouve aucun endpoint de service

Ouvrir l’Atlas

Séparer DNS privé, health Application Gateway, routage ingress controller, selectors de service Kubernetes, endpoint slices et readiness des pods avant de rollback un déploiement.

Preuves

Séparer DNS privé, health Application Gateway, routage ingress controller, selectors de service Kubernetes, endpoint slices et readiness des pods avant de rollback un déploiement.

Premiers contrôles

Résoudre le hostname depuis le réseau appelant
Vérifier backend health Application Gateway et host header
Contrôler ingress, service et endpoint slices
Corréler logs controller et applicatifs

Action bornée

Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau appelant | Vérifier backend health Application Gateway et host header | Contrôler ingress, service et endpoint slices | Corréler logs controller et applicatifs. Ouvrir les notes liées avant de modifier la production.

Retour arrière

Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Passation courte

[Incident] L’ingress privé AKS retourne 502 ou ne trouve aucun endpoint de service
Contexte : Séparer DNS privé, health Application Gateway, routage ingress controller, selectors de service Kubernetes, endpoint slices et readiness des pods avant de rollback un déploiement.
Preuves à confirmer : Séparer DNS privé, health Application Gateway, routage ingress controller, selectors de service Kubernetes, endpoint slices et readiness des pods avant de rollback un déploiement.
Contrôles immédiats : Résoudre le hostname depuis le réseau appelant | Vérifier backend health Application Gateway et host header | Contrôler ingress, service et endpoint slices | Corréler logs controller et applicatifs
Action proposée : Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau appelant | Vérifier backend health Application Gateway et host header | Contrôler ingress, service et endpoint slices | Corréler logs controller et applicatifs. Ouvrir les notes liées avant de modifier la production.
Rollback : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Revue post-incident

Symptôme traité : L’ingress privé AKS retourne 502 ou ne trouve aucun endpoint de service
Hypothèse initiale : Séparer DNS privé, health Application Gateway, routage ingress controller, selectors de service Kubernetes, endpoint slices et readiness des pods avant de rollback un déploiement.
Preuves utilisées : Séparer DNS privé, health Application Gateway, routage ingress controller, selectors de service Kubernetes, endpoint slices et readiness des pods avant de rollback un déploiement.
Contrôles effectués : Résoudre le hostname depuis le réseau appelant | Vérifier backend health Application Gateway et host header | Contrôler ingress, service et endpoint slices | Corréler logs controller et applicatifs
Décision / action : Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau appelant | Vérifier backend health Application Gateway et host header | Contrôler ingress, service et endpoint slices | Corréler logs controller et applicatifs. Ouvrir les notes liées avant de modifier la production.
Plan de retour arrière : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Azure AKS : diagnostiquer un ingress privé avant de changer les déploiements Snippet KQL : corréler ingress privé AKS et logs applicatifs Azure Application Gateway : diagnostiquer les erreurs 502 sans mélanger DNS, TLS et backend health

Cloud

Un endpoint HTTP privé Azure Functions retourne 403, 503 ou aucun log de requête

Ouvrir l’Atlas

Séparer DNS privé, joignabilité Private Endpoint, restrictions d’accès, état runtime Functions, storage privé et preuves Application Insights avant de redéployer le code ou rouvrir l’accès public.

Preuves

Premiers contrôles

Résoudre le hostname depuis le réseau appelant
Rejouer avec un identifiant de corrélation
Vérifier access restrictions et statut Private Endpoint
Corréler requests, traces et exceptions

Action bornée

Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau appelant | Rejouer avec un identifiant de corrélation | Vérifier access restrictions et statut Private Endpoint | Corréler requests, traces et exceptions. Ouvrir les notes liées avant de modifier la production.

Retour arrière

Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Passation courte

[Incident] Un endpoint HTTP privé Azure Functions retourne 403, 503 ou aucun log de requête
Contexte : Séparer DNS privé, joignabilité Private Endpoint, restrictions d’accès, état runtime Functions, storage privé et preuves Application Insights avant de redéployer le code ou rouvrir l’accès public.
Preuves à confirmer : Séparer DNS privé, joignabilité Private Endpoint, restrictions d’accès, état runtime Functions, storage privé et preuves Application Insights avant de redéployer le code ou rouvrir l’accès public.
Contrôles immédiats : Résoudre le hostname depuis le réseau appelant | Rejouer avec un identifiant de corrélation | Vérifier access restrictions et statut Private Endpoint | Corréler requests, traces et exceptions
Action proposée : Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau appelant | Rejouer avec un identifiant de corrélation | Vérifier access restrictions et statut Private Endpoint | Corréler requests, traces et exceptions. Ouvrir les notes liées avant de modifier la production.
Rollback : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Revue post-incident

Symptôme traité : Un endpoint HTTP privé Azure Functions retourne 403, 503 ou aucun log de requête
Hypothèse initiale : Séparer DNS privé, joignabilité Private Endpoint, restrictions d’accès, état runtime Functions, storage privé et preuves Application Insights avant de redéployer le code ou rouvrir l’accès public.
Preuves utilisées : Séparer DNS privé, joignabilité Private Endpoint, restrictions d’accès, état runtime Functions, storage privé et preuves Application Insights avant de redéployer le code ou rouvrir l’accès public.
Contrôles effectués : Résoudre le hostname depuis le réseau appelant | Rejouer avec un identifiant de corrélation | Vérifier access restrictions et statut Private Endpoint | Corréler requests, traces et exceptions
Décision / action : Exécuter les premiers contrôles dans l’ordre : Résoudre le hostname depuis le réseau appelant | Rejouer avec un identifiant de corrélation | Vérifier access restrictions et statut Private Endpoint | Corréler requests, traces et exceptions. Ouvrir les notes liées avant de modifier la production.
Plan de retour arrière : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Azure Functions : diagnostiquer un endpoint HTTP privé avant de changer le code Snippet KQL : corréler endpoint HTTP privé Azure Functions Azure : rendre les chemins privés vérifiables avec des probes synthétiques

Cloud

Azure WAF bloque une requête légitime

Ouvrir l’Atlas

Partir des requêtes bloquées, du ruleId et de l’URI avant de choisir exclusion, custom rule ou correction applicative.

Preuves

URI bloquée, ruleId, variable matchée, client IP, hostname, request ID et fenêtre temporelle exacte.

Premiers contrôles

Lister les URI bloquées en KQL
Identifier ruleId et champ matché
Valider le périmètre du faux positif

Action bornée

Créer la plus petite exclusion ou custom rule possible sans désactiver la règle globalement.

Retour arrière

Supprimer l’exclusion/custom rule et vérifier que le blocage attendu revient sur la même famille de règles.

Passation courte

[Incident] Azure WAF bloque une requête légitime
Contexte : Partir des requêtes bloquées, du ruleId et de l’URI avant de choisir exclusion, custom rule ou correction applicative.
Preuves à confirmer : URI bloquée, ruleId, variable matchée, client IP, hostname, request ID et fenêtre temporelle exacte.
Contrôles immédiats : Lister les URI bloquées en KQL | Identifier ruleId et champ matché | Valider le périmètre du faux positif
Action proposée : Créer la plus petite exclusion ou custom rule possible sans désactiver la règle globalement.
Rollback : Supprimer l’exclusion/custom rule et vérifier que le blocage attendu revient sur la même famille de règles.

Revue post-incident

Symptôme traité : Azure WAF bloque une requête légitime
Hypothèse initiale : Partir des requêtes bloquées, du ruleId et de l’URI avant de choisir exclusion, custom rule ou correction applicative.
Preuves utilisées : URI bloquée, ruleId, variable matchée, client IP, hostname, request ID et fenêtre temporelle exacte.
Contrôles effectués : Lister les URI bloquées en KQL | Identifier ruleId et champ matché | Valider le périmètre du faux positif
Décision / action : Créer la plus petite exclusion ou custom rule possible sans désactiver la règle globalement.
Plan de retour arrière : Supprimer l’exclusion/custom rule et vérifier que le blocage attendu revient sur la même famille de règles.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Snippet KQL : lister rapidement les URI bloquées par Azure WAF WAF et KQL : identifier un faux positif avant de créer une exclusion Azure WAF : ajouter une exclusion OWASP/CRS sans affaiblir toute la protection Azure WAF : encadrer une règle custom d’urgence sans perdre la preuve Snippet Azure : auditer les priorités des custom rules WAF

Automation

Le state lock Terraform reste bloqué

Ouvrir l’Atlas

Prouver qu’aucun apply n’est encore actif avant force-unlock, puis repartir sur un plan propre.

Preuves

Lock ID, propriétaire du lock, run CI, backend ciblé, plan en attente et preuve qu’aucun apply n’est actif.

Premiers contrôles

Identifier le propriétaire du lock
Contrôler le statut du job CI
Relancer un plan après unlock

Action bornée

Déverrouiller seulement après avoir prouvé qu’aucun apply ne tourne, puis repartir sur un plan frais avant tout apply.

Retour arrière

Revenir au commit précédent ou restaurer la dernière version de state validée si une dérive a été introduite.

Passation courte

[Incident] Le state lock Terraform reste bloqué
Contexte : Prouver qu’aucun apply n’est encore actif avant force-unlock, puis repartir sur un plan propre.
Preuves à confirmer : Lock ID, propriétaire du lock, run CI, backend ciblé, plan en attente et preuve qu’aucun apply n’est actif.
Contrôles immédiats : Identifier le propriétaire du lock | Contrôler le statut du job CI | Relancer un plan après unlock
Action proposée : Déverrouiller seulement après avoir prouvé qu’aucun apply ne tourne, puis repartir sur un plan frais avant tout apply.
Rollback : Revenir au commit précédent ou restaurer la dernière version de state validée si une dérive a été introduite.

Revue post-incident

Symptôme traité : Le state lock Terraform reste bloqué
Hypothèse initiale : Prouver qu’aucun apply n’est encore actif avant force-unlock, puis repartir sur un plan propre.
Preuves utilisées : Lock ID, propriétaire du lock, run CI, backend ciblé, plan en attente et preuve qu’aucun apply n’est actif.
Contrôles effectués : Identifier le propriétaire du lock | Contrôler le statut du job CI | Relancer un plan après unlock
Décision / action : Déverrouiller seulement après avoir prouvé qu’aucun apply ne tourne, puis repartir sur un plan frais avant tout apply.
Plan de retour arrière : Revenir au commit précédent ou restaurer la dernière version de state validée si une dérive a été introduite.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Snippet Terraform : diagnostiquer un state lock bloqué avant force-unlock Terraform Azure : sécuriser le backend state privé sans casser la CI

Infrastructure

Une rotation de secret ou un changement d’identité managée casse un consommateur applicatif ou CI

Ouvrir l’Atlas

Séparer préparation, bascule, révocation et diagnostic d’identité managée ; valider l’identité réelle d’exécution, le chemin privé et les erreurs d’authentification avant de supprimer l’ancienne valeur ou d’élargir l’accès.

Preuves

Premiers contrôles

Lister les consommateurs réels
Vérifier l’identité runtime et la lecture du coffre
Contrôler DNS privé et réseau source
Surveiller les 401/403/500 ou refus Key Vault

Action bornée

Exécuter les premiers contrôles dans l’ordre : Lister les consommateurs réels | Vérifier l’identité runtime et la lecture du coffre | Contrôler DNS privé et réseau source | Surveiller les 401/403/500 ou refus Key Vault. Ouvrir les notes liées avant de modifier la production.

Retour arrière

Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Passation courte

[Incident] Une rotation de secret ou un changement d’identité managée casse un consommateur applicatif ou CI
Contexte : Séparer préparation, bascule, révocation et diagnostic d’identité managée ; valider l’identité réelle d’exécution, le chemin privé et les erreurs d’authentification avant de supprimer l’ancienne valeur ou d’élargir l’accès.
Preuves à confirmer : Séparer préparation, bascule, révocation et diagnostic d’identité managée ; valider l’identité réelle d’exécution, le chemin privé et les erreurs d’authentification avant de supprimer l’ancienne valeur ou d’élargir l’accès.
Contrôles immédiats : Lister les consommateurs réels | Vérifier l’identité runtime et la lecture du coffre | Contrôler DNS privé et réseau source | Surveiller les 401/403/500 ou refus Key Vault
Action proposée : Exécuter les premiers contrôles dans l’ordre : Lister les consommateurs réels | Vérifier l’identité runtime et la lecture du coffre | Contrôler DNS privé et réseau source | Surveiller les 401/403/500 ou refus Key Vault. Ouvrir les notes liées avant de modifier la production.
Rollback : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.

Revue post-incident

Symptôme traité : Une rotation de secret ou un changement d’identité managée casse un consommateur applicatif ou CI
Hypothèse initiale : Séparer préparation, bascule, révocation et diagnostic d’identité managée ; valider l’identité réelle d’exécution, le chemin privé et les erreurs d’authentification avant de supprimer l’ancienne valeur ou d’élargir l’accès.
Preuves utilisées : Séparer préparation, bascule, révocation et diagnostic d’identité managée ; valider l’identité réelle d’exécution, le chemin privé et les erreurs d’authentification avant de supprimer l’ancienne valeur ou d’élargir l’accès.
Contrôles effectués : Lister les consommateurs réels | Vérifier l’identité runtime et la lecture du coffre | Contrôler DNS privé et réseau source | Surveiller les 401/403/500 ou refus Key Vault
Décision / action : Exécuter les premiers contrôles dans l’ordre : Lister les consommateurs réels | Vérifier l’identité runtime et la lecture du coffre | Contrôler DNS privé et réseau source | Surveiller les 401/403/500 ou refus Key Vault. Ouvrir les notes liées avant de modifier la production.
Plan de retour arrière : Arrêter le changement, restaurer le dernier état sûr connu et conserver les preuves capturées pour comparaison.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Rotation des secrets et identités de service : un runbook de production, pas une tâche isolée Snippet KQL : repérer les erreurs d’authentification après rotation d’un secret Identité managée Azure : diagnostiquer l’accès privé avant de changer les droits Snippet KQL : diagnostiquer un refus Key Vault avec identité managée

Automation

Une automatisation ressemble à une console distante

Ouvrir l’Atlas

Borner les entrées, templates et dépôts avant d’exposer des opérations à plus d’utilisateurs.

Preuves

Entrées acceptées par le template, permissions, périmètre d’inventaire, branche dépôt et trace d’audit.

Premiers contrôles

Lister les entrées acceptées
Supprimer les champs de commande arbitraire
Revoir les permissions des job templates

Action bornée

Remplacer les entrées arbitraires par des choix bornés et isoler les job templates par intention opérationnelle.

Retour arrière

Désactiver le template exposé ou revenir à la version de template précédemment approuvée.

Passation courte

[Incident] Une automatisation ressemble à une console distante
Contexte : Borner les entrées, templates et dépôts avant d’exposer des opérations à plus d’utilisateurs.
Preuves à confirmer : Entrées acceptées par le template, permissions, périmètre d’inventaire, branche dépôt et trace d’audit.
Contrôles immédiats : Lister les entrées acceptées | Supprimer les champs de commande arbitraire | Revoir les permissions des job templates
Action proposée : Remplacer les entrées arbitraires par des choix bornés et isoler les job templates par intention opérationnelle.
Rollback : Désactiver le template exposé ou revenir à la version de template précédemment approuvée.

Revue post-incident

Symptôme traité : Une automatisation ressemble à une console distante
Hypothèse initiale : Borner les entrées, templates et dépôts avant d’exposer des opérations à plus d’utilisateurs.
Preuves utilisées : Entrées acceptées par le template, permissions, périmètre d’inventaire, branche dépôt et trace d’audit.
Contrôles effectués : Lister les entrées acceptées | Supprimer les champs de commande arbitraire | Revoir les permissions des job templates
Décision / action : Remplacer les entrées arbitraires par des choix bornés et isoler les job templates par intention opérationnelle.
Plan de retour arrière : Désactiver le template exposé ou revenir à la version de template précédemment approuvée.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite AWX : concevoir des job templates qui ne deviennent pas une console distante dangereuse Ansible en production : structurer un dépôt d’exploitation avant de l’exposer dans AWX

Un agent IA privé peut agir sans que l’action soit explicable

Ouvrir l’Atlas

Relier sources, identités, appels d’outils, journaux et validation humaine avant d’augmenter l’autonomie.

Preuves

Documents sources, identité, appels d’outils, contexte de prompt, logs et point de validation humaine.

Premiers contrôles

Lister les sources approuvées
Tracer les appels d’outils
Définir les points d’approbation humaine

Action bornée

Réduire le périmètre des outils, exiger une approbation sur les actions sensibles et relier chaque appel d’outil à une source.

Retour arrière

Désactiver l’intégration outil ou imposer une validation humaine tant que le chemin d’action n’est pas explicable.

Passation courte

[Incident] Un agent IA privé peut agir sans que l’action soit explicable
Contexte : Relier sources, identités, appels d’outils, journaux et validation humaine avant d’augmenter l’autonomie.
Preuves à confirmer : Documents sources, identité, appels d’outils, contexte de prompt, logs et point de validation humaine.
Contrôles immédiats : Lister les sources approuvées | Tracer les appels d’outils | Définir les points d’approbation humaine
Action proposée : Réduire le périmètre des outils, exiger une approbation sur les actions sensibles et relier chaque appel d’outil à une source.
Rollback : Désactiver l’intégration outil ou imposer une validation humaine tant que le chemin d’action n’est pas explicable.

Revue post-incident

Symptôme traité : Un agent IA privé peut agir sans que l’action soit explicable
Hypothèse initiale : Relier sources, identités, appels d’outils, journaux et validation humaine avant d’augmenter l’autonomie.
Preuves utilisées : Documents sources, identité, appels d’outils, contexte de prompt, logs et point de validation humaine.
Contrôles effectués : Lister les sources approuvées | Tracer les appels d’outils | Définir les points d’approbation humaine
Décision / action : Réduire le périmètre des outils, exiger une approbation sur les actions sensibles et relier chaque appel d’outil à une source.
Plan de retour arrière : Désactiver l’intégration outil ou imposer une validation humaine tant que le chemin d’action n’est pas explicable.
À améliorer : détection, runbook, garde-fou, ownership et délai de communication.

À ouvrir ensuite Agent IA en réseau privé : quels contrôles garder autour des données, actions et journaux