Forcer la désindexation de pages

Si un environnement de dev/qualif/preprod est indexé par les moteurs de recherche, une simple restriction (403) ne résoud le problème que partiellement.

En effet, les robots ne pourront plus accéder aux pages mais elles resteront dans l’index (donc interrogées régulièrement).

Renvoyer des 410 afin de désindexer des pages

Pour indiquer aux moteurs de recherche que ces pages sont à désindexer, le moyen le plus rapide c’est de renvoyer des 410. Ce code indique qu’une ressource qui était disponible auparavant ne l’est plus actuellement.

RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} Googlebot [OR]
RewriteCond %{HTTP_USER_AGENT} AdsBot-Google [OR]
RewriteCond %{HTTP_USER_AGENT} msnbot [OR]
RewriteCond %{HTTP_USER_AGENT} AltaVista [OR]
RewriteCond %{HTTP_USER_AGENT} Slurp
RewriteRule . - [G,L]

Pour cibler des pages en particulier, suivre l’exemple ci-dessous.

RewriteRule ^/wp-content/uploads/2017/01/CV_RF-Continue.pdf$ - [G,NC]
RewriteRule ^/wp-content/uploads/2017/01/CV.pdf$ - [G,NC]
RewriteRule ^/wp-content/uploads/2017/01/LM.pdf$ - [G,NC]
RewriteRule ^/wp-content/uploads/2016/11/lettre_motivation_XT.pdf$ - [G,NC]
RewriteRule ^/wp-content/uploads/2016/07/201606-CV-FR-v1.pdf$ - [G,NC]

Conclusion

Une simple restriction 403 ne résout pas le problème, il faut forcer un code 410.

Bonus : Plusieurs tests internes démontrent qu’au bout de 2 semaines, les URLs commencent à disparaître du moteur de recherche contre 6 mois environ quand du 403 est renvoyé !

Enjoy !