Désindexer des pages web et fichiers de Google en 2019

Que ce soit pour désindexer une ou plusieurs pages de son site des moteurs de recherche comme Google, Qwant ou Bing, désindexer un fichier PDF ou d’autres fichiers sans code source, ou bien bloquer l’indexation d’un nouveau site ou d’un site en cours de développement, les utilisateurs recherchent aujourd’hui les méthodes les plus utilisées mais aussi les plus efficaces en 2019.

Dernièrement, Google a annonce que la désindexation de pages, fichiers et groupes de pages à travers la commande « Noindex : » du robots.txt, n’est plus prise en compte par ce dernier depuis le 1^er septembre 2019. Malgré cela, il existe plusieurs alternatives à cette méthode.

Via La balise HTML Meta Noindex :

Les webmasters, développeurs et référenceurs utilisent généralement la méthode du meta noindex pour désindexer ou empêcher l’indexation future de pages web dans les moteurs de recherche. Ces derniers apprécient également cette méthode car elle est supportée par leur intégralité.

Selon Google, il s’agit de la méthode la plus efficace de désindexation ou blocage d’indexation. Facile à utiliser lorsqu’on la place dans le code HTML, elle ne demande pas beaucoup de connaissances techniques, mais est seulement utilisable sur des pages qui doivent être désindexées. Dans le cas contraire, le référencement et le trafic peuvent être gravement impactés.

L’entête HTTP X-ROBOTS-TAG NOINDEX :

C’est la méthode idéale pour désindexer des fichiers ne disposant pas de code source des moteurs de recherche. Dans ce cas-là, il est indispensable de faire appel à un développeur car cette méthode demande des connaissances techniques qui permettent de modifier sans aucun risque le ficher .htaccess ou httpd.conf.

Afin de désindexer une page web, un fichier pdf, ou une image en utilisant l’entête http X-Robots-Tag, il faut simplement ajouter « noindex » à la suite de cette dernière.

Le renvoi d’un code de réponse http 404 ou 410 afin de désindexer des pages et des fichiers inexistants :

Dans le cas où une page web ou un fichier n’existent plus sur votre site internet et que ce dernier n’est pas remplacé, il faut renvoyer un code de réponse 404 (not found) ou 410 (gone). Il s‘agit d’une bonne pratique permettant de désindexer à terme la page ou la ressource.

Pour les moteurs de recherche, il s’agit de deux codes qui montent que la ressource n’existe pas. Concernant le code 410, il confirme en revanche que cette dernière a existé et qu’elle n’existera plus. Il s‘agit d’un code plus précis qu’un code de réponse 404.

Utiliser le robots.txt pour bloquer le Crawl de pages et fichiers :

Si l’utilisateur souhaite bloquer l’indexation de pages ou de fichiers d’un nouveau site ou d’un site qui n’a jamais été indexé pou crawlé par les moteurs de recherche, il faut bloquer le crawl via le robots-txt. Ces pages et ressources ne seront donc pas indexables puisque non crawlables.

Il suffit simplement d’ajouter dans le fichier robots ;txt des directives tels que « Disallow: /*.pdf » ou « Disallow: */categorie-a-ne-pas-indexer/* ».

posts récents