Wednesday, December 2

Différences entre noindex&; et robots.txt en SEO Utilisez-les correctement!

Si vous avez atteint ce poste, vous savez sûrement déjà ce qu’est la désindexation et pourquoi vous voulez vous en occuper sur certaines de vos pages.

L’objectif de ce message est de bien différencier les robots.txt et la balise “noindex” appelez chaque chose par son nom et ne soyez pas confus.

Dans cet article, vous pourrez lire:

Objectif principal: désindexation

Si vous avez atteint cet article, vous savez probablement déjà ce qu’est la désindexation et pourquoi vous souhaitez vous y engager dans certaines de vos pages

Très probablement, vous avez des doutes sur la méthode à utiliser pour y parvenir, car vous savez que les deux existent mais vous ne savez pas ce que chacune implique, ce qui est mieux, si vous les utilisez simultanément …

Ne vous inquiétez pas, l’objectif final va être atteint : désindexer. Maintenant, je vais expliquer laquelle des deux méthodes vous convient le mieux dans chaque cas et les différences entre elles.

Qu’est-ce que Robots.txt?

Le fichier robots.txt est un fichier texte que vous devez stocker à la racine de votre site Web. Ce fichier est utilisé pour donner des ordres aux différents moteurs de recherche afin de bloquer ou autoriser l’accès d’araignées ou de robots à une URL, un répertoire ou un web. Il est entendu qu’une page bloquée par le fichier robots.txt ne doit pas être traçable car un bot est inaccessible et ne doit donc pas être indexable.

Lorsque nous incluons une ligne dans le fichier robots avec un refus: suivi d’une URL ou d’un répertoire, nous disons à un moteur de recherche que nous ne voulons pas que vos robots accèdent à cet endroit . C’est une porte complètement fermée au suivi, bien qu’avec des mises en garde.

Que pouvons-nous réaliser avec ce «refus»?

Si une certaine page est marquée avec interdiction, GoogleBot n’accédera pas à et par conséquent ne peut pas le stocker ou l’analyser ce qui a pour effet de désindexer ou directement la non-indexation d’une page. Ce dernier est facile, nous désindexons lorsqu’une page a été indexée à un moment donné de sa vie, et si une page est «née» directement en interdiction, elle ne sera jamais (ou ne devrait pas) être indexée.

Si vous avez compris ces derniers paragraphes, vous comprendrez pourquoi j’aime dire que robots.txt n’est pas un outil créé pour désindexer . Whaaat? Oui, étant correct et plus papiste que le pape, il en est ainsi. C’est un outil qui permet à de choisir quelles parties d’un site Web sont suivies par des bots une seule des conséquences du refus est la non-indexation de ces pages.

Comment utiliser Robots.txt?

Le robots.txt est accessible de plusieurs façons tant qu’il est généré, bien sûr.

Si vous avez WordPress comme CMS, vous pouvez modifier robots.txt facilement avec le plugin SEO by Yoast. Voici un tutoriel Yoast SEO complet .

Dans la configuration du plugin, allez dans Outils> Éditeur de fichiers . À l’intérieur, vous verrez les lignes qui composent le fichier robots.txt.

À partir de là, vous pouvez ajouter directement le refus que vous souhaitez. Tapez manuellement:

 Interdisez: / url / 

De cette façon, vous bloquerez l’accès aux moteurs de recherche à cette URL.

N’oubliez pas que vous pouvez choisir les moteurs de recherche auxquels vous donnez les instructions pour utiliser le “Utilisateur-

Une autre façon d’accéder à robots.txt est via FTP ou même en fonction de l’hébergement, via Cpanel . Le fichier sera à la racine du Web et à partir de là, vous pourrez le modifier. Ajoutez les lignes et interdit si nécessaire et enregistrez les modifications.

Important : vous ne devez effectuer les modifications qu’à l’un des deux endroits. Si vous appliquez les modifications par exemple via un plugin comme Yoast, il ne sera pas nécessaire de le faire via FTP. Il est mis à jour aux deux endroits.

Qu’est-ce que la balise méta “pas d’index”?

Les soi-disant “robots méta” sont des balises HTML qui sont incluses sur chaque page d’un site Web.

Ces balises indiquent à Google ou à d’autres moteurs comment ils devraient poursuivre avec cette page concernant l’exploration et l’indexation . Ils sont utilisés pour établir quelles URL sont indexées ou non dans les moteurs de recherche.
Clarification: toutes les pages ne doivent pas contenir la balise Meta robots. Dans le cas où une page ne l’aurait pas, on comprendra que cette page est index, suivre .

Dans cette étiquette, nous pouvons inclure jusqu’à quatre combinaisons différentes selon ce dont vous avez besoin et la façon dont nous voulons que les robots se comportent:

  • Index, suivez: avec cette combinaison, nous indiquons que la page est indexable et nous voulons que les liens qu’elle contient soient suivis.
  • Index, nofollow: la page est indexable mais les liens sur cette page ne veulent pas qu’ils soient suivis.
  • Noindex, suivez: est le plus courant pour pour désindexer des pages . Nous indiquons que la page ne doit pas être indexée, mais nous voulons que les liens soient suivis.
  • Noindex, nofollow: de cette manière, nous indiquons que nous ne voulons pas que la page soit indexée et que les liens ne soient pas suivis .

Comment l’utiliser?

Selon le site Web que vous possédez, la façon dont il est construit, le CMS que vous utilisez peut changer la façon dont vous l’appliquez. Ce qui ne change jamais, c’est l’étiquette en question:

 


Cette étiquette doit être dans l’en-tête de chaque page dans laquelle vous souhaitez donner ces indications.

Dans le cas où vous avez WordPress et Yoast SEO, il vous suffit de cocher certains boutons pour indexer ou non pour indexer, suivre ou nofollow les pages, types de contenu, taxonomies ou fichiers que vous souhaitez. Vous pouvez voir cette étape par étape dans le guide SEO Yoast . Je vous laisse également ici un tutoriel pour désindexer correctement avec «noindex»

Différences entre Robots.txt et aucun index

Bien que l’objectif final et le résultat soient les mêmes, la désindexation, Le faire d’une manière ou d’une autre présente certaines différences qui ne doivent pas être négligées, et qui devraient vous faire réfléchir au moment où vous les utilisez et dans quels cas.

La plus grande différence entre les deux réside dans le suivi!

Robots. txt Meta robots [noindex,follow]
Le bot ne crawle pas la page Le bot ne crawle pas la page
Il ne suit pas les liens ni ne transmet d’autorité Il suit les liens et il transmet l’autorité
Contenu visible par utilisateurs Contenu visible par les utilisateurs
Il n’indexe pas * Il n’indexe pas

La grande différence entre les robots.txt et les méta robots sans index, si c’était ‘ noindex, follow ‘ réside dans la trace .

A UR L in disallow ne sera pas suivi du tout, c’est-à-dire que le bot ne perd pas de temps est d’explorer son contenu. Dans le cas du noindex, GoogleBot accédera au contenu et, entre autres choses, dans cette analyse, vous verrez la balise robots meta name.

Une autre différence très importante est le sujet des liens ]. Avec le noindex, suivez les liens sur cette page qui seront suivis par les bots et transmettront l’autorité, à moins qu’un lien spécifique n’ait une autre balise, rel = »nofollow» . C’est le grand avantage des méta robots car il permet de désindexer une page sans négliger le traçage des liens qu’elle contient. Quelque chose de vraiment utile, en particulier pour les liens internes .

Par exemple, les pages de catégorie de mon blog sont «noindex, follow» car je ne veux pas indexer les pages de catégorie mais je veux Google découvre et suit les liens internes vers des articles que je souhaite indexer.

L’inconvénient des robots de méta-noms est précisément cette recherche que le bot va effectuer. Si vous y réfléchissez, nous disons à GoogleBot de perdre du temps et d’utiliser des ressources pour explorer une page que nous n’allons pas indexer. Nous comprenons que cela nuit au soi-disant budget de crawl ou budget de crawl .

Dans le tableau que j’ai mis avec un astérisque le “ne pas indexer” dans Robots.txt et c’est qu’il y a certaines occasions où il ne peut pas désindexer une page bloquée avec disallow.

Cas spécifique: Je l’ai déjà vu à plusieurs reprises. Si nous marquons une URL ou un répertoire avec “noindex” dans la balise robots du méta-nom et bloquons cette URL ou ce répertoire avec une interdiction dans Robots.txt, les bots ne peuvent pas accéder auxdites URL et ne verront donc pas la balise noindex.

Qu’est-ce que cela implique? Il arrive parfois que Google finisse par ne pas désindexer ces pages, malgré l’absence d’index (mais il ne le voit pas) et malgré le blocage dans Robots.txt.

 coverage-search -console


Lorsque cela se produit, dans la Search Console, dans le rapport de couverture, nous voyons comment dans Avertissements certaines URL marquées comme apparaissent« Il a été indexé bien qu’un fichier robots.txt ait bloqué ». Il est également pratique de voir ce type d’incohérences dans “Valide”, où “Indexé, non envoyé dans le plan du site” peut apparaître.

 rapport-couverture-recherche-console


Ceci est incohérent pour plusieurs raisons. La première, car les URL que nous affichons dans le plan du site doivent être celles que nous voulons indexer. Si nous avons indexé des pages qui ne figurent pas dans le plan du site, nous devons les examiner, soit parce qu’elles n’ont pas été incluses, soit parce que les pages qui ne devraient pas être indexées sont indexées.

Si vous utilisez WordPress et Yoast SEO, cela est facile à comprendre: lorsque vous marquez une URL avec «noindex» dans Yoast, elle est automatiquement supprimée du plan du site. Une page qui a “noindex” et n’est pas dans le plan du site n’a aucun sens qu’elle soit indexée, donc il peut y avoir un conflit comme celui que nous avons vu ci-dessus.

Lequel dois-je utiliser dans chaque cas?

Maintenant que vous comprenez à quoi servent les robots.txt et noindex, ce que chacun implique et leurs différences, vous devez penser et décider lequel vous utilisez en fonction de quels cas.

Vaut-il la peine pour GoogleBot de perdre du temps à explorer une URL que vous ne voulez pas indexer? Vous trouverez la réponse avant tout dans les liens internes. Si cette page que vous souhaitez désindexer contient des liens internes utiles pour votre stratégie, les pages que vous souhaitez positionner en valent certainement la peine.

Nous devons comprendre que la bonne façon d’indiquer à Google qu’une page ne doit pas être indexée est avec le “noindex »Dans la balise META robots.

Quand utilisons-nous le fichier robots.txt? Nous devons l’utiliser à des fins autres que la désindexation. Nous devons bloquer par robots.txt en particulier les parties d’un site Web qui non seulement ne sont pas pertinentes pour l’utilisateur, mais nous ne voulons en aucun cas qu’un moteur de recherche y accède.

Il y a certaines pages que vous pourriez mettre dans des robots. txt, car ils n’ont généralement jamais d’utilité SEO:

  • Mentions légales
  • Conditions d’achat
  • Cookies
  • Accès privé
  • Panier pour un commerce électronique
  • Sur les pages qui ont déjà été désindexées, qui n’ont pas d’index et vous voulez éviter de ramper

Avez-vous clairement fait la différence entre le robots.txt et le non-index? Si vous avez des questions, laissez un commentaire et je vous répondrai dès que possible.

Source link

Leave a Reply

%d bloggers like this: