Métabalises et robots.txt dans Yahoo Search

En tant que webmaster, vous pouvez gérer la manière dont votre site Web apparaît dans Yahoo Search en utilisant les métabalises et le fichier robots.txt.

Les résultats Yahoo Search proviennent du robot d’indexation Web de Yahoo (Slurp) et du robot d’indexation Web de Bing. Pour en savoir plus sur l’optimisation pour Bing, consultez le centre d’aide Bing pour webmasters. Dans la section qui suit, nous aborderons les métabalises et les directives robots.txt reconnues par le robot d’indexation Web de Yahoo.

Métabalises

Vous pouvez gérer la manière dont Yahoo indexe votre site Web en ajoutant des métabalises aux pages HTML de votre site Web, ou en configurant des en-têtes HTTP pour ces pages.

Empêcher une page d’être indexée

Lorsque vous utilisez la balise noindex sur une page, Yahoo explore la page en question et en extrait des liens, mais ne l’intègre pas à l’index Yahoo Search (la page n’apparaîtra pas dans les résultats de recherche). Il se peut qu’une page soit tout de même indexée si elle contient une balise noindex, mais queYahoo n’ait pas exploré cette page et « remarqué » la balise (mais ait déterminé que la page était liée à d’autres pages explorées), ou que la directive robots.txt ait bloqué l’exploration de la page.

Vérifiez que Slurp, le robot d’indexation de Yahoo, est autorisé à explorer des pages que vous ne souhaitez pas indexer afin qu’il puisse identifier la balise noindex associée.

Appliquer noindex dans une métabalise robots

Insérez la balise suivante dans l’en-tête d’une page HTML que vous ne souhaitez pas que Slurp indexe :

ou

Appliquer noindex dans un en-tête HTTP

Au lieu d’ajouter une métabalise à chaque page, vous pouvez insérer la directive dans l’en-tête HTTP d’une ou plusieurs pages :

X-Robots-Tag: noindex

Empêcher un contenu spécifique d’être indexé

Utilisez la classe « robots-nocontent » pour englober le code HTML et le contenu de la page que vous ne souhaitez pas que le robot d’indexation de Yahoo indexe :

Ne pas indexer ce texte.

Empêcher la mise en cache d’une page

Yahoo met en cache des aperçus de la plupart des pages identifiées pendant l’exploration. Ces pages en cache sont reliées entre elles dans les pages de résultats Yahoo Search. Pour empêcher votre site Web d’être mis en cache de cette manière, appliquez la métabalise noarchive ou la directive de l’en-tête HTTP.

Appliquer noarchive dans une métabalise robots

Insérez la balise suivante dans l’en-tête d’une page HTML :

Appliquer noarchive dans un en-tête HTTP

Configurez votre serveur Web de sorte qu’il insère la directive suivante dans l’en-tête HTTP :

X-Robots-Tag: noarchive

  Remarque : au terme du prochain cycle d’actualisation du contenu, Yahoo Search continuera d’indexer et de suivre les liens de n’importe quelle page que vous configurez à l’aide de noarchive, mais la version en cache des pages ne s’affichera pas.

Empêcher Yahoo Search de suivre des liens

Yahoo Search obéit à la règle « nofollow » qui s’applique aux liens : il suit le lien, mais l’exclut des calculs de classement.

Pour indiquer la possibilité que les liens d’une page ne soient pas approuvés ou de confiance, vous pouvez appliquer un attribut rel="nofollow" à n’importe quel hyperlien présent sur une page, la métabalise « nofollow » à une page HTML, ou la directive X-Robots-Tag: nofollow dans l’en-tête HTTP d’une page.

Bien que Yahoo Search soit susceptible d’utiliser le lien « nofollow » pour découvrir du contenu, ce lien ne sera pas considéré comme un lien approuvé lors du classement de la page cible.

Cet attribut permet de réduire les problèmes liés aux spams dans les commentaires. Par exemple, les sites Web contenant des zones publiques permettant de publier des commentaires peuvent appliquer un attribut « nofollow » aux liens insérés publiquement afin de lutter contre les spams dans les commentaires.

Appliquer nofollow dans un élément « a » HTML

Appliquer nofollow dans une métabalise robots

Appliquer nofollow dans un en-tête HTTP

Configurez votre serveur Web de sorte qu’il insère la directive suivante dans l’en-tête HTTP utilisé pour l’hébergement de la page :

X-Robots-Tag: nofollow

Restreindre l’utilisation des titres et résumés DMOZ (Open Directory Project)

Pour indiquer à Yahoo de ne pas utiliser une description ou un titre DMOZ comme titre et description candidats pour une ou plusieurs de vos URL, utilisez la valeur « noodp » dans la métabalise robots :

ou

Lorsque Yahoo trouve l’une de ces métabalises dans un document Web, il ne prend pas en compte les titres et résumés DMOZ au moment de présenter le titre et la description de cette URL dans les résultats de recherche.

Directives robots.txt

Empêcher certains sous-répertoires d’être explorés

Si vous souhaitez empêcher Slurp de lire certaines parties de votre site, créez un fichier robots.txt dans le répertoire racine (dossier de base) de votre site Web, puis ajoutez une règle User-agent: Slurp.

  Avertissement : interdire l’exploration d’une page ne garantit pas que cette dernière ne sera pas indexée. Pour empêcher l’indexation d’une page, reportez-vous à la section « Empêcher une page d’être indexée » ci-dessus.

Exemple de code dans un fichier robots.txt :

User-agent: Slurp
Disallow: /cgi-bin/

Limiter la fréquence d’exploration

Vous pouvez ajouter une instruction « Crawl-delay: xx », où « xx » représente une valeur de délai entre deux explorations successives. Si la fréquence d’exploration constitue un problème pour votre serveur, vous pouvez augmenter le délai d’exploration.

Voici comment définir une valeur de délai d’exploration de 1 pour Yahoo Slurp :

User-agent: Slurp
Crawl-delay: 1

Il est recommandé de restreindre l’activité d’exploration globale de votre serveur en excluant le contenu sans importance à l’aide d’une règle robots.txt « disallow ». Si vous pensez qu’un délai est nécessaire, utilisez une valeur de délai d’exploration qui soit faible, afin de ne pas empêcher la découverte et l’actualisation de votre contenu clé par Yahoo Search.

Soumettre le plan de votre site

Vous pouvez soumettre le plan de votre site à Slurp, le robot d’indexation de Yahoo Search, à l’aide de la directive robots.txt. Ajoutez simplement la ligne suivante à votre fichier robots.txt :

Sitemap: [URL complète du fichier xml du plan de votre site]

Soumettre le plan de votre site à Bing : en savoir plus sur les conditions de soumission d’un plan de site à Bing.

Autres informations