[Algorithme] Google Panda et fermes de contenu – Les règles d’Or
Panda : comprendre le fonctionnement de l’algorithme de pertinence de Google
Lancé en 2011, Google Panda fournit des résultats de recherche plus pertinents et de meilleure qualité aux internautes. Avec sa récente mise à jour, comprendre son fonctionnement est devenu une nécessité pour développer ses activités web.
Principe et fonctionnement des moteurs de recherche
Le fonctionnement des moteurs de recherche est relativement simple. Les pages présentes sur le net sont crawlées par des robots puis indexées dans une base de données. Elles sont ensuite affichées en fonction de la pertinence des requêtes en rapport avec leur contenu. Ces pages sont également susceptibles d’apparaître dans les SERP si les mots clés sur lesquels leur site est positionné sont saisis par l’internaute. À l’origine, les moteurs de recherche ne reconnaissaient que les mots.
Ils affichaient ainsi toutes les pages présentant le terme saisi, ce qui rendait souvent difficile la recherche sur le net. Depuis Google, les moteurs de recherche fonctionnent toutefois de manière différente puisqu’ils organisent les pages de résultat sur la base d’un facteur de positionnement. Les sites sont référencés en fonction de l’autorité des autres sites liés : plus un site reçoit de liens de la part d’autres sites de valeur, plus il est bien positionné dans les SERP.
Les moteurs de recherche ainsi que leur algorithme ne cessent aujourd’hui d’évoluer pour fournir des résultats de plus en plus pertinents. Les facteurs de positionnement ont également suivi la tendance pour améliorer l’expérience utilisateur. Aujourd’hui, Google privilégie par exemple les résultats les plus récents ou ceux situés dans une zone géographique donnée pour les recherches locales. Avec Panda, le moteur a semble-t-il souhaité réorganiser ses résultats en fonction de la qualité des contenus présents dans son index.
CONSEILS : Nécessite de réévaluer la qualité de vos contenus avec un copywriter et par la même occasion mettez de l’ordre avec vos popups sur mobile, car Google Mobilegeddon n’aime pas ça.
Panda et son influence sur les pages de résultats
En février 2011, Google met à jour son algorithme pour renforcer la pertinence des résultats de recherche. La mise à jour pénalise alors les sites de faible qualité, soit les sites n’ayant aucune valeur ajoutée pour l’internaute, ceux qui se contentent de copier le contenu d’autres sites ou ceux qui contiennent des informations sans importance. Google justifie ce changement par sa volonté de récompenser les sites de qualité et d’améliorer l’expérience utilisateur. Panda se charge dès lors de privilégier la qualité des contenus proposés à l’internaute.
Le fonctionnement de Panda est plus complexe que celui des précédents algorithmes utilisés par le moteur. Pour chaque page indexée, le moteur attribue généralement une valeur permettant de réorganiser l’affichage des résultats de recherche. Cette valeur varie en fonction de la qualité du site ou du groupe dans lequel le site a été placé : plus elle est importante, plus le positionnement est meilleur.
Les professionnels du référencement et éditeurs de sites web ont été nombreux à anticiper l’arrivée des nouvelles versions de Panda, non seulement pour vérifier la qualité de leur contenu, mais également pour s’assurer que leur site respecte les recommandations de Google. Il y a quelque temps, Google a toutefois mis fin aux mises à jour en décidant de l’intégrer définitivement dans son algorithme de recherche.
Panda célèbre cette année ses trois ans d’existence après avoir connu 25 mises à jour différentes. Pour rappel, c’est Bill Slawski qui aurait décidé d’utiliser l’algorithme conçu par Navneet Panda, ingénieur chez Google, dans les pages de résultats de recherche. Il révèle que Panda visait à améliorer les résultats de recherche plutôt qu’à sanctionner les sites ou identifier les tentatives de manipulation de l’algorithme. Il se distingue ainsi des autres mises à jour de Google qui visait plus à pénaliser les sites qu’à nettoyer les pages de résultats.
Le brevet Panda Rank
Aussi complexe soit-il, le Panda Rank peut se résumer en deux parties. Chaque URL susceptible d’apparaître suite à une requête se voit en premier lieu attribuer un score initial basé sur le niveau de l’URL, la pertinence de la requête ou le niveau de qualité puis, le cas échéant, des modifications du groupe où elle se trouve sont appliquées.
Le score initial
Le score initial consiste en une valeur accordée à chaque URL affichée pour une requête particulière. Cette valeur est calculée en fonction de la pertinence de la ressource, de la qualité de cette ressource et de la requête saisie.
Première étape
Une valeur initiale est accordée à toutes les URL éligibles en fonction de la pertinence de la requête et de la mesure de la qualité. Bien que les facteurs utilisés pour générer les résultats initiaux ne soient pas nouveaux, il s’avère que Panda est apparu comme un moyen d’automatiser les réorganisations des recherches.
Groupe basé sur la modification des facteurs
Le score initial attribué à chaque URL est modifié en fonction de la qualité du groupe où l’URL est positionnée.
Deuxième étape
Après que les URL affichées aient obtenu un score initial, leur note est calculée en fonction de la qualité des groupes auxquelles elles sont associées. Cette note dépend des requêtes de référence et des liens indépendants.
Groupe de requête de référence
Une requête de référence désigne une requête de recherche utilisée pour trouver une URL spécifique. À noter que plus de détails concernant les requêtes de référence sont fournis dans le flux Panda.
Groupe de liens indépendants
Les liens indépendants sont essentiellement composés de liens contrôlés pointant vers une URL.
Groupe basé sur les changements et résumés
Panda prend les URL initiales ainsi que les quality scores pour les modifier en fonction d’un facteur de groupe basé sur les requêtes de référence et les liens indépendants.
Le flux Panda
L’image ci-contre décrit le flux Panda.
Il permet de générer des scores initiaux pour toutes les URL susceptibles d’apparaître pour une requête donnée, déterminer si la requête est valable et si le score initial est en dessous du seuil de quality score du groupe. Dans le brevet actuel, une URL est considérée comme une ressource.
Ce qu’il faut savoir sur le flux Panda
Un des aspects les plus déroutants du flux Panda se situe au niveau de la différence pouvant exister entre les requêtes de navigation et les requêtes de référence. Il est fort possible que les requêtes de navigation puissent donner une indication sur le nom de la marque à travers la requête elle-même.
Une requête de type « chaussure Nike sur Zappos » peut être considérée comme une requête de navigation. Les requêtes de référence peuvent alors dépendre du facteur temps : si les internautes cliquent sur un même lien durant un certain temps, celui-ci peut alors devenir une requête de référence.
Un des autres aspects de ce flux est la possibilité de mettre en place différents seuils. S’il est logique que Google souhaite bénéficier d’un facteur de qualité basé sur le site ou un groupe d’URL, la mise en place de différents seuils peut donner lieu à différents résultats.
Une requête permettant de créer une requête de recherche pourrait voir son positionnement :
- être négativement influencé par un score de groupe ;
- être négativement influencé par un score de groupe et positivement par d’autres ;
- être positivement influencé par de multiples facteurs de positionnement de groupe.
Le brevet mentionne par ailleurs que les ressources sont groupées de sorte qu’aucune d’entre elle ne peut être insérée dans un autre groupe de ressources. Bien que le brevet ait fait cette mention, il semblerait que l’URL puisse avoir des facteurs de modification appliquées en fonction des groupes de base ayant ou non une adresse.
Google pourrait toutefois choisir de donner plus d’importance aux adresses basées sur les facteurs de modification plutôt que sur celles n’ayant aucun groupe. Il en résulterait un positionnement des pages variant en fonction de problèmes de duplicate internes ou externes.
Panda et les facteurs de positionnement à prendre en compte
Sans entrer dans les détails, nous pouvons conclure que la qualité d’un groupe ainsi que le quality score d’un groupe sont aujourd’hui un facteur de positionnement dans les pages de résultats de recherche. Il apparaît cependant que depuis la mise en oeuvre du brevet de Panda, il est possible d’obtenir des renseignements précieux quant à la manière de penser le référencement ainsi que les différentes méthodes à appliquer pour éviter les pénalités Google.
Comme le brevet le mentionne, les URL obtiennent un score unique régulièrement mis à jour en fonction de la requête recherchée. En outre, cette mise à jour dépend en grande partie des changements de variable qui permet alors à Panda de traiter chaque URL de manière différente. Parmi les facteurs de positionnement des URL, on peut ainsi citer la pertinence de la requête ainsi que la qualité des contenus proposés. Parmi les facteurs de positionnement de groupes, on peut citer le total des requêtes de référence et le total des liens indépendants.
Duplicate content : conséquences et solutions
Un cas de duplicate content se produit lorsque la même version d’un contenu apparaît sur un même site ou des sites différents d’après Navneet Kaushal, et nous sommes du même avis. S’il concerne un même site, le moteur de recherche aura des difficultés à choisir la page à référencer. S’il concerne différents sites, le moteur référencera la version qu’il considère comme originale et déclassera les autres. D’autres cas peuvent se produire : le contenu affiché est celui ayant été crawlé en premier par les bots, le positionnement du contenu dupliqué dans les pages de résultats est retardé ou celui-ci n’est affiché sur aucune requête puisque le moteur n’arrive pas à déterminer quelle page doit être affichée.
Résoudre le problème du duplicate content
Face à un cas de duplicate content, de nombreuses options sont envisageables. Il est par exemple possible de mettre en place des redirections 301 depuis la page du contenu dupliqué vers celle présentant le contenu original. Cette option est fréquente dans le cadre d’un changement de nom de domaine, mais on peut également l’appliquer si les pages sont celles d’un même site. Si le contenu dupliqué se trouve sur un autre site, l’utilisation d’une balise rel=canonical s’avère la solution la plus efficace. La balise indique en effet aux bots quelle page doit être affichée dans les pages de résultats. Elle se trouve généralement sur le header de la page web. Autre solution possible : l’utilisation de balises meta pour indiquer aux bots quelle page ne doit pas être indexée. Dans le cas où l’on décide de faire publier un contenu sur d’autres sites, il est important de s’assurer que les sites en question renvoient des liens vers le site original. Il est cependant également possible de leur demander d’utiliser des liens en no follow. Si de nombreuses pages proposent un contenu identique, il est recommandé de réunir toutes les informations.
Pour les sites ayant une version mobile, la solution la plus courante consiste à proposer une URL identique d’une version à l’autre ou concevoir un site responsive et éviter ainsi la gestion de plusieurs contenus. Google recommande d’ailleurs le passage au responsive depuis longtemps et les sites adoptant cette démarche sont privilégiés par rapport aux autres. Il teste d’ailleurs depuis quelques semaines une fonctionnalité permettant aux internautes d’identifier rapidement quel contenu est responsive ou non. Pour ce qui est des articles invités au sein d’un site, il est recommandé de vérifier le taux de plagiat avant la publication. Le plagiat affecte non seulement le référencement, mais également la réputation surtout s’il se produit au sein d’un site d’autorité. Il en est de même pour la stratégie de linking interne : l’idéal est d’adopter un format unique pour éviter la mauvaise interprétation de la part des robots d’indexation. Enfin, il faut savoir que Google autorise généralement les éditeurs de sites web à contrôler le crawl d’un contenu. Ceux-ci ont en effet la possibilité de choisir la page devant être crawlée ou non. Ils peuvent même décider de quelle manière se fera l’indexation.
Quels outils utiliser pour éviter le duplicate content ?
Google Webmaster Tools est l’outil le plus utilisé pour prévenir le duplicate content. Il sert par exemple à identifier les plagiats dans la meta description ou la description du titre. Il suffit de se connecter à son compte et d’aller dans la page Diagnostic puis Suggestions HTML. On accède alors à un tableau indiquant les balises de titre et méta descriptions dupliquées. En cliquant sur les liens proposés, l’utilisateur accède directement à l’URL où se trouvent les doublons. D’autres outils comme Siteliner ou ScreamingFrog offrent toutefois les mêmes possibilités. Il suffit de saisir l’URL du site web et lancer la recherche sur Siteliner pour obtenir un rapport complet sur le duplicate content, les liens brisés et les pages ignorées au cours de l’indexation. En cliquant sur duplicate content dans l’onglet Détails de site, on accède par exemple aux URL, titres, mots correspondants, pages correspondantes et pourcentage des correspondances. ScreamingFrog peut quant à lui crawler plus de 500 pages gratuitement pour identifier les URL contenant du plagiat. Il reste ensuite à corriger le problème à l’aide d’une des solutions présentées plus haut.
Autres solutions contre le contenu dupliqué : Xenu, Virante Duplicate Content Checker et SmallSeoTools. Xenu recherche les liens brisés et offre même la possibilité d’exporter le rapport vers Excel. L’analyse est dans ce cas plus facile. Virante Duplicate Content Checker est quant à lui utilisé pour identifier les doublons dans un même site. Il vérifie le cache de Google, les erreurs 404 et les versions www et non-www d’une même page. Enfin, SmallSeoTools identifie le duplicate par simple copier/coller d’un article dans l’outil. Il est en mesure de déterminer le taux de plagiat d’un contenu. Il suffit d’insérer ce dernier dans la case jaune prévue à cet effet, de saisir le code Captcha et cliquer sur le bouton Check for Plagiarism. Les parties ayant été copiées sur d’autres sites sont marquées en rouge et il est possible de découvrir la source originale en cliquant sur les parties surlignées.
Découvrez tout ce qu’il y a à savoir sur l’algorithme de Google depuis sa création ?