2 500 documents internes de l’API Content Warehouse de Google ont été divulgués, offrant ainsi un rare aperçu des algorithmes de recherche de l’entreprise. La fuite, partagée avec Rand Fishkin, qui comprend des informations sur le stockage des données pour le contenu, les liens et les interactions des utilisateurs, manque de détails sur les fonctions de notation mais offre des informations significatives sur les mécanismes de classement de Google. Fishkin a également passé un appel vidéo avec la source anonyme.

Rand Fishkin est un expert en marketing numérique connu pour avoir co-fondé Moz. , une société de logiciels de référencement, et a créé la série de vidéos « Whiteboard Friday ». Il est l’auteur de « Lost and Founder » et a ensuite fondé SparkToro, une société d’études de marché. et plateforme d’intelligence d’audience.

La recherche Google est l’une des boîtes noires les plus secrètes et les mieux gardées au monde. Eh bien, peut-être plus maintenant.

Au cours du dernier quart de siècle, non Une fuite de cette ampleur ou de ce détail n’a jamais été signalée par la division de recherche de Google. Si vous êtes en #SEO, vous devriez probablement voir ceci. pic.twitter.com/JxEs55IV21

— Rand Fishkin (suivez @radderuiter sur les discussions) (@randfish) 28 mai 2024

Comme Fishkin l’écrit sur le Blog SparkToro, la documentation divulguée présente une vaste gamme de 2 596 modules avec 14 014 attributs connectés à divers services Google, notamment YouTube, Assistant et des documents Web. Ces modules font partie d’un référentiel monolithique, ce qui signifie que tout le code est stocké dans un emplacement centralisé et accessible par n’importe quelle machine du réseau.

« Le dimanche 5 mai, j’ai reçu un e-mail d’une personne prétendant avoir accès à une fuite massive de documentation API provenant de la division Recherche de Google. L’e-mail affirmait en outre que ces documents divulgués avaient été confirmés comme étant authentiques par d’anciens employés de Google, et que ces ex-employés et d’autres avaient partagé des informations privées supplémentaires sur les opérations de recherche de Google.

Beaucoup de leurs affirmations contredisent directement. déclarations publiques faites par les Googleurs au fil des ans, en particulier le refus répété de l’entreprise que les signaux utilisateur centrés sur les clics soient utilisés, le refus que les sous-domaines soient considérés séparément dans les classements, le refus d’un bac à sable pour les sites Web les plus récents, le refus que l’âge d’un domaine soit collecté ou pris en compte , et bien plus encore.”

Les clics influencent les classements

L’affirmation de Google selon laquelle les clics n’influencent pas les classements est contredite par l’existence du système NavBoost, qui utilise les clics.-mesures pilotées pour ajuster les classements. Ce système existe depuis 2005 et utilise les données de clics pour renforcer ou rétrograder les classements.

La source anonyme à l’origine de la fuite affirme que l’équipe de recherche de Google a reconnu la nécessité d’un données de parcours dans leurs premières années pour améliorer la qualité des résultats de recherche. Ces données incluent chaque URL visitée par un navigateur. NavBoost, qui collectait initialement des données du PageRank de la barre d’outils de Google, a été l’une des principales motivations pour la création du navigateur Chrome. Le système identifie les tendances de la demande de recherche en analysant le nombre de recherches pour un mot clé donné, le nombre de clics sur un résultat de recherche et en différenciant les clics longs des clics courts.

La fuite a plusieurs implications pour Pratiques de référencement. L’algorithme Panda de Google, par exemple, utilise un modificateur de notation basé sur le comportement de l’utilisateur et les liens externes, appliqué à différents niveaux tels que comme domaine, sous-domaine et sous-répertoire. Google stocke également des informations sur les auteurs, soulignant ainsi l’importance de la paternité dans les classements. Diverses rétrogradations sont appliquées pour des facteurs tels que l’inadéquation des ancres, l’insatisfaction de la page de résultats du moteur de recherche (SERP) et les domaines de correspondance exacte. Les liens restent cruciaux, avec des métriques telles que sourceType indiquant la valeur des liens en fonction de leur emplacement d’indexation. Google mesure également l’originalité du contenu court et compte les jetons, soulignant l’importance de placer le contenu clé au début du texte. Les rétrogradations algorithmiques suivantes sont utilisées par Google, selon la fuite :

Anchor Mismatch : les liens avec un texte d’ancrage non pertinent sont rétrogradés. Rétrogradation SERP : les pages montrant une faible satisfaction des utilisateurs dans la SERP sont rétrogradées. Domaines de correspondance exacte : ceux-ci reçoivent moins de valeur dans les classements. Dégradation des avis sur les produits : probablement liée à la récente mise à jour des avis sur les produits. Rétrogradations d’emplacement : les pages « mondiales » et « super globales » peuvent être rétrogradées pour favoriser un contenu pertinent au niveau local.

Déclarations publiques trompeuses

Contrairement aux déclarations publiques de Google, les documents révèlent plusieurs fonctionnalités que l’entreprise avait précédemment niées. Par exemple, une fonctionnalité appelée « siteAuthority » indique que Google mesure l’autorité à l’échelle du site, malgré les affirmations contraires. Des systèmes comme NavBoost utilisent les données de clic pour influencer les classements, contredisant les dénégations de Google selon lesquelles les clics affectent les résultats de recherche. La documentation mentionne également un « hostAge » attribut utilisé pour mettre en sandbox de nouveaux sites, ce que Google a publiquement nié. La documentation indique l’existence d’une telle fonctionnalité de « bac à sable » qui sépare les sites nouveaux ou non fiables. Elle est utilisée pour empêcher les nouveaux spams d’être classés en bonne place dans les résultats de recherche.

Pour analyser le matériel partagé, Fishkin a travaillé en collaboration avec Mike Kink de Pullrank, qui a publié une analyse détaillée de ce qu’ils ont découvert jusqu’à présent. Selon lui, il y a”. 2 596 modules représentés dans la documentation de l’API avec 14 014 attributs”dans le système de classement de Google. La documentation divulguée décrit chaque module de l’API et les décompose en résumés, types, fonctions et attributs.

Malgré les déclarations publiques de Google niant l’utilisation de l’autorité de domaine, la documentation confirme que « siteAuthority » est utilisé. dans le « système de classement Q* ». Cela indique que Google calcule et utilise une mesure d’autorité à l’échelle du site. La fuite semble révéler plusieurs mensonges de la part de Google sur les travaux de classement :

“Les porte-parole de Google ont déclaré à plusieurs reprises qu’ils n’utilisaient pas « l’autorité de domaine ». J’ai toujours supposé qu’il s’agissait d’un mensonge par omission et par obscurcissement.
 
En disant qu’ils n’utilisent pas l’autorité de domaine, ils pourraient dire qu’ils n’utilisent pas spécifiquement la métrique de Moz appelée « Autorité de domaine » (évidemment 🙄). Ils pourraient également dire qu’ils ne mesurent pas l’autorité ou l’importance d’un sujet (ou d’un domaine) spécifique en ce qui concerne un site Web. Cette confusion sémantique leur permet de ne jamais répondre directement à la question. question de savoir s’ils calculent ou utilisent des mesures d’autorité à l’échelle du site.”

Le système de classement de Google est décrit comme une série de microservices plutôt que comme un algorithme unique. Les systèmes clés incluent Trawler pour l’exploration, « Alexandria » pour l’indexation, « Mustang » pour le classement et « SuperRoot » pour le traitement des requêtes. Ces microservices fonctionnent en tandem pour traiter et classer les résultats de recherche.

Le Rôle des Twiddlers dans le reclassement

Google utilise ce que l’on appelle les Twiddlers, qui sont des fonctions de reclassement qui ajustent les résultats de recherche avant qu’ils ne soient présentés aux utilisateurs. Des exemples de ces fonctions incluent NavBoost, QualityBoost, et RealTimeBoost. Ces mécanismes affinent les résultats de recherche en fonction de divers facteurs, notamment l’engagement des utilisateurs et la qualité du contenu.

Selon la fuite, Google utilise diverses méthodes pour lutter contre le spam lié aux clics manuels et automatisés, notamment en utilisant l’historique des cookies. , les données Chrome connectées et la détection de modèles. NavBoost évalue les requêtes en fonction de l’intention de l’utilisateur, déclenchant des fonctionnalités de vidéo ou d’image en fonction des seuils d’engagement des utilisateurs. Le système évalue également la qualité globale d’un site au niveau de l’hôte, ce qui peut entraîner une augmentation ou une rétrogradation. Bien que Google ait déclaré que les données Chrome ne sont pas utilisées dans les classements de recherche, les documents divulgués révèlent que les vues de Chrome sont prises en compte dans les scores de qualité des pages et d’autres facteurs de classement.

Google utilise également la géolocalisation pour les données de clic. , en tenant compte de facteurs tels que le pays, les niveaux d’état/province et l’utilisation des appareils mobiles par rapport aux ordinateurs de bureau. Si les données manquent pour certaines régions, le processus peut être appliqué universellement. Pendant la pandémie de Covid-19, Google a utilisé des listes blanches pour les sites Web apparaissant dans les recherches liées au Covid. De même, lors d’élections démocratiques, Google a utilisé des listes blanches pour les sites affichés ou rétrogradés dans les informations liées aux élections. King spécule dans son analyse sur la question de savoir si le Helpful Content Update est lié à ce qu’on appelle”Bébé Panda”et à ce que NSR (Neural Semantic Retrieval) pourrait signifier”Il y a deux références à. quelque chose appelé « bébé panda » dans les signaux de qualité compressés. Bébé Panda est un Twiddler qui constitue un ajustement rapide après le classement initial”, écrit-il.

“Je pense que nous sommes généralement d’accord sur le fait que la mise à jour du contenu utile présente bon nombre des mêmes comportements que Panda. construit sur un système utilisant des requêtes de référence, des liens et des clics, ce sont les éléments sur lesquels vous devrez vous concentrer après avoir amélioré votre contenu.”

Points à retenir

Il conclut en disant que « nous comprenons désormais bien mieux de nombreuses fonctionnalités que Google utilise pour créer des classements. Grâce à une combinaison de données de parcours et d’extraction de fonctionnalités, nous pouvons reproduire plus que ce que nous pouvions auparavant.”

“Une chose importante que nous pouvons tous retenir de cela est la suivante : les référenceurs savent ce qu’ils font. Après des années où on nous a dit que nous avions tort, il est bon de voir derrière le rideau et de découvrir que nous avions raison depuis le début. Et, bien qu’il y ait des nuances intéressantes sur la façon dont Google fonctionne dans ces documents, rien ne va changer radicalement le cours de ma stratégie de référencement.
 
Pour ceux qui creusent, ces documents serviront principalement à validez ce que les référenceurs chevronnés préconisent depuis longtemps. Comprenez votre public, identifiez ce qu’il veut, créez la meilleure chose possible qui corresponde à cela, rendez-le techniquement accessible et faites-en la promotion jusqu’à ce qu’il soit classé.”

Cela pourrait être le bon moment pour revenir sur la récente interview. du PDG de Google, Sundar Pichai, avec Nilay Patel, ayant quelques connaissances de base.

Categories: IT Info