Facteurs de classement de recherche dans Google

photographie en contre-plongée d'une structure métallique

Abordons les facteurs de classement des recherches. Commençons par préciser que les facteurs de classement des recherches sont identiques aux signaux de classement des recherches.

Types de facteurs de classement de recherche

Fabriqué à la main ou réglable manuellement ou basé sur LLM.

Les signaux de classement de recherche sont constitués de données

Google prend des données pertinentes et effectue une régression pour arriver à des signaux.


Ni Google, ni aucun autre moteur de recherche, n'a voulu divulguer le fonctionnement de son système de classement, sous prétexte de se protéger des manipulations. De toute évidence, ce que nous savions sur les signaux de classement des moteurs de recherche est devenu évident grâce à d'autres sources.

Sources de connaissances sur les facteurs de classement des recherches :

fuite des documents (fuites Google),
analyse de la pratique ainsi que de
recent court proceedings in which Google officials were forced to give some testaments. 

Il est important de noter que les signaux de classement de Google ne sont visibles nulle part sous une forme explicite.

Image des documents relatifs à la procédure antitrust de Google

Google ranking signals may be divided into ‘hand crafted’ or manually adjustable and LLM-based. 

Les signaux ajustables manuellement peuvent être analysés et ajustés par les ingénieurs, tandis que les signaux basés sur un modèle de langage volumineux (MLM) s'appuient sur le traitement du langage naturel et l'apprentissage par l'IA. Presque tous les signaux, à l'exception de RankBrain et DeepRank (basés sur le LLM), sont fabriqués manuellement et peuvent donc être analysés et ajustés par les ingénieurs.

Analysé

En cas de problème, Google sait comment corriger les problèmes, quels facteurs peuvent être ignorés et comment ces facteurs s'influencent mutuellement. De plus, cela signifie qu'ils peuvent être impactés par les propriétaires de sites.

Ajusté par les ingénieurs

Dans les cas extrêmes, l’artisanat signifie que Google examine les données pertinentes et choisit manuellement le point médian.

Les données et les signaux sont deux termes majeurs

Les ingénieurs de classement de recherche opèrent deux variables majeures : les données et les signaux. Data is primordial. Google uses a pair of data plus regression to arrive at a signal. 

Prenez la fonction et déterminez un seuil à utiliser

Pour développer un signal, les ingénieurs examinent la fonction et déterminent le seuil de sensibilité à utiliser. La fonction est une règle décrivant une relation entre des ensembles de données. Par exemple, Google utilise des fonctions sigmoïdes ou d'autres fonctions. Le seuil est un point médian où la relation devient statistiquement significative. Ce point médian peut être déterminé manuellement ou par régression, comme c'est souvent le cas avec Google.

Comment sont élaborés les signaux de classement ?

Image des documents relatifs à la procédure antitrust de Google

01

La « fabrication artisanale » des signaux signifie que Google prend tous ces sigmoïdes (et d’autres fonctions) et détermine les seuils

02

Google prend les données pertinentes et effectue une régression pour déterminer en toute confiance quels facteurs comptent le plus.

03

Les ingénieurs de Google tracent des courbes de signal de classement.

04

Le ajustement de courbe se produit à chaque niveau de signaux. Le but de l'ajustement de courbe est de trouver une fonction, c'est-à-dire comment mieux expliquer une relation mathématique entre des paramètres qui laisse le plus petit résidu.

Quel type de données Google utilise-t-il pour arriver aux signaux ?

Contenu de la page Web

Structure de la page Web

Clics de l'utilisateur

Données d'étiquetage des évaluateurs

Les données proviennent de 3 sources : le contenu, les utilisateurs et les évaluateurs


Les propriétaires de sites Web sont responsables du contenu et de la structure, les utilisateurs sont responsables des clics et les évaluateurs humains sont les agents de Google qui vont évaluer le site Web selon des directives de qualité accessibles au public (une source de données complémentaire).

Quels sont les signaux de classement les plus importants ?

NavBoost

NavBoost Il s'agit d'un module de reclassement qui utilise la métaphore et la logique des « dés ». Comme le montrent les documents divulgués, les modules utilisent le clic et l'impression (et leurs proportions) comme une combinaison de dés « gagnante » par position spécifique dans les résultats de recherche : si un document obtient une meilleure combinaison par position qu'un autre, il obtient un boost. Les personnes qui naviguent dans la recherche et choisissent un document spécifique, appelé « votant », l'ensemble du processus (le « vote »), les données des personnes sont tokenisées et stockées. Cet algorithme de reclassement permet de booster (promouvoir) ou de rétrograder les sites.


Globalement, les Twiddlers sont responsables du reclassement des résultats d'un corpus unique. Ils agissent sur une séquence de résultats classés plutôt que sur des résultats individuels. Ils peuvent fonctionner en fonction de l'appareil, de la localisation, du sujet, etc. Google dispose de fonctions Boost (ou Demote) intégrées à l'infrastructure Twiddlers. Par exemple, les fonctions « Boost » identifiées dans les documents divulgués : NavBoost, QualityBoost, RealTimeBoost, WebImageBoost, etc.


ABC (Ancres, Corps et Clics)

Ancres

This is the oldest, probably the basic ranking signal. Anchors is a source page pointing to a target page by links. So if we take the number of anchors and analyze the text used therein, we'll find whether or not a page possesses a certain topic.For example, there are 10 links pointing to your page (internal or external links) and they use anchors like apple, red apple, green apple, and so on, so maybe then this page has topic of apple. So the document is relevant to the like queries. 

Corps

Voici les termes utilisés dans le document. Ce signal de classement analyse la pertinence des termes utilisés dans le document.

Clics

Les clics correspondent au temps passé par un utilisateur sur la page avant de revenir à la recherche. Ainsi, ce vote, sous forme de clic, sera comptabilisé dans la pertinence et l'actualité.

Les signaux de classement ABC sont les éléments clés de l'actualité de la page.

Cela permet de déterminer la pertinence du document par rapport à la requête. Dans la mesure où l'actualité répond à la question, quelle est la pertinence de la page basée sur le terme de la requête pour être présentée dans les résultats de recherche ?

Et ces ABC (ancres, corps et clics) sont les composants clés de l'actualité, ils permettent donc à Google de décider d'afficher ou non une page en haut ou en bas par rapport au terme de recherche.

Qualité

La qualité est la notion de fiabilité. C'est un indicateur important. Elle est liée à l'autorité des liens web pointant vers le site web, à l'ancienneté du domaine, etc. En d'autres termes, Google souhaite savoir si les utilisateurs peuvent réellement faire confiance à la page et à son contenu.

PageRank

PageRank arguably exists on several layers including that which implies a "distance" from a golden standard "seed" websites. 


Google dispose sans doute d'une collection d'articles fiables sur tous les sujets – la référence absolue en matière de confiance. Tous les liens sélectionnés forment un graphique de liens. Le rang ou la corrélation de chaque lien est calculé par la distance par rapport aux documents fiables, selon un algorithme graphique standard. C'est ce qu'on appelle la méthode « NeerestSeeds ».


Par exemple, si un article fiable du New York Times renvoie vers un article du site X, qu'un article du site X renvoie vers un article du site Y, et qu'un article du site Y renvoie vers wlw, la distance sera de 3. Dans les graphiques, la distance est calculée non pas par nœuds, mais par liens ou arêtes. Plus la distance est faible, meilleur est l'indicateur.

Résumé

Il s'agit d'exploiter les données, notamment le contenu et la structure de la page web, y compris les clics sur les liens internes et d'autres sources de données, pour obtenir, par régression, des signaux. Ces signaux, regroupés sous forme de modules (NavBoost, ABC, Quality et PageRank), transmettent des informations sur le potentiel d'un document à être classé par rapport à une requête de recherche.


Voici comment fonctionnent les classements de recherche, tels qu'ils sont déduits de l'analyse des documents divulgués et des témoignages judiciaires.