Abordons les facteurs de classement des recherches. Commençons par préciser que les facteurs de classement des recherches sont identiques aux signaux de classement des recherches.
Fabriqué à la main ou réglable manuellement ou basé sur LLM.
Google prend des données pertinentes et effectue une régression pour arriver à des signaux.
Ni Google, ni aucun autre moteur de recherche, n'a voulu divulguer le fonctionnement de son système de classement, sous prétexte de se protéger des manipulations. De toute évidence, ce que nous savions sur les signaux de classement des moteurs de recherche est devenu évident grâce à d'autres sources.
Il est important de noter que les signaux de classement de Google ne sont visibles nulle part sous une forme explicite.
Image des documents relatifs à la procédure antitrust de Google
SOURCES
Sources officielles de Google :
Google ranking signals may be divided into ‘hand crafted’ or manually adjustable and LLM-based.
Les signaux ajustables manuellement peuvent être analysés et ajustés par les ingénieurs, tandis que les signaux basés sur un modèle de langage volumineux (MLM) s'appuient sur le traitement du langage naturel et l'apprentissage par l'IA. Presque tous les signaux, à l'exception de RankBrain et DeepRank (basés sur le LLM), sont fabriqués manuellement et peuvent donc être analysés et ajustés par les ingénieurs.
Les ingénieurs de classement de recherche opèrent deux variables majeures : les données et les signaux. Data is primordial. Google uses a pair of data plus regression to arrive at a signal.
Pour développer un signal, les ingénieurs examinent la fonction et déterminent le seuil de sensibilité à utiliser. La fonction est une règle décrivant une relation entre des ensembles de données. Par exemple, Google utilise des fonctions sigmoïdes ou d'autres fonctions. Le seuil est un point médian où la relation devient statistiquement significative. Ce point médian peut être déterminé manuellement ou par régression, comme c'est souvent le cas avec Google.
Image des documents relatifs à la procédure antitrust de Google
La « fabrication artisanale » des signaux signifie que Google prend tous ces sigmoïdes (et d’autres fonctions) et détermine les seuils
Google prend les données pertinentes et effectue une régression pour déterminer en toute confiance quels facteurs comptent le plus.
Les ingénieurs de Google tracent des courbes de signal de classement.
Le ajustement de courbe se produit à chaque niveau de signaux. Le but de l'ajustement de courbe est de trouver une fonction, c'est-à-dire comment mieux expliquer une relation mathématique entre des paramètres qui laisse le plus petit résidu.
NavBoost Il s'agit d'un module de reclassement qui utilise la métaphore et la logique des « dés ». Comme le montrent les documents divulgués, les modules utilisent le clic et l'impression (et leurs proportions) comme une combinaison de dés « gagnante » par position spécifique dans les résultats de recherche : si un document obtient une meilleure combinaison par position qu'un autre, il obtient un boost. Les personnes qui naviguent dans la recherche et choisissent un document spécifique, appelé « votant », l'ensemble du processus (le « vote »), les données des personnes sont tokenisées et stockées. Cet algorithme de reclassement permet de booster (promouvoir) ou de rétrograder les sites.
Globalement, les Twiddlers sont responsables du reclassement des résultats d'un corpus unique. Ils agissent sur une séquence de résultats classés plutôt que sur des résultats individuels. Ils peuvent fonctionner en fonction de l'appareil, de la localisation, du sujet, etc. Google dispose de fonctions Boost (ou Demote) intégrées à l'infrastructure Twiddlers. Par exemple, les fonctions « Boost » identifiées dans les documents divulgués : NavBoost, QualityBoost, RealTimeBoost, WebImageBoost, etc.
This is the oldest, probably the basic ranking signal. Anchors is a source page pointing to a target page by links. So if we take the number of anchors and analyze the text used therein, we'll find whether or not a page possesses a certain topic.For example, there are 10 links pointing to your page (internal or external links) and they use anchors like apple, red apple, green apple, and so on, so maybe then this page has topic of apple. So the document is relevant to the like queries.
Voici les termes utilisés dans le document. Ce signal de classement analyse la pertinence des termes utilisés dans le document.
Les clics correspondent au temps passé par un utilisateur sur la page avant de revenir à la recherche. Ainsi, ce vote, sous forme de clic, sera comptabilisé dans la pertinence et l'actualité.
Cela permet de déterminer la pertinence du document par rapport à la requête. Dans la mesure où l'actualité répond à la question, quelle est la pertinence de la page basée sur le terme de la requête pour être présentée dans les résultats de recherche ?
Et ces ABC (ancres, corps et clics) sont les composants clés de l'actualité, ils permettent donc à Google de décider d'afficher ou non une page en haut ou en bas par rapport au terme de recherche.
La qualité est la notion de fiabilité. C'est un indicateur important. Elle est liée à l'autorité des liens web pointant vers le site web, à l'ancienneté du domaine, etc. En d'autres termes, Google souhaite savoir si les utilisateurs peuvent réellement faire confiance à la page et à son contenu.
PageRank arguably exists on several layers including that which implies a "distance" from a golden standard "seed" websites.
Google dispose sans doute d'une collection d'articles fiables sur tous les sujets – la référence absolue en matière de confiance. Tous les liens sélectionnés forment un graphique de liens. Le rang ou la corrélation de chaque lien est calculé par la distance par rapport aux documents fiables, selon un algorithme graphique standard. C'est ce qu'on appelle la méthode « NeerestSeeds ».
Par exemple, si un article fiable du New York Times renvoie vers un article du site X, qu'un article du site X renvoie vers un article du site Y, et qu'un article du site Y renvoie vers wlw, la distance sera de 3. Dans les graphiques, la distance est calculée non pas par nœuds, mais par liens ou arêtes. Plus la distance est faible, meilleur est l'indicateur.
Résumé
Voici comment fonctionnent les classements de recherche, tels qu'ils sont déduits de l'analyse des documents divulgués et des témoignages judiciaires.