Sono trapelati 2.500 documenti interni dell’API Content Warehouse di Google, che forniscono uno sguardo raro sugli algoritmi di ricerca dell’azienda. La fuga di notizie, condivisa con Rand Fishkin, che include informazioni sull’archiviazione dei dati per contenuti, collegamenti e interazioni degli utenti, manca di dettagli sulle funzioni di punteggio ma offre spunti significativi sui meccanismi di classificazione di Google. Fishkin ha anche fatto una videochiamata con la fonte anonima.

Rand Fishkin è un esperto di marketing digitale noto per aver co-fondato Moz , una società di software SEO, e ha creato la serie di video”Whiteboard Friday”. È autore di”Lost and Founder”e in seguito ha fondato SparkToro, un’azienda di ricerche di mercato e piattaforma di audience intelligence.

La ricerca di Google è una delle scatole nere più segrete e gelosamente custodite al mondo. Beh, forse non più.

Nell’ultimo quarto di secolo, no Una fuga di notizie di questa portata o dettaglio non è mai stata segnalata dalla divisione di ricerca di Google. Se sei in #SEO, probabilmente dovresti vedere questo. pic.twitter.com/JxEs55IV21

— Rand Fishkin (segui @randderuiter sui thread) (@randfish) 28 maggio 2024

Come scrive Fishkin su Blog SparkToro, la documentazione trapelata delinea una vasta gamma di 2.596 moduli con 14.014 attributi collegati a vari servizi Google, tra cui YouTube, Assistente e documenti web. Questi moduli fanno parte di un repository monolitico, il che significa che tutto il codice è archiviato in una posizione centralizzata e accessibile da qualsiasi macchina sulla rete.

“Domenica 5 maggio ho ricevuto un’e-mail da una persona che affermava di avere accesso a una massiccia fuga di documentazione API dall’interno della divisione Ricerca di Google. L’e-mail affermava inoltre che questi documenti trapelati erano stati confermati come autentici da ex dipendenti di Google e che quegli ex dipendenti e altri avevano condiviso ulteriori informazioni private sulle operazioni di ricerca di Google.

Molte delle loro affermazioni contraddicono direttamente dichiarazioni pubbliche fatte dai Googler nel corso degli anni, in particolare la ripetuta negazione da parte dell’azienda che vengano utilizzati segnali utente incentrati sui clic, la negazione che i sottodomini siano considerati separatamente nelle classifiche, la negazione di una sandbox per i siti Web più recenti, la negazione che l’età di un dominio venga raccolta o considerata , e altro ancora.”

I clic influenzano il posizionamento

L’affermazione di Google secondo cui i clic non influenzano il posizionamento è contraddetta dall’esistenza del sistema NavBoost, che utilizza i clic misure guidate per adattare le classifiche. Questo sistema esiste dal 2005 e utilizza i dati sui clic per rafforzare o retrocedere le classifiche.

La fonte anonima dietro la fuga di notizie afferma che il team di ricerca di Google ha riconosciuto la necessità di un dati clickstream nei primi anni per migliorare la qualità dei risultati di ricerca. Questi dati includono ogni URL visitato da un browser. NavBoost, che inizialmente raccoglieva dati dal PageRank della barra degli strumenti di Google, è stata una delle motivazioni principali per la creazione del browser Chrome. Il sistema identifica la domanda di ricerca di tendenza analizzando il numero di ricerche per una determinata parola chiave, il numero di clic su un risultato di ricerca e distinguendo tra clic lunghi e clic brevi.

La fuga di notizie ha diverse implicazioni per pratiche SEO. L’algoritmo Panda di Google, ad esempio, utilizza un modificatore di punteggio basato sul comportamento dell’utente e sui collegamenti esterni, applicato a vari livelli come come dominio, sottodominio e sottodirectory. Google memorizza anche le informazioni sull’autore, evidenziando l’importanza della paternità nelle classifiche. Vengono applicate varie retrocessioni per fattori quali mancata corrispondenza degli ancoraggi, pagina dei risultati dei motori di ricerca (SERP) insoddisfazione e domini con corrispondenza esatta. I collegamenti rimangono cruciali, con metriche come sourceType che indicano il valore dei collegamenti in base alla loro posizione di indicizzazione. Google misura anche l’originalità dei contenuti brevi e conta i token, sottolineando l’importanza di posizionare i contenuti chiave all’inizio del testo. Secondo la fuga di notizie Google utilizza le seguenti retrocessioni algoritmiche:

Mancata corrispondenza dell’anchor: i collegamenti con testo di ancoraggio irrilevante vengono retrocessi. Declassamento SERP: le pagine che mostrano una scarsa soddisfazione degli utenti nella SERP vengono retrocesse. Domini con corrispondenza esatta: ricevono meno valore nelle classifiche. Declassamento delle recensioni dei prodotti: probabilmente correlato al recente aggiornamento delle recensioni dei prodotti. Declassamento della posizione: le pagine”globali”e”super globali”possono essere retrocesse per favorire contenuti pertinenti a livello locale.

Dichiarazioni pubbliche fuorvianti

Contrariamente alle dichiarazioni pubbliche di Google, i documenti rivelano diverse caratteristiche che la società aveva precedentemente negato. Ad esempio, una funzionalità chiamata”siteAuthority”indica che Google misura l’autorità a livello di sito, nonostante affermazioni contrarie. Sistemi come NavBoost utilizzano i dati sui clic per influenzare le classifiche, contraddicendo le smentite di Google sui clic che influenzano i risultati di ricerca. La documentazione menziona anche un”hostAge”attributo utilizzato per eseguire il sandboxing di nuovi siti, cosa che Google ha pubblicamente negato. La documentazione indica l’esistenza di una funzionalità”sandbox”che separa i siti nuovi o non attendibili. Questa viene utilizzata per impedire che nuovo spam si posizioni in alto nei risultati di ricerca.

Per analizzare il materiale condiviso, Fishkin ha collaborato con Mike Kink di Pullrank, che ha pubblicato un’analisi dettagliata di ciò che hanno scoperto finora. Secondo lui ci sono”. 2.596 moduli rappresentati nella documentazione API con 14.014 attributi”nel sistema di classificazione di Google. La documentazione trapelata delinea ogni modulo dell’API e lo suddivide in riepiloghi, tipi, funzioni e attributi.

Nonostante le dichiarazioni pubbliche di Google neghino l’uso dell’autorità di dominio, la documentazione conferma l’utilizzo di”siteAuthority”nel”sistema di classificazione Q*”. Ciò indica che Google calcola e utilizza una misura dell’autorità a livello di sito. La fuga di notizie sembra svelare diverse bugie da parte di Google sul lavoro di classificazione, scrive Kink:

“. I portavoce di Google hanno affermato numerose volte di non utilizzare la”autorità di dominio”. Ho sempre pensato che si trattasse di una bugia per omissione e offuscamento.
 
Dicendo che non utilizzano l’autorità di dominio, potrebbero dire che specificamente non utilizzano la metrica di Moz chiamata”Autorità di dominio”(ovviamente 🙄). Potrebbero anche dire che non misurano l’autorità o l’importanza di un argomento (o dominio) specifico in relazione a un sito web. Questa confusione semantica consente loro di non rispondere mai direttamente domanda se calcolano o utilizzano metriche di autorità a livello di sito.”

Il sistema di classificazione di Google è descritto come una serie di microservizi piuttosto che come un singolo algoritmo. I sistemi chiave includono Trawler per la scansione,”Alexandria”per l’indicizzazione,”Mustang”per il posizionamento e”SuperRoot”per l’elaborazione delle query. Questi microservizi lavorano in tandem per elaborare e classificare i risultati di ricerca.

Il Ruolo di Twiddler per la riclassificazione

Google utilizza i cosiddetti Twiddler, che sono funzioni di riclassificazione che modificano i risultati di ricerca prima che vengano presentati agli utenti. Esempi di queste funzioni includono NavBoost, QualityBoost,. e RealTimeBoost. Questi meccanismi ottimizzano i risultati di ricerca in base a vari fattori, tra cui il coinvolgimento degli utenti e la qualità dei contenuti.

Secondo la fuga di notizie, Google utilizza vari metodi per combattere lo spam sui clic manuali e automatizzati, incluso l’utilizzo della cronologia dei cookie. , dati Chrome registrati e rilevamento di pattern. NavBoost assegna un punteggio alle query in base all’intento dell’utente, attivando funzionalità video o di immagini in base alle soglie di coinvolgimento dell’utente. Il sistema valuta anche la qualità complessiva di un sito a livello di host, il che può comportare un potenziamento o una retrocessione. Sebbene Google abbia affermato che i dati di Chrome non vengono utilizzati nelle classifiche di ricerca, i documenti trapelati rivelano che le visualizzazioni da Chrome vengono prese in considerazione nei punteggi di qualità della pagina e in altri fattori di classificazione.

Google utilizza anche il geofencing per i dati sui clic. , considerando fattori quali paese, livello di stato/provincia e utilizzo di dispositivi mobili rispetto a desktop. Se mancano dati per alcune regioni, il processo può essere applicato universalmente. Durante la pandemia di Covid-19, Google ha utilizzato liste bianche per i siti Web che apparivano nelle ricerche relative al Covid. Allo stesso modo, durante le elezioni democratiche, Google ha utilizzato liste bianche per i siti mostrati o retrocessi nelle informazioni relative alle elezioni. King ipotizza nella sua analisi se Aggiornamento contenuti utili è correlato a ciò che viene chiamato”Baby Panda”e a cosa potrebbe significare NSR (Neural Semantic Retrieval)”Ci sono due riferimenti a qualcosa chiamato”baby panda”nei segnali di qualità compressi. Baby Panda è un Twiddler che è un fulmineo aggiustamento dopo la classifica iniziale”, scrive.

“Penso che siamo generalmente d’accordo sul fatto che l’Aggiornamento dei contenuti utili abbia molti degli stessi comportamenti di Panda. Se è costruito sulla base di un sistema che utilizza query di riferimento, collegamenti e clic, questi sono gli aspetti su cui dovrai concentrarti dopo aver migliorato i tuoi contenuti.”

Introduzione

Conclude dicendo che”ora abbiamo una comprensione molto migliore di molte delle funzionalità che Google utilizza per creare classifiche. Attraverso una combinazione di dati clickstream ed estrazione di funzionalità, possiamo replicare più di quanto potessimo fare in precedenza.“

“Una cosa importante che tutti possiamo imparare da tutto questo è: i SEO sanno cosa stanno facendo. Dopo anni in cui ci è stato detto che abbiamo torto, è bello vedere dietro le quinte e scoprire che abbiamo sempre avuto ragione. E, sebbene in questi documenti siano presenti sfumature interessanti sul funzionamento di Google, non c’è nulla che possa cambiare radicalmente il modo in cui svolgo strategicamente la SEO.
 
Per coloro che approfondiscono, questi documenti serviranno principalmente a convalidare ciò che i SEO esperti sostengono da tempo. Comprendi il tuo pubblico, identifica ciò che desidera, crea la cosa migliore possibile che sia in linea con quello, rendila tecnicamente accessibile e promuovila finché non si classifica.”

Questo potrebbe essere un buon momento per rivisitare la recente intervista del CEO di Google Sundar Pichai con Nilay Patel, con alcune conoscenze di base.

Categories: IT Info