Fan-out e RRF: come i modelli LLM scompongono le query e selezionano le fonti
Evoluzione delle dinamiche della ricerca online
A differenza di quelli tradizionali, i motori di ricerca AI based offrono risposte dirette ai quesiti posti dall’utenza. Questo non è l’unico aspetto che contribuisce alla vera rivoluzione delle dinamiche della ricerca online che hanno caratterizzato gli ultimi decenni. Da una parte, infatti, la migliorata capacità di comprensione dei modelli LLM stimola domande sempre più strutturate, a base di linguaggio conversazionale. Dall’altra, la risposta che forniscono è un riassunto delle informazioni di cui il motore AI dispone, vale a dire quelle del patrimonio documentale del suo training integrate alla bisogna con quelle recuperate in real time sulla rete.
Un tempo il ciclo di vita tipico della query includeva come step necessario la scelta di uno dei risultati proposti dal motore di ricerca, seguita dal click sul “blue link” e dalla fruizione del contenuto sulla pagina web collegata, mentre oggi alla query dell’utente segue una risposta diretta che stimola una prosecuzione della conversazione con domande di follow up più che la visita a una qualche property. Chiaramente questo è un concetto generale e ci sono molte eccezioni che avremo modo di approfondire in articoli dedicati, ma “all’ingrosso” le cose stanno così.
Se al tempo dei ten blue links l’obiettivo diretto delle attività SEO era quello di generare traffico qualificato – visibilità e traffico erano, di fatto, le due facce di una stessa medaglia – nell’era degli answer engine il vero punto è quello di risultare rilevanti e massimizzare la propria visibilità tra le fonti utilizzate dai modelli LLM per confezionare le loro risposte.
A tal fine, dobbiamo provare a comprendere meglio i meccanismi di funzionamento dei motori AI based, vale a dire come selezionano e recuperano le informazioni di cui hanno bisogno per poter generare una risposta. Al centro di questo processo ci sono due concetti cardine: Query Fan-out e Reciprocal Rank Fusion (RRF).
Cos’è il Query Fan-out e perché è importante
Il Query Fan-out è una tecnica di recupero delle informazioni (retrieval) utilizzata dai motori di ricerca basati sull’intelligenza artificiale per frammentare un prompt utente complesso in molteplici sub-query distinte.
Invece di affidarsi a una corrispondenza diretta e lineare con la stringa di ricerca originaria, il sistema scompone il prompt articolato dell’utente in una serie di sotto-domande ed esegue le relative interrogazioni in parallelo per raccogliere informazioni da diverse prospettive (ad esempio specifiche tecniche, recensioni, prezzi) e sintetizzarle in un’unica risposta completa.
Si potrebbe vedere il sistema di fan-out come un assistente di ricerca automatizzato in grado di anticipare le domande di follow-up dell’utente per ridurre l’ambiguità e le allucinazioni del modello.
Cos’è il Reciprocal Rank Fusion (RRF)
Il Reciprocal Rank Fusion (RRF) è un algoritmo semplice ma estremamente potente utilizzato all’interno dei sistemi RAG (Retrieval-Augmented Generation) per combinare in modo intelligente i risultati di ricerca provenienti da query multiple. Il principale vantaggio che offre è quello di poter recuperare liste di risultati generate con metodologie diverse e ricavare una classifica finale. Non si tratta di tecnologia dell’ultim’ora, ma figura per la prima volta in un paper scientifico del 2009.
Quando il Fan-out genera diverse sub-query, il sistema recupera liste di documenti per ciascuna di esse in parallelo. A questo punto interviene il meccanismo di RRF, che fonde i risultati assegnando uno score in modo da premiare i documenti che si posizionano costantemente in alto in più ricerche differenti. In buona sostanza, le risorse (pagine web) che appaiono più volte nei risultati di ricerca sia per la query principale che per le sub-query distillate dal Fan-out ottengono un punteggio maggiore, aumentando drasticamente le chance di essere citate nella risposta finale.
Un recente studio basato su 15.000 prompt attesta che sugli oltre 500K documenti recuperati con circa 43K sub-query solo il 15% ha superato le forche caudine del RRF ed è finito tra le fonti citate nei responsi di ChatGPT. Aspetto da non trascurare: lo stesso studio sembra attestare che la vecchia e cara SEO Foundation resti centrale anche quando si tratta di sviluppare visibilità nei motori AI based: oltre il 43% delle pagine citate ottengono una prima posizione sulle SERP classiche di Google per una delle sub-query.
Altro dato particolarmente interessante è che quasi un terzo delle pagine citate nelle risposte finali dell’IA appare esclusivamente nei risultati delle query di fan-out, e non nei risultati di ricerca generati dal prompt originale. Infine, le sub-query ottenute con il fan-out sono spesso a volume zero secondo gli strumenti di search intelligence tradizionali, risultando quindi delle ghiotte opportunità in ottica GEO difficilmente identificabili con l’approccio classico alla keyword research.
Riflessi di Fan-out e RRF sull’ottimizzazione dei contenuti
Il meccanismo descritto suggerisce un approccio leggermente più articolato di quello “classico SEO”, che troppo spesso viene impropriamente associato al concetto di “target keyword”.
L’ottimizzazione per la “target keyword”, infatti, rappresenta un approccio preistorico utilizzato al tempo in cui i motori di ricerca non erano in grado di “comprendere” il linguaggio naturale – né delle query dell’utente né, tantomeno, dei contenuti delle pagine web che analizzavano – e fondavano il giudizio di rilevanza sul semplice “match” testuale. Anche prima dell’avvento di Hummingbird o dei modelli di NLP come Bert o MUM i motori di ricerca come Google cercavano di contestualizzare la “target keyword” e ricondurla a un’entità concettuale. Se in una pagina si parlava di “jaguar” e poi si nominavano i cavalli di potenza Google “capiva” che il termine era riferito a un’automobile, mentre in presenza di termini come “giungla” o “predatore” era in grado di disambiguare correttamente e capire che si stava parlando di un animale.
Già quando i mezzi utilizzati per una migliore comprensione del linguaggio naturale da parte dei motori erano appena abbozzati, l’approccio all’ottimizzazione dei contenuti usciva dal perimetro della “target keyword” ed estendeva il campo di ottimizzazione a tutti i termini ad essa strettamente correlati: sinonimi, entità concettuali correlate.
Cos’è che davvero cambia nelle attività di ottimizzazione dei contenuti alla luce del binomio Fan-out e RRF?
- Una volta identificato il topic, la simulazione del fan-out ci aiuta a definirne perimetro e struttura, ossia la sequenza di concetti da includere nel nostro contenuto per renderlo completo ed esaustivo.
- Nella stesura del contenuto è utile affrontare il cuore del bisogno informativo per poi andare a coprire tutte le sub-query pertinenti, possibilmente attraverso l’uso di paragrafi ben strutturati e titoli gerarchici (H2, H3).
- Secondo alcuni professionisti del settore – smentiti però da portavoce Google, non propriamente disinteressati – sarebbe utile scrivere in “chunk” (frammenti): ogni blocco testuale dovrebbe risultare semanticamente coeso e auto-sufficiente, in modo da poter essere estratto, compreso in modo indipendente e fuso dalla RRF senza perdere il suo significato. Anche in considerazione del “passage indexing” (più propriamente “passage ranking”), una tecnologia una tecnologia introdotta da Google nel 2021 che permette all’algoritmo di comprendere e classificare specifici passaggi o sezioni all’interno di una pagina web, anziché limitarsi a valutare l’intera pagina come un’unica entità, l’idea non appare così peregrina.
- Il contenuto deve rispondere in modo implicito o esplicito – es: sotto forma di FAQ – a tutte le domande delle sub-queries
Come si vede, questi step presentano qualche piccola ma sostanziale differenza rispetto all’approccio classico all’ottimizzazione contenuti, perché se anche l’utente finale – destinatario ultimo del contenuto – resta lo stesso, cambiano i meccanismi di funzionamento dell’interfaccia che ci permette di intercettarlo durante la ricerca di informazioni sui motori AI powered. In particolare, la costruzione del contenuto deve tenere conto del Fan-out e del meccanismo di RRF per massimizzare le chance di essere utilizzati come fonti per la generazione dei responsi LLM e di permettere così un’esposizione del nostro brand nei nuovi contesti di ricerca di informazioni online.
Conclusioni
L’era della GEO impone un passaggio fondamentale dalle logiche legate ai “dieci link blu” a un focus sull’autorevolezza e sulla citabilità (citation-worthiness). I motori IA non leggono i contenuti allo scopo di indicizzarli per keyword, ma per scompattarli, estrarne i significati tramite Fan-out e valutare la loro pertinenza trasversale con il Reciprocal Rank Fusion.
Allineare la produzione di contenuti a queste nuove dinamiche non è un’opzione tecnica avanzata, ma l’unica opzione per migliorare la rilevanza del nostro brand nei responsi della ricerca generativa.
