Chiarimenti sul comando site: in relazione alla Sitemap

Scritto il 20 mar 2009 in Motori di ricerca4 commenti letto 1161 volte.

Quando si cura il posizionamento di un sito, un passaggio importante è controllare la corretta e regolare indicizzazione delle proprie pagine da parte di GoogleBot. Per fare ciò è possibile utilizzare il comando site:http://www.tuosito.it con il quale vengono mostrare quali e quante pagine del tuo sito sono presenti nella cache di Google.

Capita però sovente che ci sia una discreta discrepanza trà gli url mostrati da tale comando e quelli presenti nella Sitemap, o meglio, succede spesso che non vengano indicizzate molte pagine contenute nel file sitemap.xml con conseguente perdita di dati e di posizioni. Può anche succedere al contrario, che vengano indicizzati url non elencati in tale file, questo perchè lo spider del motore di ricerca potrebbe averle trovate tramite link non inclusi nella sitemap.

In definitiva il comando site: è utile per capire:

  • quali pagine sono state indicizzate
  • quante pagine sono presenti nella cache di Google
  • se esistono contenuti duplicati
  • se il tuo sito è stato bannato dai risultati di ricerca

A questo punto però ti chiederai, se le pagine presenti nella mia sitemap sono molte di più di quelle indicizzate da GoogleBot, cosa posso fare per stimolarlo ad aggiornarsi di più sul mio sito? Oppure, cosa gli impedisce di indicizzare le mie pagine?

Migliorare l’indicizzazione delle pagine e della Sitemap

Per rispondere alla prima domanda posso dirti che il metodo migliore è di aggiungere contenuti nel tuo sito in maniera continua e regolare, senza esagerare mai. Google non ama gli aggiornamenti troppo grandi ed improvvisi. Decidi una tua linea di aggiornamento (per esempio un post al giorno) e mantienila costante, senza mai strafare.

Se hai già tutto pronto con molti contenuti non pubblicare fin da subito la sitemap completa, ma aggiornala giorno per giorno. Spesso molti creano le pagine off-line sul proprio computer, per poi pubblicare il loro portale quando è completo inviando sin dal primo giorno tutta la sitemap.xml completa a Google.

Questo è sbagliato, per due ragioni:

  • Per quanto il tuo sito sia grande e di qualità non sarà completamente indicizzato fin da subito da GoogleBot
  • Facendo così non aggiornerai il tuo portale agli occhi dei motori di ricerca e saranno restii a visitarlo spesso nei giorni futuri

Per cui appena pubblichi il tuo portale segnala una sitemap molto minimalista, e poi giorno dopo giorno, aggiungi qualche nuovo url, anche nel caso il tuo sito in realtà sia già tutto completo.

Inoltre abbi cura del codice delle tue pagine, poichè se GoogleBot trova degli ostacoli (codice html con troppi errori o incongruenze) o un sito troppo lento nel caricarsi, tenderà ad abbandonarlo e a non prelevare i contenuti. Da qui si evince l’importanza della validazione del mark-up e di un hosting performante.

Se vuoi approfondire ti consiglio di leggere questo post sul blog ufficiale di Google: Using stats from site: and Sitemap details

Articoli che potrebbero interessarti

4 comments

» Comments RSS Feed
  1. Ciao,
    in effetti il link cui fai riferimento alla fine dell’articolo è davvero interessante. Strumenti per Webmaster fornisce molte informazioni davvero interessanti ma l’utente medio tende ad analizzarne davvero poche. Ci si ferma al rischio penalizzazione e ban, qualcosa che possa aiutare a comprendere il ranking ma non ci si dedica più di tanto a come Google legge il nostro sito, quante pagine al giorno sono scandagliate ecc.

    Personalmente ho notato un miglioramento a livello di posizionamento ed indicizzazione proprio approfondendo il livello di analisi. Il bello è che ho dovuto aggiungere solo 15 minuti adognuno dei miei check di Strumenti per Webmaster.

    Ci si becca da queste parti,
    Danilo.

  2. Un ottimo post per capire a cosa serve il comando site di Google. Complimenti

  3. Personalmente faccio largo uso delle sitemaps ed ho notato che esse possono in qualche modo “stimolare” lo spider di Google a visitare quelle pagine, anche se lo spider alla fine tende a ripassare e ripassare su pagine già ispezionate ed anche indicizzate. Dico questo perché sul mio Blog sto facendo degli esperimenti proprio mirati a capire quando passa, se passa e dove passa lo spider di Google fornendogli una serie infinite di pagine. Trovate tutto a questo indirizzo …

    Venendo invece al comando “site:” che hai indicato nel tuo articolo per avere l’elenco delle URL che Google avrebbe indicizzato, è vero… il comando funziona…. ma qualcuno sarebbe in grado di spiegarmi il significato di quel “1 di 10 su circa 1.000.000″ ???

    Infatti se avanzo nei risultati organici di Google da pagina 1 alla 2 e via andare, man mano che procedo quel “su circa” diminuisce, ed alla fine scopro che le pagine realmente indicizzate da Google (oppure che Google mi vuole mostrare quando invece ne ha indicizzate di più), sono molte meno di ciò che indica lui all’inizio. E poi perché mai quel valore alla destra del su circa è un bel numerotto tondo tondo?
    Perche se cerco “hotel Milano” ottengo:

    Risultati 1 – 10 su circa 6.820.000 per hotel milano. (0,17 secondi)

    E’ quel numero tondo tondo 6.820.000 che mi fa imbufalire. Perché non 6.820.748 ???

    E’ forse una stima che Google fa?

  4. Ciao Alberto,
    ottima domanda la tua che sinceramente non mi sono mai posto, e alla quale ammetto di non saper dare una risposta certa. Immagino che sia come dici te, ossia Google restituisce un numero approssimativo, giusto per dare una idea. In fondo all’utente molto probabilmente non interessa nemmeno il numero preciso.

Scrivi un commento

- Torna alla Home Page di IoWebMaster