Un file robots.txt è un insieme di istruzioni per i bot. Questo file è incluso nei file sorgente della maggior parte dei siti web. I file robots.txt servono soprattutto a gestire le attività dei bot buoni, come i web crawler, poiché è improbabile che i bot cattivi seguano le istruzioni.

Pensate a un file robots.txt come a un cartello “Codice di condotta” affisso sul muro di una palestra, di un bar o di un centro sociale: Il cartello stesso non ha il potere di far rispettare le regole elencate, ma gli avventori “buoni” seguiranno le regole, mentre quelli “cattivi” probabilmente le infrangeranno e si faranno bandire.

Un bot è un programma informatico automatizzato che interagisce con siti web e applicazioni. Esistono bot buoni e bot cattivi, e un tipo di bot buono è chiamato bot crawler. Questi bot “strisciano” le pagine web e indicizzano il contenuto in modo che possa apparire nei risultati dei motori di ricerca. Un file robots.txt aiuta a gestire le attività di questi web crawler in modo che non sovraccarichino il server web che ospita il sito o indicizzino pagine che non sono destinate alla visualizzazione pubblica.

Indice dei contenuti

Primi su Google, configura il file robots.txt: guida per neofiti

La configurazione del robots.txt è molto importante se vuoi aspirare i tuoi siti web ad essere primi su Google o aumentare la visbilita’ online del tuo sito web. Non solo in ottica posizionamento sui motori di ricerca. Ma anche per escludere dall’indicizzazione cartelle che fanno parte del CMS (WordPress, Joomla. Drupal e altri) per evitare attacchi informatici.

Inoltre. una cattiva configurazione può penalizzare anche la visibilità di alcune parti o tutte le aree del sito web. Questo articolo ha come obbiettivo di mostrare la configurazione corretta del file robots.txt per essere primi su Google in pochi minuti

Primi su Google con il file robots.txt

Per essere primi su Google non è sufficiente rispettare tutte le regole di ottimizzazione spiegate nella mia guida posizionamento Google. Ma è necessario anche lavorare lato tecnico per consentire l’indicizzazione ed il conseguente posizionamento del sito web dei soli contenuti interessati.

Per questo motivo ti consiglio di usare un meraviglioso strumento SEO come Semrush. Prova Semrush gratis e miglori il posizionamento SEO e il lato tecnico SEO.

Infatti, molto spesso accade che un sito web con ottimi contenuti e con la struttura a silo, che ogni sito dovrebbe avere, non solo non indicizza nessuna parte del sito web ma non posiziona nessun tipo di contenuto.

Subito si pensa ad una penalizzazione del motore di ricerca ma ti assicuro che la maggior parte delle volte è configurato male il file robots.txt. Lo scopo di questo articolo è aiutarti a configurare al meglio questo file e capire al vole come essere primi su Google in 10 minuti. Per saperne ancora di più ti consiglio di consultare il Protocollo di Esclusione Robot.

Il robots.txt dice agli spider cosa possono o non possono scansionare. Inoltre, consente di scegliere lo spider del motore di ricerca. Lo spider ha il compito di scansionare il sito alla ricerca di novità. Ogni motore di ricerca ha il suo spider. Google ha Googlebot e gli altri motori di ricerca hanno il loro. Vediamo i vantaggi nell’usare il file robots.txt. Ho riassunto i vantaggi nello specchietto seguente.

Primi su Google: perche’ usare il robots.txt ?

Il file robots.txt ha delle cartterstiche importanti non solo per la SEO ma anche per la scicurezza. Te le raggruppo tutte insieme in questo elenco:

si specificano dove si trovano le sitemap del sito;
s’impedisce ai motori di ricerca di indicizzare determinati file presenti nel sito come per esempio, elementi grafici, immagini, pdf o altro;
si mantengono private alcune parti del sito o le pagine con i risultati delle ricerche interne;
s’impedisce che i contenuti duplicati vengano inclusi nei risultati dei motori di ricerca;
è possiible richiedere un ritardo della scansione del sito per impedire il sovraccarico del server ogni volta che i bot caricono in modo simultaneo tanti contenuti.

I file robots.txt sono pubblici. Infatti è possible vedere le sitemap di Google oppure di Moz. Per indivduare i robots.txt è sufficiente scrivere miosito.it/robots.txt. Oppure clicca il bottone per vederli nell’articolo.

Vai ai robots.txt famosi

Primi su Google: 10 errori da non fare con il file robots.txt

Il file robots.txt è importante per la SERP perché permette di gestire le indicazioni dati ai bot dei motori di ricerca in maniera più semplice; quando essi eseguono la scansione del sito. Inoltre, viene data una localizzazione precisa della sitemap. Per di più, permette anche di limitare l’accesso a determinate risorse inutili per ottimizzare il crawl budget usando il comando disallow. Cercate sempre di capire le istruzioni che inseritenel file se non volete perdere la possbilita’ di essere primi su Google.

Per essere primi su Google e’ consigliabile usare con molta cautela le istruzioni inserite in questo file. Perché interpretare in maniera errata le istruzioni o ancora peggio impartire comandi sbagliati possono portare gravi problemi al posizionamento sui motori di ricerca e alla visibilità online. Per questo motivo indico 10 pratiche scorrette che devono essre evitate:

Ecco i 10 errori da evitare assolutamente con il robots.txt:

file robots.txt vuoto
evita un file troppo pesante e complesso
bloccare risorse utili
nascondere informazioni:
cercare di bloccare l’indicizzazione di pagine
utilizzare il disallow su pagine con tag noindex
bloccare pagine con altri tag:
non controllare gli status code
non curare la sintassi
non inserire la posizione della sitemap

Primi su Google, le pratiche scorrette da evitare

Per essere primi su Google non e’ necessario e sufficiente offrire degli ottimi contenuti agli utenti. Ma e’ necessario anche eseguire accirtezze tecniche per evitare che tutta l’attivita’ di content marketing sia stata completamente inutile. In questo paragrafo, ti mostro come evitare molti errori comuni che vengono eseguiti sul file robots.txt e come prevenirli.

Primi su Google: file robots.txt vuoto (errore 1)

Le linee guida di Google affermano che il file robots.txt è necessario soltanto se dedsideriamo bloccare l’autorizzazione a fare la scansione da parte dei crawler. Siti privi del file robots.txt, meta tags robots o intestazioni HTTP X-Robots-Tags possono essere indicizzati ugualmente. Questo significa che se non ci sono parti del sito oppure url che non devono essere scansionati non serve creare un file robots.txt. Per questo motivo non ha senso creare il file robots.txt vuoto;

Primi su Google: evita un file troppo pesante e complesso (errore 2)

Inserire una marea di istruzioni senza nessuna logica sperando di migliorare la situazione non è mai una buona idea. Dall’altro lato anche file molto pesanti e complessi possono creare problemi sia a Google che hai webmaster. Lo standard limita il suo perso a 500 kb. E Google dichiara apertmente che ignorerà il testo in eccesso. Comunque, è bene sottoloneare che il file robots.txt deve essere sempre breve e preciso.

Primi su Google: bloccare risorse utili (errore 3)

Fra tutti gli errori che si possono fare questo è quello più grave. Perché molto spesso si blocca l’indicizzazione di contenuti che dovrebbero essere indicizzate per il proprio progetto online. Infatti, capita che contenuti potenzialmente competitivi sono bloccati per una cattiva interpretazione delle istruzioni.

Primi su Google: nascondere informazioni (errore 4)

Questa è una cattiva idea. Perché il file robots.txt è pubblico. Infatti, posso sare il file robots.txt di Google o anche di Moz o dei propri competitor o di altri. Alcuni ritengono che mettere un url in disallow (istruzione del file robots.txt che vedremo in seguito) eviti che la risorsa sia visbile nei risultati di ricerca.

Primi su Google: cercare di bloccare l’indicizzazione di pagine (errore 5)

Molto spesso è interpretato in maniera sbagliata l’utilità e la funzione del file robots.txt. E si crede, sbagliando, che inserire una url in disallow possa impedire che il contenuto sia visibile ne risultati di ricerca. Contrariamente, bloccare una pagina txt non impedisce ai motori di ricerca di indicizzarla. Né è in grado di rimuovere la risorsa dall’indice o dai risultati di ricerca. Questo è ancor più vero se questi url sono linkati da pagine “aperte”. Un fraintendimento di questo tipo comporta la comparsa in SERP dell’url in disallow. Naturalmente privata del giusto titolo e della giusta meta description (campo in cui è presente un messaggio di errore).

Primi su Google: utilizzare il disallow su pagine con tag noindex (errore 6)

In questo caso il bot non è in grado di leggere in modo corretto l’istruzione che imperdisce l’indicizzazione della pagina; si potrebbe creare un evento bizzarro. L’url con meta tag noindex potrebbe essere indicizzato e anche posizionarsi in SERP. Perché il comando disallow ha reso le altre istruzioni inefficaci. Mentre il modo corretto per impedire ad una pagina di essere presente nei risultati di ricerca è di impostare il meta tag noindex e consentire ai bot di controllare l’accesso al contenuto.

Primi su Google: bloccare pagine con altri tag (errore 7)

Bloccare o limitare l’accesso a pagine con rel=canonical (vedi la mia guida SEO linkata all’inizio dell’articolo) oppure ai meta tag nofollow non consente ai bot di sansionare il contenuti del sito web. Inoltre, non permette nemmeno di leggere i comandi inseriti. E’ importante che il crawler di Google e i bot di altri motori di ricerca possano interpretare gli status code o i meta tag degli url. Per consentire la lettura diu questi elementi è necessario evitare di bloccare queste risorse nel robots.txt.

Primi su Google: non controllare gli status code (errore 8)

Passiamo ad un aspetto tecnico molto importante; quello degli status code. Infatti, questi codici sono generati dopo la scansione della pagina e ne indicano l’esito. Hai presente quell’errore che si presenta quando e’ stato modificato il file .htaccess ? Ecco quello rappresenta uno status code molto comune. Gli status code rappresentano la scansione della pagina da parte del crawler del motore di ricerca. E a seconda dell’esito positivo o negativo puo’ bloccare l’aspirazione di essere primi su Google.

Primi su Google: non curare la sintassi (errore 9)

Va sottolineato che la sinstassi del file robots.txt è case sensitive. Questo significa che viene fatta distinzione tra lettere maiuiscole e lettere minuscole, come fossero due entità diverse. Questo comporta l’obbligo a nominare in modo corretto il file (quindi robots.txt con lettere minuscole e senza altre variazioni). Inoltre, devono essere verificati che tutti i dati come directory, subdirectory e nomi dei file sono scritti senza mescolare lettere maiuscole e minuscole in modo non

Primi su Google: non inserire la posizione della sitemap (errore 10)

La sitemap è un importante elemento per il posizionamento sui motori di ricerca. Infatti, indica ai motori i nuovi contenuti che devono essere sottoposti a scansione. Per questo motivo è molto importante inserire il percorso della sitemap all’interno del file robots.txt.

Primi su Google: configurazione base file robots.txt

La configurazione di questo file consente anche di scegliere quale spider può scnasionare il sito. Oppure consentire a tutti gli spider dei motori di ricerca di esaminare il sito web. Questo paragrafo ti aiuterà a configurare al meglio questo file.

Primi su Google: dove inserire il file robots.txt

Il file va inserito nella root princiapale del tuo spazio web,
per esempio nella cartella public html se usi Siteground, Httpdocs o WWW a seconda del servizio di hosting che usi.

Primi su Google: robots.txt e le sue configurazioni

Ci sono varie strade per poter configurare il robots.txt:

usare un editor di testo e caricarlo sul server attraverso un Cpanel o usando Filezilla,
se usi WordPress puoi usare il plugin Seo by Yoast oppure All in Seo.

Passiamo adesso alla configurazione vera e propria. Questa è la prima riga da inserire:

User-Agent : *

UserAgent sarà lo spider ed ha varie configurazioni:

User-Agent: Googlebot, in questo caso viene indicato uno spider in particolare; in questo esempio quello di Google. Ti sconsiglio questa configurazione.
User-Agent: * , in questo caso l’asterisco dice che tutti gli spider dei motori di ricerca esistenti possono scansionare il sito. Configurazione consigliata.

Passiamo a descrivere i vari comandi del file robots.txt che hanno lo scopo di dire ai vari robot (detti spider) le istruzioni che devono eseguire quando scansionano le pagine, file e cartelle di un sito web. Questi sono i comandi:

Disallow (blocca): questo comando e’ preceduto dal simbolo “/” senza le virgolette. Indica al robot di Google ed altri robot di altri motori quali sono i contenuti che non devono scansionare e quindi che non devono essere indicizzati;
Allow (sblocca): questo comando si comporta in maniera contraria del precedente. Infatti, dice al robot quali sono i contenuti che devono essere indicizzati da Google, Yahoo, Bing, Yandex, Ecosia, DuckDuckGo e altri motori.

Queste sono le istruzioni principali. Adesso dobbiamo specificare allo spider quali sono le cartelle e i file che possono o non possono scansionare; perché potrebbero produrre dei contenuti duplicati.

I contenuti duplicati non piacciono a Google come per esempio Feed RSS, Trackback oppure i commenti che sembrano innocui ma che non lo sono affatto. Andiamo a vedere come impartire questi ordini su WordPress.

Come essere primi su Google: configurazione robots.txt per WordPress

Quando si usa un CMS (Content Management Systems) come WordPress è importante bloccare l’indicizzazione dei file e cartelle che fanno parte dell’installazione e gestione di WordPress. Prima ancora di farti vedere il file robots.txt completo voglio spiegarti i vari blocchi di codice.

Primi su Google: blocco indicizzazione contenuti

Il primo blocco si occupa dell’indicizzazione delle cartelle che contengono i file d’installazione. Sono tutti elementi che hanno la funzione di gestire WordPress:

Disallow: /wp-
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/

In questo caso il file robots.txt non consente allo spider di scansionarne i contenuti.

Primi su Google: scansiona gli elementi multimediali

La cartella delle immagini e dei media (video, audio, immagini, documenti come per esempio .pdf.) è consigliabile consentirne l’indicizzazione. Questi elementi sono inseriti negli articoli o nelle pagine statiche. Per questo motivo è molto importante che lo spider del motore di ricerca le scansioni. Come consentire allo spider di scansionare la cartella media ?

E’ necessario dire al file robots.txt l’ubicazione della cartella con questo comando:

Allow: /wp-content/uploads/

Primi su Google: evita penalizzazioni

Per evitare di avere delle penalizzazioni e subire una perdita di posizionamento Google, l’indicizzazione dei contenuti duplicati inserisci queste righe di cosidce nel file robots.txt. Che bloccano l’indicizzazione dei commenti, trackback ed i feed:

Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/

Primi su Google: attento al motore di ricerca interno

Inoltre, se il tuo sito WordPress ha un motore di ricerca interno (se non lo hai inseriscilo perché aiuta a capire il comportamento degli utenti tramite le ricerche interne) per cercare articoli del blog oppure i prodotti su Woocommerce (se hai un e-commerce) è necessario impedire che gli url generati come risultati del motore di ricerca interno che corrispondano a contenuti già esistenti, siano indicizzati da Google. Per evitare tutto ciò inserisci questo blocco di codice con il comando Disallow:

Disallow: /*?*
Disallow: /*?

Primi su Google: blocca indicizzazione archivi, categorie, tag

Non dobbiamo dimenticarci di bloccare l’indicizzazione degli archivi, delle categorie e dei tag attraverso queste due istruzioni:

Disallow: /category/
Disallow: /tag/

Primi su Google: inserire url sitemap

La fase finale è indicare all’interno del file robots.txt l’indirizzo della sitemap.xml. Può contenere più di una sitemap attraverso una di queste righe:

Sitemap: http://www.tuositoweb.it/sitemap.xml
o

Sitemap: http://www.tuositoweb.it/sitemap.xml.gz

Adesso siamo giunti alla fine della configurazione del file robots.txt. Ecco il codice completo:

Disallow: /wp-
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /wp-content/
Allow: /wp-content/uploads/
Disallow: /trackback/
Disallow: /feed/
Disallow: /comments/
Disallow: */trackback/
Disallow: */feed/
Disallow: */comments/
Disallow: /*?*
Disallow: /*?
Disallow: /category/
Disallow: /tag/
Sitemap: http://www.tuositoweb.it/sitemap.xml

Adesso puoi salvare il file di testo creato con un editor
come Blocco Note, Notepad se usi Windows oppure usare
l’editor professionale Atom che ti consiglio. Fatto questo il
file deve essere caricato sul server atrtraverso il Cpanel del
proprio hosting oppure con un client FTP (File Transfer Protocol) come Filezilla. Dove deve essere inseirito ?
Il file va inserito nella root princiapale del tuo spazio web, per esempio nella cartella public html se usi Siteground (è l’hosting che uso anche io per i mie progetti), Httpdocs o WWW a seconda del servizio di hosting che usi. Nel prossimo paragrafo un modo semplificato di accedere al file robots.txt attraverso il plugin SEO by Yoast.

Primi su Google: gestisci robots.txt con SEO by Yoast

Nei paragrafi precedenti hai visto come scrivere il file robots.txt a livello server. Ma seo dovessi riscontrare problemi a caricare questo file sul server esiste una strada più semplice. Adoperando una funzione del plugin SEO by Yoast. Questo plugin consnete la scrittura di questo file tramilte il pannello di amministrazione di WordPress (bacheca). Vediamo come fare.

Se non hai ancora installato il plugin SEO by Yoast installalo subito ed attivalo. Fattio ciò clicca sul menù SEO nella sidebar a sinistra della bachecheca di WordPress, come mostrato in figura.

editare file robots SEO — editare il file robots.txt utilizzando Yoast SEO tramite la bacheca di WordPress

Poi clicca su Strumenti e poi su Modifica file.

Questa funzione di solito è disponibile, a meno che non è stata disabilitata la modifica dei file. Ma niente paura, se non dovesse essere disponibile è sufficiente abilitarla oppure procederea la configurazione del file robots.txt tramite il server come ti ho già spiegato nei precedenti paragrafi.

Se il file non è ancora stato creato è possibile crearlo cliccando su Creare il file robots.txt. Adesso è possibile scrivere il file robots.txt usando SEO by Yoast direttamente dalla bacheca di WordPress.

Adesso non ti resta che cliccare su Salva modifiche al Robots.txt per salvare il file.

Per essere primi su Google e’ consigliabile conoscere le varie risposte che il web server da dopo ogni richiesta eseguita. Questo vuol dire che ogni volta che si digita l’url del sito web oppure quando si clicca sui risultati della SERP si chiede al web server di portare a completamento una richiesta. La richiesta puo’ essere portata a termine in maniera positiva con la visione della pagina web desiderata. Oppure puo’ portare ad un errore. Ho ritenuto che era utile conoscere questi errori per capire come muoversi in caso fossero presenti. Nel prossimo articolo ci immergeremo nei codici di stato o status code.

Primi su Google: robots.txt famosi

Inserisco per completezza informativa i robots.txt di Google robots.txt e Moz robots.txt. Potrebbero avere una struttura utile per essere primi su Google.

Google robots.txt

User-agent: *
Disallow: /search
Allow: /search/about
Allow: /search/static
Allow: /search/howsearchworks
Disallow: /sdch
Disallow: /groups
Disallow: /index.html?
Disallow: /?
Allow: /?hl=
Disallow: /?hl=*&
Allow: /?hl=*&gws_rd=ssl$
Disallow: /?hl=*&*&gws_rd=ssl
Allow: /?gws_rd=ssl$
Allow: /?pt1=true$
Disallow: /imgres
Disallow: /u/
Disallow: /preferences
Disallow: /setprefs
Disallow: /default
Disallow: /m?
Disallow: /m/
Allow:    /m/finance
Disallow: /wml?
Disallow: /wml/?
Disallow: /wml/search?
Disallow: /xhtml?
Disallow: /xhtml/?
Disallow: /xhtml/search?
Disallow: /xml?
Disallow: /imode?
Disallow: /imode/?
Disallow: /imode/search?
Disallow: /jsky?
Disallow: /jsky/?
Disallow: /jsky/search?
Disallow: /pda?
Disallow: /pda/?
Disallow: /pda/search?
Disallow: /sprint_xhtml
Disallow: /sprint_wml
Disallow: /pqa
Disallow: /palm
Disallow: /gwt/
Disallow: /purchases
Disallow: /local?
Disallow: /local_url
Disallow: /shihui?
Disallow: /shihui/
Disallow: /products?
Disallow: /product_
Disallow: /products_
Disallow: /products;
Disallow: /print
Disallow: /books/
Disallow: /bkshp?*q=*
Disallow: /books?*q=*
Disallow: /books?*output=*
Disallow: /books?*pg=*
Disallow: /books?*jtp=*
Disallow: /books?*jscmd=*
Disallow: /books?*buy=*
Disallow: /books?*zoom=*
Allow: /books?*q=related:*
Allow: /books?*q=editions:*
Allow: /books?*q=subject:*
Allow: /books/about
Allow: /booksrightsholders
Allow: /books?*zoom=1*
Allow: /books?*zoom=5*
Allow: /books/content?*zoom=1*
Allow: /books/content?*zoom=5*
Disallow: /ebooks/
Disallow: /ebooks?*q=*
Disallow: /ebooks?*output=*
Disallow: /ebooks?*pg=*
Disallow: /ebooks?*jscmd=*
Disallow: /ebooks?*buy=*
Disallow: /ebooks?*zoom=*
Allow: /ebooks?*q=related:*
Allow: /ebooks?*q=editions:*
Allow: /ebooks?*q=subject:*
Allow: /ebooks?*zoom=1*
Allow: /ebooks?*zoom=5*
Disallow: /patents?
Disallow: /patents/download/
Disallow: /patents/pdf/
Disallow: /patents/related/
Disallow: /scholar
Disallow: /citations?
Allow: /citations?user=
Disallow: /citations?*cstart=
Allow: /citations?view_op=new_profile
Allow: /citations?view_op=top_venues
Allow: /scholar_share
Disallow: /s?
Allow: /maps?*output=classic*
Allow: /maps?*file=
Allow: /maps/d/
Disallow: /maps?
Disallow: /mapstt?
Disallow: /mapslt?
Disallow: /maps/stk/
Disallow: /maps/br?
Disallow: /mapabcpoi?
Disallow: /maphp?
Disallow: /mapprint?
Disallow: /maps/api/js/
Allow: /maps/api/js
Disallow: /maps/api/place/js/
Disallow: /maps/api/staticmap
Disallow: /maps/api/streetview
Disallow: /maps/_/sw/manifest.json
Disallow: /mld?
Disallow: /staticmap?
Disallow: /maps/preview
Disallow: /maps/place
Disallow: /maps/timeline/
Disallow: /help/maps/streetview/partners/welcome/
Disallow: /help/maps/indoormaps/partners/
Disallow: /lochp?
Disallow: /center
Disallow: /ie?
Disallow: /blogsearch/
Disallow: /blogsearch_feeds
Disallow: /advanced_blog_search
Disallow: /uds/
Disallow: /chart?
Disallow: /transit?
Allow:    /calendar$
Allow:    /calendar/about/
Disallow: /calendar/
Disallow: /cl2/feeds/
Disallow: /cl2/ical/
Disallow: /coop/directory
Disallow: /coop/manage
Disallow: /trends?
Disallow: /trends/music?
Disallow: /trends/hottrends?
Disallow: /trends/viz?
Disallow: /trends/embed.js?
Disallow: /trends/fetchComponent?
Disallow: /trends/beta
Disallow: /trends/topics
Disallow: /musica
Disallow: /musicad
Disallow: /musicas
Disallow: /musicl
Disallow: /musics
Disallow: /musicsearch
Disallow: /musicsp
Disallow: /musiclp
Disallow: /urchin_test/
Disallow: /movies?
Disallow: /wapsearch?
Allow: /safebrowsing/diagnostic
Allow: /safebrowsing/report_badware/
Allow: /safebrowsing/report_error/
Allow: /safebrowsing/report_phish/
Disallow: /reviews/search?
Disallow: /orkut/albums
Disallow: /cbk
Disallow: /recharge/dashboard/car
Disallow: /recharge/dashboard/static/
Disallow: /profiles/me
Allow: /profiles
Disallow: /s2/profiles/me
Allow: /s2/profiles
Allow: /s2/oz
Allow: /s2/photos
Allow: /s2/search/social
Allow: /s2/static
Disallow: /s2
Disallow: /transconsole/portal/
Disallow: /gcc/
Disallow: /aclk
Disallow: /cse?
Disallow: /cse/home
Disallow: /cse/panel
Disallow: /cse/manage
Disallow: /tbproxy/
Disallow: /imesync/
Disallow: /shenghuo/search?
Disallow: /support/forum/search?
Disallow: /reviews/polls/
Disallow: /hosted/images/
Disallow: /ppob/?
Disallow: /ppob?
Disallow: /accounts/ClientLogin
Disallow: /accounts/ClientAuth
Disallow: /accounts/o8
Allow: /accounts/o8/id
Disallow: /topicsearch?q=
Disallow: /xfx7/
Disallow: /squared/api
Disallow: /squared/search
Disallow: /squared/table
Disallow: /qnasearch?
Disallow: /app/updates
Disallow: /sidewiki/entry/
Disallow: /quality_form?
Disallow: /labs/popgadget/search
Disallow: /buzz/post
Disallow: /compressiontest/
Disallow: /analytics/feeds/
Disallow: /analytics/partners/comments/
Disallow: /analytics/portal/
Disallow: /analytics/uploads/
Allow: /alerts/manage
Allow: /alerts/remove
Disallow: /alerts/
Allow: /alerts/$
Disallow: /ads/search?
Disallow: /ads/plan/action_plan?
Disallow: /ads/plan/api/
Disallow: /ads/hotels/partners
Disallow: /phone/compare/?
Disallow: /travel/clk
Disallow: /travel/hotelier/terms/
Disallow: /hotelfinder/rpc
Disallow: /hotels/rpc
Disallow: /commercesearch/services/
Disallow: /evaluation/
Disallow: /chrome/browser/mobile/tour
Disallow: /compare/*/apply*
Disallow: /forms/perks/
Disallow: /shopping/suppliers/search
Disallow: /ct/
Disallow: /edu/cs4hs/
Disallow: /trustedstores/s/
Disallow: /trustedstores/tm2
Disallow: /trustedstores/verify
Disallow: /adwords/proposal
Disallow: /shopping/product/
Disallow: /shopping/seller
Disallow: /shopping/ratings/account/metrics
Disallow: /shopping/reviewer
Disallow: /about/careers/applications/
Disallow: /landing/signout.html
Disallow: /webmasters/sitemaps/ping?
Disallow: /ping?
Disallow: /gallery/
Disallow: /landing/now/ontap/
Allow: /searchhistory/
Allow: /maps/reserve
Allow: /maps/reserve/partners
Disallow: /maps/reserve/api/
Disallow: /maps/reserve/search
Disallow: /maps/reserve/bookings
Disallow: /maps/reserve/settings
Disallow: /maps/reserve/manage
Disallow: /maps/reserve/payment
Disallow: /maps/reserve/receipt
Disallow: /maps/reserve/sellersignup
Disallow: /maps/reserve/payments
Disallow: /maps/reserve/feedback
Disallow: /maps/reserve/terms
Disallow: /maps/reserve/m/
Disallow: /maps/reserve/b/
Disallow: /maps/reserve/partner-dashboard
Disallow: /about/views/
Disallow: /intl/*/about/views/
Disallow: /local/dining/
Disallow: /local/place/products/
Disallow: /local/place/reviews/
Disallow: /local/place/rap/
Disallow: /local/tab/
Allow: /finance
Allow: /js/
Disallow: /nonprofits/account/

# AdsBot
User-agent: AdsBot-Google
Disallow: /maps/api/js/
Allow: /maps/api/js
Disallow: /maps/api/place/js/
Disallow: /maps/api/staticmap
Disallow: /maps/api/streetview

# Certain social media sites are whitelisted to allow crawlers to access page markup when links to google.com/imgres* are shared. To learn more, please contact images-robots-whitelist@google.com.
User-agent: Twitterbot
Allow: /imgres

User-agent: facebookexternalhit
Allow: /imgres

Sitemap: https://www.google.com/sitemap.xml

Moz robots.txt

Sitemap: https://moz.com/sitemaps-1-sitemap.xml
Sitemap: https://moz.com/blog-sitemap.xml


User-agent: *
Allow: /researchtools/ose/$
Allow: /researchtools/ose/dotbot$
Allow: /researchtools/ose/links$
Allow: /researchtools/ose/just-discovered$
Allow: /researchtools/ose/pages$
Allow: /researchtools/ose/domains$
Allow: /researchtools/ose/anchors$
Allow: /products/
Allow: /local/
Allow: /learn/
Allow: /researchtools/ose/
Allow: /researchtools/ose/dotbot$

Disallow: /products/content/
Disallow: /local/enterprise/confirm
Disallow: /researchtools/ose/
Disallow: /page-strength/*
Disallow: /thumbs/*
Disallow: /api/user?*
Disallow: /checkout/freetrial/*
Disallow: /local/search/
Disallow: /local/details/
Disallow: /messages/
Disallow: /content/audit/*
Disallow: /content/search/*
Disallow: /marketplace/
Disallow: /cpresources/
Disallow: /vendor/
Disallow: /community/q/questions/*/view_counts
Disallow: /admin-preview/*

Primi su Google: conclusione

Se siete arrivato a questo punto della lettura di questa guida, avrete capito che il file robots.txt può essere estremamente utile per essere primi su Google. Abbiamo visto diversi modi per crearlo, come scrivere correttamente le direttive e quali aspetti considerare per non rischiare di commettere errori.

In conclusione, abbiamo stilato una serie di dubbi più frequenti sull’argomento, ma se avete altre domande o osservazioni da fare, vi prego di farcele sapere con un commento.

andrea barbieri

Andrea Barbieri è consulente SEO, svilppattore di siti web e specialista in web marketing, fondatore di BTF Traduzioni SEO Sviluppo Web. Aiuta aziende e professionisti a ottenere visibilità online con siti ottimizzati, contenuti efficaci e strategie SEO mirate. Visita la mia pagina.