
Il motore di ricerca Google possiede una serie di comandi con i quali è possibile fare delle query (interrogazioni) di ricerca che possono portare a dei risultati molto più avanzati di quello che si potrebbe pensare. Alcuni di questi comandi vengono spesso usati dai Web Master per monitorare il proprio sito web, se usate impropriamente invece possono diventare uno strumento potente per fare hacking e sondare siti web o ricercare documenti riservati. Passiamo ad analizzarle, e rimarrete sorpresi di quanto possa essere invasivo il nostro caro Google, esso indicizza molte più informazioni sul nostro sito di quello che normalmente crediamo.
Le funzioni che andremo a scoprire possono essere combinate anche con gli operatori di ricerca Google, attenzione però che questi comandi servono sì come gli operatori per affinare le ricerche, ma volendo permettono anche di sondare ed ottenere informazioni su un sito web che vanno al di là di una semplice ricerca.
intitle : questo comando permette di ricercare le pagine web che contengono una determinata parola o frase nel proprio titolo;
index.of : questo comando richiede l'elenco delle directory di un sito web, il quale solitamente contiene la parola "index of" all'inizio della pagina.
Combinando questi due comandi potremmo scoprire molte cose interessanti, come ad es. la struttura gerarchica di un determinato sito web ed il server web su cui gira, ad es. con una query di questo tipo: intitle:index of "Microsoft IIS o Apache", possiamo sapere non solo l'elenco a directory del sito (ed accedere a file importanti) ma anche il software server web su cui gira, conseguenza di ciò è che potenzialmente qualche male intenzionato potrebbe sfruttare le falle sulla sicurezza di quella determinata versione di server Web per cercare di violare quel computer.
site : questo comando ci permette di esaminare il solo contenuto di un determinato sito web o dominio, ad es. scrivendo site:www.informaticando.net google, otteniamo tutte le pagine di informaticando.net che contengono la parola Google. Se invece proviamo a cercare site:.it software signifca che cercheremo la parola software solo nei domini .it restringendo così automaticamente la ricerca ai soli siti italiani, comodo no? Se proviamo però ad utilizzare il comando site con intitle vediamo come possiamo reperire informazioni delicate, ad es. possiamo scoprire quali siti web ad indirizzo commerciale girano su IIS 6.0 e sfruttando le vulnerabilità di quest'ultimo cercare di violare il sito stesso.
allinurl : serve per effettuare una ricerca delle keywords presenti nell'url del sito, può essere anche usato per individuare l'url di determinati tipi di file (anzichè parole) come ad es. col comando allinurl:admin.mdb ricerchiamo quei siti web che contengono il database access con nome admin (comunemente usato per conservare contatti e password), una volta trovato e possibile scaricarlo e visionarlo in tutta tranquillità, senza bisogno quindi di tentare di forzare alcun pc. Una nota su allinurl, questo non può essere usato in combinazione con gli altri operatori.
filetype : questo comando serve per specificare un tipo di file da ricercare, ad es. file word (.doc) o pdf, e si usa in questa maniera filetype:.doc "Curriculum Europeo", in questo modo riusciamo a trovare direttamente dei file word contenenti come titolo o al loro interno la parola "Curriculum Europeo", avendo così già bello è pronto il file word di un Curriculum Europeo di qualche altra persona a cui andare a sostituire semplicemente i nostri dati, anzichè scriverlo tutto da zero, comodo no? Tale comando risulta ancora più potente se usato in combinazione con site, se scriviamo ad es. la query site:www.miosito.com filetype:.doc "reserved", riusciamo a ricercare eventuali file word con contenuto potenzialmente riservato all'interno di uno specifico sito o dominio, il tutto senza sforzarsi di violare alcun sistema o di lasciare tracce del nostro passaggio agli amministratori di sistema, che forse nemmeno sanno di avere lasciato determinati file disponibili al mondo intero.
cache: i motori di ricerca come Google tengono traccia delle informazioni acquisite su un sito web in un'archivio di memoria chiamato cache, nella cache è possibile ritrovare le informazioni e l'aspetto di un sito web risalente sino all'ultimo precedente aggiornamento, in altre parole riusciamo a vedere le informazioni del sito nel suo recente passato. Con la possibilità quindi di reperire file ed informazioni che il sito web allo stato attuale ha già provveduto a sostiuire.
link: concludiamo con il comando link, il quale usato ad es. in questo modo link:www.informaticando.net ci restituisce la lista delle pagine dei siti web che possiedono un link verso il sito www.informaticando.net. Detto comando è particolarmente usato ed apprezzato dai Web Master, permette infatti di fare una prima analisi sulla link popularity dei propri siti web. Stranamente (mi sono sempre chiesto il perchè) nell'uso di questo comando, il motore di ricerca Yahoo è molto più preciso di Google, infatti esso restituisce una lista delle pagine con i link verso il nostro sito molto più aggiornata e precisa di quanto non faccia Google, provare per credere.
Durante la scansione di internet alla ricerca di nuovi siti web da indicizzare con i loro crawler (o bot o spider) i motori di ricerca seguono determinate regole, dette regole possono essere dettate allo spider che viene a farci visita, tramite il file robots.txt (da inserire nella root del nostro sito), quindi se vogliamo possiamo dire al motore di non indicizzare un determinato file o di non accedere a determinate pagine del nostro sito, resta comunque sottointeso che il file più protetto è quello che non esponete sul vostro sito web, infatti anche il file robots.txt viene spesso analizzato dagli hacker per reperire informazioni sui file che vogliamo proteggere. Per chi volesse saperne di più sulle regole del file robots.txt può visitare il sito www.robotstxt.org
Spesso queste query vengono usate per fare hacking tramite Google, e come tutti gli strumenti possono essere usate in modo negativo (hacking) o positivo (ricerche più potenti), sta a voi decidere da che parte stare, sicuramente però conoscerne il funzionamento può servire per evitare degli attacchi o porvi rimedio.