Da quello che ho appreso nei log del mio server, Gli indirizzi IP che iniziano con 64.249 appartengono a Google. Quando eseguo una ricerca host sul mio computer per Google, ricevo 11 diversi indirizzi IP che iniziano tutti con 74.125.226.

Quindi vado qui http://www.iplists.com/ e scoprilo “un mucchio di più indirizzi IP per google.

Ho persino eseguito una ricerca whois in un prompt dei comandi per google e ho visto” Interruzione della ricerca 50 record trovati ….. “insieme a un sacco di server con nomi insoliti come GOOGLE.COM.ANGRYPIRATES.COM e GOOGLE.COM.AFRICANBATS.ORG. Insieme a diversi indirizzi IP che non avevo mai visto prima, come 91.218.229.20.

Quello che voglio fare è inserire nella whitelist gli indirizzi IP reali di Google. Devo semplicemente andare avanti e inserire nella lista bianca ogni singolo indirizzo IP che ho trovato finora o ci sono altre precauzioni che dovrei prendere prima di inserire nella lista bianca un indirizzo Google?

Non voglio fare affidamento su altri che cercano IP indirizzi per me come lorigine http://www.iplists.com/ perché gli indirizzi IP possono cambiare in qualsiasi momento e desidero aggiornare il mio lista bianca frequentemente.

Commenti

  • Purtroppo, bloccando gli IP ‘ utilizzando una lista bianca raccolta da te stesso o ovunque è inutile. Bot dannosi, scraper e così via, cambiano spesso IP ‘. Acquistano e vendono indirizzi IP in blocchi, come farebbe qualsiasi altra società di hosting. Invece di sprecare il tuo tempo è meglio se usi una configurazione che limita gli utenti che richiedono molte informazioni velocemente, allo stesso modo in cui i siti più affollati funzionano in questi giorni, in effetti anche la stessa rete che usi ora. Puoi anche impostare una lista nera per loro r X ore se si ripetono offendendo, di gran lunga il metodo più efficace, non importa il metodo più sicuro.
  • @SimonHayter Faccio la stessa cosa. Ho una lista bianca e una lista nera. La lista nera è quasi vuota. Tra i due cè una lista grigia in cui tutti gli utenti sono osservati e determinati a essere umani o bot. Se sono un bot, controllo la lista bianca e se non sono nellelenco, ottengono contenuti spazzatura e la natura del loro accesso registrati. Ogni utente viene confrontato immediatamente con il file di registro. Qualsiasi cosa nel registro viene eliminata nel tempo se non si ripresenta o non inizia a comportarsi bene. Ha funzionato abbastanza bene e ho intenzione di migliorare presto il sistema.

Risposta

Dal documenti ufficiali per verificare Googlebot / Google :

Tieni presente che Google sconsiglia di utilizzare un statico ” whitelist “.

Puoi verificare se un web crawler accede al tuo server in realtà è Googlebot (o un altro user-agent di Google) . Ciò è utile se “temi che spammer o altri piantagrane stiano accedendo al tuo sito affermando di essere Googlebot. Google non pubblica un elenco pubblico di indirizzi IP che i webmaster possano inserire nella whitelist . Questo perché questi intervalli di indirizzi IP possono cambiare, causando problemi a tutti i webmaster che li hanno hard-coded, quindi devi eseguire una ricerca DNS come descritto di seguito.

Per verificare Googlebot come chiamante:

  1. Esegui una ricerca DNS inversa sullindirizzo IP di accesso dai tuoi log, utilizzando il comando host.
  2. Verifica che il nome di dominio si trova in googlebot.com o google.com.
  3. Esegui una ricerca DNS diretta sul nome di dominio recuperato al passaggio 1 utilizzando il comando host sul nome di dominio recuperato. Verifica che sia lo stesso dellindirizzo IP di accesso originale dai tuoi log.

(Enfasi mia)

Consulta i documenti di Google per un esempio funzionante:
https://support.google.com/webmasters/answer/80553?hl=en

Risposta

Per prima cosa.

Ci sono due nomi di dominio di cui stiamo parlando; Google.com e Googlebot.com. Fare una ricerca inversa per Google.com sarebbe fuorviante.

Ecco una risposta che ho dato qualche tempo fa in cui ho eseguito una verifica degli indirizzi IP di Google utilizzati per la scansione del mio sito per 8 anni. Questo non è lelenco completo, ma potrebbe fornire una visualizzazione storica.

Che cosa utilizza Google 173.194.90.xxx IP ‘ s per? Perché non è un puntatore a googlebot.com?

In questo elenco, puoi vedere che lintervallo di indirizzi IP 64.249 che stai vedendo è corretto.

Ho fatto un rapido verifica per questa risposta. Questa è la mia lista bianca attuale per googlebot (nome agente). Per favore perdona i caratteri jolly. Ho aggiornato il mio codice per comprendere gli intervalli in modo più efficiente, ma non ho aggiornato lelenco. Scusate.In questo caso, utilizzo solo una semplice espressione regolare per confrontare lindirizzo IP con lelenco con un minimo di trucco per sostituire * con qualcosa che regex capisce. Posso confrontare un indirizzo IP con lintero elenco utilizzando il mio codice in modo che sia ancora abbastanza veloce.

64.233.160.* 64.233.161.* 64.233.162.* 64.233.163.* 64.233.164.* 64.233.165.* 64.233.166.* 64.233.167.* 64.233.168.* 64.233.169.* 64.233.170.* 64.233.171.* 64.233.172.* 64.233.173.* 64.233.174.* 64.233.175.* 64.233.176.* 64.233.177.* 64.233.178.* 64.233.179.* 64.233.180.* 64.233.181.* 64.233.182.* 64.233.183.* 64.233.184.* 64.233.185.* 64.233.186.* 64.233.187.* 64.233.188.* 64.233.189.* 64.233.190.* 64.233.191.* 66.249.64.* 66.249.65.* 66.249.66.* 66.249.67.* 66.249.68.* 66.249.69.* 66.249.70.* 66.249.71.* 66.249.72.* 66.249.73.* 66.249.74.* 66.249.75.* 66.249.76.* 66.249.77.* 66.249.78.* 66.249.79.* 66.249.80.* 66.249.82.* 66.249.83.* 66.249.84.* 66.249.85.* 66.249.86.* 66.249.87.* 66.249.88.* 66.249.89.* 66.249.90.* 66.249.91.* 66.249.92.* 66.249.93.* 66.249.94.* 66.249.95.* 74.125.* 173.194.* 

GOOGLE.COM.ANGRYPIRATES.COM e GOOGLE.COM .AFRICANBATS.ORG sono ciò che è noto come hack di dominio o sottodominio. Questi non appartengono affatto a Google. Questo è qualcosa che chiunque può fare con qualsiasi nome di dominio in qualsiasi momento. Senza entrare nei dettagli di come si fa, è possibile trovare informazioni in rete. Non voglio incoraggiare questo comportamento spiegandolo qui.

Commenti

  • Grazie! In qualsiasi modo ‘ saresti in grado di fornire lelenco aggiornato, anche se non in un bel formato di elenco (cioè anche se ‘ s in una regex)? EDIT: E anche qualsiasi altro bot oltre a Google, se li hai e non ‘ dispiace condividerli.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *