Fra det jeg lærte i serverloggene mine, IP-adresser som begynner med 64.249 tilhører google. Når jeg gjør et vertsoppslag på min datamaskin for google, mottar jeg 11 forskjellige IP-adresser, alt fra 74.125.226.

Så går jeg hit http://www.iplists.com/ og finn ut der «er flere IP-adresser for google.

Jeg har til og med gjort en whois-oppslag i en ledetekst for google og se» Avbryter søk 50 poster funnet ….. «sammen med en hel haug med servere med uvanlige navn som GOOGLE.COM.ANGRYPIRATES.COM og GOOGLE.COM.AFRICANBATS.ORG. Sammen med forskjellige IP-adresser jeg ikke har sett før, som 91.218.229.20.

Det jeg vil gjøre er å godkjenne ekte google IP-adresser. Skal jeg bare gå videre og hvitliste hver eneste IP-adresse jeg har funnet hittil, eller er det andre forholdsregler jeg bør ta før hvitlisting av en google-adresse?

Jeg vil ikke stole på at andre søker etter IP adresser for meg, for eksempel kilden http://www.iplists.com/ fordi IP-adressene kan endres når som helst og jeg vil oppdatere hvitliste ofte.

Kommentarer

  • Dessverre blokkerer IP ‘ ved hjelp av en hvit liste samlet fra deg selv eller hvor som helst er meningsløst. Skadelige roboter, skraper og så videre, endrer ofte IP ‘ s. De kjøper og selger IP-adresser i blokker, som ethvert annet vertsfirma ville. Snarere enn å kaste bort din tid er bedre for deg å bruke et oppsett som stryker brukerne for å be om mye informasjon for raskt, på samme måte som de travleste nettstedene fungerer i disse dager, faktisk også det samme som dette nettverket du bruker nå. Du kan også sette opp en svarteliste for r X timer hvis de gjentar fornærmelser, uten tvil den mest effektive metoden, husk ikke den sikreste metoden.
  • @SimonHayter Jeg gjør det samme. Jeg har en hvit liste og en svart liste. Den svarte listen er nesten tom. Mellom de to er en grå liste der alle brukere blir sett på og bestemt på å være mennesker eller en bot. Hvis de er en bot, så sjekker jeg den hvite listen, og hvis de ikke er på listen, får de søppelinnhold og arten av tilgangen deres logget. Hver bruker sammenlignes umiddelbart med loggfilen. Alt i loggen blir renset over tid hvis de ikke kommer tilbake eller begynner å oppføre seg. Dette har fungert ganske bra, og jeg planlegger å gjøre systemet bedre snart.

Svar

Fra offisielle dokumenter for å verifisere Googlebot / Google :

Vær oppmerksom på at Google ikke anbefaler å bruke en statisk » hvitliste «.

Du kan bekrefte om en web-søkerobber som får tilgang til serveren din virkelig er Googlebot (eller en annen Google-brukeragent) . Dette er nyttig hvis du er bekymret for at spammere eller andre problematikere får tilgang til nettstedet ditt mens de hevder at de er Googlebot. Google legger ikke ut en offentlig liste over IP-adresser for webansvarlige til å godkjenne . Dette er fordi disse IP-adresseområdene kan endres, forårsaker problemer for webansvarlige som har hardkodet dem, så du må kjøre et DNS-oppslag som beskrevet neste.

Slik verifiserer du Googlebot som den som ringer:

  1. Kjør et omvendt DNS-oppslag på tilgangs-IP-adressen fra loggene dine ved hjelp av vertskommandoen.
  2. Bekreft at domenenavnet er på enten googlebot.com eller google.com.
  3. Kjør et fremover DNS-oppslag på domenenavnet som ble hentet i trinn 1 ved hjelp av vertskommandoen på det hentede domenenavnet. Bekreft at den er den samme som den opprinnelige tilgangs-IP-adressen fra loggene dine.

(Legg vekt på min egen)

Se Google-dokumentene for et utført eksempel:
https://support.google.com/webmasters/answer/80553?hl=en

Svar

Første ting først.

Det er to domenenavn vi snakker om; Google.com og Googlebot.com. Å gjøre et omvendt oppslag for Google.com vil være misvisende.

Her er et svar jeg ga for en god stund siden der jeg gjorde en revisjon av Google IP-adressene som ble brukt til å gjennomsøke nettstedet mitt i løpet av åtte år. Dette er ikke alt-i-alt-listen, men kan gi et historisk syn.

Hva bruker Google 173.194.90.xxx IP ‘ s for? Hvorfor er det ikke en googlebot.com-peker?

I denne listen kan du se IP-adresseområdet 64.249 du ser er riktig.

Jeg gjorde en rask revisjon for dette svaret. Dette er min nåværende hvitliste for googlebot (agentnavn). Tilgi jokertegnet. Jeg har oppdatert koden min for å forstå områdene mer effektivt, men har ikke oppdatert listen. Unnskyld.I dette tilfellet bruker jeg bare et enkelt regulært uttrykk for å sammenligne IP-adressen til listen med et minimum av lureri for å erstatte * med noe som regex forstår. Jeg kan sammenligne en IP-adresse med hele listen ved hjelp av koden min, så den er fortsatt rask nok.

64.233.160.* 64.233.161.* 64.233.162.* 64.233.163.* 64.233.164.* 64.233.165.* 64.233.166.* 64.233.167.* 64.233.168.* 64.233.169.* 64.233.170.* 64.233.171.* 64.233.172.* 64.233.173.* 64.233.174.* 64.233.175.* 64.233.176.* 64.233.177.* 64.233.178.* 64.233.179.* 64.233.180.* 64.233.181.* 64.233.182.* 64.233.183.* 64.233.184.* 64.233.185.* 64.233.186.* 64.233.187.* 64.233.188.* 64.233.189.* 64.233.190.* 64.233.191.* 66.249.64.* 66.249.65.* 66.249.66.* 66.249.67.* 66.249.68.* 66.249.69.* 66.249.70.* 66.249.71.* 66.249.72.* 66.249.73.* 66.249.74.* 66.249.75.* 66.249.76.* 66.249.77.* 66.249.78.* 66.249.79.* 66.249.80.* 66.249.82.* 66.249.83.* 66.249.84.* 66.249.85.* 66.249.86.* 66.249.87.* 66.249.88.* 66.249.89.* 66.249.90.* 66.249.91.* 66.249.92.* 66.249.93.* 66.249.94.* 66.249.95.* 74.125.* 173.194.* 

GOOGLE.COM.ANGRYPIRATES.COM og GOOGLE.COM .AFRICANBATS.ORG er det som er kjent som et domene- eller underdomenehack. Disse tilhører ikke Google i det hele tatt. Dette er noe alle kan gjøre med hvilket som helst domenenavn når som helst. Uten å komme inn i detaljene om hvordan dette gjøres, kan du finne informasjon på nettet. Jeg vil ikke oppmuntre til denne oppførselen ved å forklare den her.

Kommentarer

  • Takk! Uansett hvordan du ‘ kunne gi den oppdaterte listen, selv om den ikke er i et pent listeformat (dvs. selv om den ‘ s i en regex)? EDIT: Og andre roboter i tillegg til Google, hvis du har dem og ikke ‘ ikke har tenkt å dele dem.

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *