Fra det, jeg lærte i mine serverlogfiler, IP-adresser, der starter med 64.249, hører til google. Når jeg foretager et værtsopslag på min computer til google, modtager jeg 11 forskellige IP-adresser, der alle starter med 74.125.226.

Så går jeg her http://www.iplists.com/ og find ud af der “en masse flere IP-adresser til google.

Jeg foretog endda en whois-opslag i en kommandoprompt til google og se” Afbryd søgning 50 optegnelser fundet ….. “sammen med en hel flok servere med usædvanlige navne som GOOGLE.COM.ANGRYPIRATES.COM og GOOGLE.COM.AFRICANBATS.ORG. Sammen med forskellige IP-adresser, jeg ikke har set før, såsom 91.218.229.20.

Hvad jeg vil gøre er at hvidliste ægte google IP-adresser. Skal jeg bare gå videre og hvidliste hver enkelt IP-adresse, jeg har fundet hidtil, eller er der andre forholdsregler, jeg skal tage, før jeg hvidlister en google-adresse?

Jeg vil ikke stole på andre, der søger efter IP adresser til mig såsom kilden http://www.iplists.com/ fordi IP-adresserne kan ændres når som helst, og jeg vil opdatere min hvidliste ofte.

Kommentarer

  • Desværre blokerer IP ‘ ved hjælp af en hvid liste indsamlet fra dig selv eller hvor som helst er meningsløst. Skadelige bots, skrabere osv. skifter ofte IP ‘ s. De køber og sælger IP-adresser i blokke, som ethvert andet hostingfirma ville. I stedet for at spilde din tid er bedre for dig at bruge en opsætning, der smider brugerne for at bede om meget information for hurtigt, på samme måde som de mest travle websteder fungerer i disse dage, faktisk også det samme som dette netværk, du bruger nu. Du kan også opsætte en sort liste over dem r X timer, hvis de gentager fornærmelse, langt den mest effektive metode, skal du ikke huske den sikreste metode.
  • @SimonHayter Jeg gør det samme. Jeg har en hvid liste og en sort liste. Den sorte liste er næsten tom. Mellem de to er en grå liste, hvor alle brugere overvåges og beslutter at være mennesker eller en bot. Hvis de er en bot, så tjekker jeg den hvide liste, og hvis de ikke er på listen, så får de uønsket indhold og arten af deres adgang logget. Hver bruger sammenlignes straks med logfilen. Alt i loggen renses over tid, hvis de ikke kommer tilbage eller begynder at opføre sig. Dette har fungeret ret godt, og jeg planlægger at forbedre systemet snart.

Svar

Fra officielle dokumenter til verificering af Googlebot / Google :

Bemærk, at Google ikke anbefaler at bruge en statisk ” hvidliste “.

Du kan kontrollere, om en webcrawler, der får adgang til din server er virkelig Googlebot (eller en anden Google-brugeragent) . Dette er nyttigt, hvis du er bekymret for, at spammere eller andre problemer med at få adgang til dit websted, mens de hævder at være Googlebot. Google sender ikke en offentlig liste over IP-adresser, som webmastere kan hvidliste . Dette skyldes, at disse IP-adresseområder kan ændres, , hvilket skaber problemer for webmastere, der har hårdkodet dem, så du skal køre et DNS-opslag som beskrevet næste.

Sådan verificeres Googlebot som den, der ringer op:

  1. Kør et omvendt DNS-opslag på den adgangs-IP-adresse fra dine logfiler ved hjælp af værtskommandoen.
  2. Bekræft, at domænenavnet er på enten googlebot.com eller google.com.
  3. Kør et fremad DNS-opslag på domænenavnet, der blev hentet i trin 1 ved hjælp af værtskommandoen på det hentede domænenavn. Kontroller, at den er den samme som den oprindelige adgangs-IP-adresse fra dine logfiler.

(Væg min egen vægt)

Se Google-dokumenterne for et udført eksempel:
https://support.google.com/webmasters/answer/80553?hl=en

Svar

Første ting først.

Der er to domænenavne, som vi taler om; Google.com og Googlebot.com. At foretage en omvendt opslag til Google.com ville være vildledende.

Her er et svar, jeg gav for et stykke tid siden, hvor jeg foretog en revision af de Google-IP-adresser, der blev brugt til at gennemgå mit websted over 8 år. Dette er ikke listen over alle, men alle kunne give en historisk oversigt.

Hvad bruger Google 173.194.90.xxx IP ‘ s til? Hvorfor er det ikke en googlebot.com-markør?

På denne liste kan du se IP-adresseområdet 64.249, du ser, er korrekt.

Jeg gjorde en hurtig revision for dette svar. Dette er min nuværende hvidliste til googlebot (agentnavn). Tilgiv jokertegn. Jeg har opdateret min kode for at forstå områder mere effektivt, men har ikke opdateret listen. Undskyld.I dette tilfælde bruger jeg bare et simpelt regulært udtryk til at sammenligne IP-adressen med listen med et minimum af trickery for at erstatte * med noget, som regex forstår. Jeg kan sammenligne en IP-adresse med hele listen ved hjælp af min kode, så den stadig er hurtig nok.

64.233.160.* 64.233.161.* 64.233.162.* 64.233.163.* 64.233.164.* 64.233.165.* 64.233.166.* 64.233.167.* 64.233.168.* 64.233.169.* 64.233.170.* 64.233.171.* 64.233.172.* 64.233.173.* 64.233.174.* 64.233.175.* 64.233.176.* 64.233.177.* 64.233.178.* 64.233.179.* 64.233.180.* 64.233.181.* 64.233.182.* 64.233.183.* 64.233.184.* 64.233.185.* 64.233.186.* 64.233.187.* 64.233.188.* 64.233.189.* 64.233.190.* 64.233.191.* 66.249.64.* 66.249.65.* 66.249.66.* 66.249.67.* 66.249.68.* 66.249.69.* 66.249.70.* 66.249.71.* 66.249.72.* 66.249.73.* 66.249.74.* 66.249.75.* 66.249.76.* 66.249.77.* 66.249.78.* 66.249.79.* 66.249.80.* 66.249.82.* 66.249.83.* 66.249.84.* 66.249.85.* 66.249.86.* 66.249.87.* 66.249.88.* 66.249.89.* 66.249.90.* 66.249.91.* 66.249.92.* 66.249.93.* 66.249.94.* 66.249.95.* 74.125.* 173.194.* 

GOOGLE.COM.ANGRYPIRATES.COM og GOOGLE.COM .AFRICANBATS.ORG er det, der er kendt som et domæne- eller underdomænehack. Disse hører slet ikke til Google. Dette er noget, som enhver kan gøre med ethvert domænenavn til enhver tid. Uden at komme ind i detaljerne om, hvordan dette gøres, kan du finde oplysninger på nettet. Jeg vil ikke opmuntre denne adfærd ved at forklare den her.

Kommentarer

  • Tak! På enhver måde kan du ‘ være i stand til at levere den opdaterede liste, selvom det ikke er i et godt listeformat (dvs. selvom det ‘ s i en regex)? REDIGER: Og alle andre bots udover Google også, hvis du har dem og ikke ‘ ikke har noget imod at dele dem.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *