Van wat ik heb geleerd in mijn serverlogboeken, IP-adressen die beginnen met 64.249 zijn van Google. Wanneer ik een host-lookup op mijn computer doe voor Google, ontvang ik 11 verschillende IP-adressen die allemaal beginnen met 74.125.226.
Ik ga dan hier http://www.iplists.com/ en ontdek dat er “een heleboel meer IP-adressen voor Google zijn.
Ik heb zelfs een whois-zoekopdracht uitgevoerd in een opdrachtprompt voor Google en zie” Zoeken afbreken 50 records gevonden ….. “samen met een hele reeks servers met ongebruikelijke namen zoals GOOGLE.COM.ANGRYPIRATES.COM en GOOGLE.COM.AFRICANBATS.ORG. Samen met verschillende IP-adressen die ik nog niet eerder heb gezien, zoals 91.218.229.20.
Wat ik wil doen is echte Google IP-adressen op de witte lijst zetten. Moet ik gewoon doorgaan en elk IP-adres dat ik tot dusver heb gevonden op de witte lijst zetten of zijn er andere voorzorgsmaatregelen die ik moet nemen voordat ik een Google-adres op de witte lijst zet?
Ik wil niet vertrouwen op anderen die naar IP zoeken adressen voor mij, zoals de bron http://www.iplists.com/ omdat de IP-adressen op elk moment kunnen veranderen en ik mijn witte lijst regelmatig.
Reacties
- Helaas blokkeert IP ‘ s met behulp van een witte lijst verzameld uit uzelf of waar dan ook is zinloos. Schadelijke bots, scrapers enzovoort veranderen regelmatig IP ‘ s. Ze kopen en verkopen IP-adressen in blokken, zoals elk ander hostingbedrijf zou doen. In plaats van te verspillen u kunt beter een configuratie gebruiken die gebruikers beperkt om te snel te veel informatie op te vragen, op dezelfde manier als de meeste drukke sites tegenwoordig werken, in feite ook hetzelfde als dit netwerk dat u nu gebruikt. U kunt ook een zwarte lijst voor hen instellen r X uur als ze beledigend herhalen, verreweg de meest effectieve methode, laat staan de veiligste methode.
- @SimonHayter Ik doe hetzelfde. Ik heb een witte lijst en een zwarte lijst. De zwarte lijst is bijna leeg. Tussen de twee is een grijze lijst waar alle gebruikers in de gaten worden gehouden en vastbesloten zijn om mens of bot te zijn. Als ze een bot zijn, controleer ik de witte lijst en als ze niet op de lijst staan, krijgen ze ongewenste inhoud en wordt de aard van hun toegang vastgelegd. Elke gebruiker wordt onmiddellijk vergeleken met het logbestand. Alles in het logboek wordt na verloop van tijd gewist als ze niet terugkomen of zich gaan gedragen. Dit heeft redelijk goed gewerkt en ik ben van plan het systeem binnenkort te verbeteren.
Antwoord
Van de officiële documenten om Googlebot / Google te verifiëren :
Houd er rekening mee dat Google het gebruik van een statisch ” witte lijst “.
U kunt controleren of een webcrawler toegang heeft tot uw server is werkelijk Googlebot (of een andere Google-user-agent) . Dit is handig als u zich “zorgen maakt dat spammers of andere onruststokers uw site bezoeken terwijl ze beweren Googlebot te zijn. Google plaatst geen openbare lijst met IP-adressen die webmasters op de witte lijst kunnen zetten . Dit komt doordat deze IP-adresbereiken kunnen veranderen, wat problemen veroorzaakt voor webmasters die ze hard-gecodeerd hebben, dus je moet een DNS-lookup uitvoeren zoals hierna wordt beschreven.
Googlebot verifiëren als de beller:
- Voer een omgekeerde DNS-lookup uit op het IP-adres dat toegang heeft tot uw logboeken, met behulp van de hostopdracht.
- Controleer of de domeinnaam bevindt zich in googlebot.com of google.com.
- Voer een voorwaartse DNS-lookup uit op de domeinnaam die is opgehaald in stap 1 met behulp van de hostopdracht op de opgehaalde domeinnaam. Controleer of het hetzelfde is als het oorspronkelijke IP-adres dat toegang heeft tot uw logboeken.
(Mijn eigen nadruk)
Zie de Google-documenten voor een uitgewerkt voorbeeld:
https://support.google.com/webmasters/answer/80553?hl=en
Antwoord
Allereerst.
Er zijn twee domeinnamen waar we het over hebben; Google.com en Googlebot.com. Een reverse look-up uitvoeren voor Google.com zou misleidend zijn.
Hier is een antwoord dat ik een tijdje geleden heb gegeven, waar ik een audit heb uitgevoerd van de Google IP-adressen die worden gebruikt om mijn site te crawlen gedurende 8 jaar. Dit is niet de alles-in-één-lijst, maar zou een historisch beeld kunnen geven.
Wat gebruikt Google 173.194.90.xxx IP ‘ s voor? Waarom is het geen googlebot.com-aanwijzer?
In deze lijst kunt u zien dat het IP-adresbereik 64.249 dat u ziet correct is.
Ik heb snel audit voor dit antwoord. Dit is mijn huidige witte lijst voor googlebot (naam agent). Vergeef het jokerteken. Ik heb mijn code bijgewerkt om bereiken efficiënter te begrijpen, maar ik heb de lijst niet bijgewerkt. Sorry.In dit geval gebruik ik gewoon een eenvoudige reguliere expressie om het IP-adres met de lijst te vergelijken met een minimum aan bedrog om de * te vervangen door iets dat regex begrijpt. Ik kan een IP-adres met de hele lijst vergelijken met mijn code, dus het is nog steeds snel genoeg.
64.233.160.* 64.233.161.* 64.233.162.* 64.233.163.* 64.233.164.* 64.233.165.* 64.233.166.* 64.233.167.* 64.233.168.* 64.233.169.* 64.233.170.* 64.233.171.* 64.233.172.* 64.233.173.* 64.233.174.* 64.233.175.* 64.233.176.* 64.233.177.* 64.233.178.* 64.233.179.* 64.233.180.* 64.233.181.* 64.233.182.* 64.233.183.* 64.233.184.* 64.233.185.* 64.233.186.* 64.233.187.* 64.233.188.* 64.233.189.* 64.233.190.* 64.233.191.* 66.249.64.* 66.249.65.* 66.249.66.* 66.249.67.* 66.249.68.* 66.249.69.* 66.249.70.* 66.249.71.* 66.249.72.* 66.249.73.* 66.249.74.* 66.249.75.* 66.249.76.* 66.249.77.* 66.249.78.* 66.249.79.* 66.249.80.* 66.249.82.* 66.249.83.* 66.249.84.* 66.249.85.* 66.249.86.* 66.249.87.* 66.249.88.* 66.249.89.* 66.249.90.* 66.249.91.* 66.249.92.* 66.249.93.* 66.249.94.* 66.249.95.* 74.125.* 173.194.*
GOOGLE.COM.ANGRYPIRATES.COM en GOOGLE.COM .AFRICANBATS.ORG zijn wat bekend staat als een domein- of subdomein-hack. Deze zijn helemaal niet van Google. Dit is iets dat iedereen op elk moment met elke domeinnaam kan doen. Zonder in te gaan op de details van hoe dit wordt gedaan, kunt u informatie op internet vinden. Ik wil dit gedrag niet aanmoedigen door het hier uit te leggen.
Reacties
- Bedankt! Hoe dan ook, u ‘ zou in staat zijn om de bijgewerkte lijst te leveren, zelfs als deze niet in een mooi lijstformaat is (dwz zelfs als het ‘ s in een regex)? BEWERK: en ook alle andere bots naast Google, als je ze hebt en ‘ het niet erg vindt om ze te delen.