Aus dem, was ich in meinen Serverprotokollen gelernt habe, IP-Adressen ab 64.249 gehören zu Google. Wenn ich auf meinem Computer eine Host-Suche für Google durchführe, erhalte ich 11 verschiedene IP-Adressen, die alle mit 74.125.226 beginnen.
Ich gehe dann hier http://www.iplists.com/ und finde heraus, dass es eine Reihe weiterer IP-Adressen für Google gibt.
Ich habe sogar eine Whois-Suche in einer Eingabeaufforderung für Google durchgeführt und „Suche abbrechen“ angezeigt 50 Datensätze gefunden ….. „zusammen mit einer ganzen Reihe von Servern mit ungewöhnlichen Namen wie GOOGLE.COM.ANGRYPIRATES.COM und GOOGLE.COM.AFRICANBATS.ORG. Zusammen mit verschiedenen IP-Adressen, die ich vorher nicht gesehen habe, wie z 91.218.229.20.
Ich möchte echte Google IP-Adressen auf die Whitelist setzen. Sollte ich einfach jede einzelne IP-Adresse, die ich bisher gefunden habe, auf die weiße Liste setzen oder gibt es andere Vorsichtsmaßnahmen, die ich treffen sollte, bevor ich eine Google-Adresse auf die weiße Liste stelle? Adressen für mich wie die Quelle http://www.iplists.com/ , da sich die IP-Adressen jederzeit ändern können und ich meine aktualisieren möchte Häufig weiße Liste.
Kommentare
- Leider wird das Blockieren von IP ‚ mithilfe einer weißen Liste aus Sie selbst oder irgendwo ist sinnlos. Schädliche Bots, Scraper usw. ändern häufig die IP-Adresse ‚. Sie kaufen und verkaufen IP-Adressen in Blöcken, wie es jedes andere Hosting-Unternehmen tun würde Ihre Zeit ist es besser, ein Setup zu verwenden, das Benutzer drosselt, um zu viele Informationen zu schnell anzufordern, so wie die meisten geschäftigen Websites heutzutage funktionieren, und tatsächlich genauso wie dieses Netzwerk, das Sie jetzt verwenden. Sie können auch eine schwarze Liste für sie einrichten r X Stunden, wenn sie sich wiederholen, beleidigen, bei weitem die effektivste Methode, egal die sicherste Methode.
- @SimonHayter Ich mache das gleiche. Ich habe eine weiße Liste und eine schwarze Liste. Die schwarze Liste ist fast leer. Zwischen den beiden befindet sich eine graue Liste, in der alle Benutzer beobachtet und als Mensch oder Bot eingestuft werden. Wenn sie ein Bot sind, überprüfe ich die weiße Liste und wenn sie nicht auf der Liste sind, erhalten sie Junk-Inhalte und die Art ihres protokollierten Zugriffs. Jeder Benutzer wird sofort mit der Protokolldatei verglichen. Alles im Protokoll wird im Laufe der Zeit gelöscht, wenn es nicht zurückkommt oder sich zu verhalten beginnt. Dies hat ziemlich gut funktioniert und ich plane, das System bald zu verbessern.
Antwort
Aus dem offizielle Dokumente zur Überprüfung von Googlebot / Google :
Beachten Sie, dass Google die Verwendung einer statischen Whitelist „.
Sie können überprüfen, ob ein Webcrawler auf Ihren Server zugreift ist wirklich Googlebot (oder ein anderer Google-Benutzeragent) . Dies ist nützlich, wenn Sie befürchten, dass Spammer oder andere Unruhestifter auf Ihre Website zugreifen, während Sie behaupten, Googlebot zu sein. Google veröffentlicht keine öffentliche Liste von IP-Adressen für Webmaster in der Whitelist . Dies liegt daran, dass sich diese IP-Adressbereiche ändern können. verursacht Probleme für alle Webmaster, die sie fest codiert haben. Daher müssen Sie eine DNS-Suche wie im Folgenden beschrieben ausführen.
So überprüfen Sie Googlebot als Anrufer:
- Führen Sie mit dem Befehl host eine umgekehrte DNS-Suche für die IP-Adresse aus Ihren Protokollen durch.
- Überprüfen Sie den Domainnamen befindet sich entweder in googlebot.com oder google.com.
- Führen Sie eine Forward-DNS-Suche für den in Schritt 1 abgerufenen Domainnamen mit dem Host-Befehl für den abgerufenen Domainnamen aus. Stellen Sie sicher, dass es mit der ursprünglichen IP-Adresse aus Ihren Protokollen übereinstimmt.
(Hervorhebung meiner eigenen)
Ein Beispiel finden Sie in den Google-Dokumenten:
https://support.google.com/webmasters/answer/80553?hl=en
Antwort
Das Wichtigste zuerst.
Es gibt zwei Domainnamen, über die wir sprechen. Google.com und Googlebot.com. Eine umgekehrte Suche nach Google.com wäre irreführend.
Hier ist eine Antwort, die ich vor einiger Zeit gegeben habe, als ich die IP-Adressen von Google überprüft habe, mit denen meine Website über 8 Jahre gecrawlt wurde. Dies ist nicht die A und O-Liste, sondern kann eine historische Ansicht geben.
Was verwendet Google 173.194.90.xxx IP ‚ s für? Warum ist es kein googlebot.com-Zeiger?
In dieser Liste sehen Sie, dass der IP-Adressbereich 64.249, den Sie sehen, korrekt ist.
Ich habe einen kurzen Schritt gemacht Audit für diese Antwort. Dies ist meine aktuelle Whitelist für Googlebot (Agentenname). Bitte verzeihen Sie das Wildcarding. Ich habe meinen Code aktualisiert, um Bereiche effizienter zu verstehen, aber die Liste nicht aktualisiert. Es tut uns leid.In diesem Fall verwende ich nur einen einfachen regulären Ausdruck, um die IP-Adresse mit einem Minimum an Tricks mit der Liste zu vergleichen und das * durch etwas zu ersetzen, das Regex versteht. Ich kann eine IP-Adresse mit meinem Code mit der gesamten Liste vergleichen, damit sie immer noch schnell genug ist.
64.233.160.* 64.233.161.* 64.233.162.* 64.233.163.* 64.233.164.* 64.233.165.* 64.233.166.* 64.233.167.* 64.233.168.* 64.233.169.* 64.233.170.* 64.233.171.* 64.233.172.* 64.233.173.* 64.233.174.* 64.233.175.* 64.233.176.* 64.233.177.* 64.233.178.* 64.233.179.* 64.233.180.* 64.233.181.* 64.233.182.* 64.233.183.* 64.233.184.* 64.233.185.* 64.233.186.* 64.233.187.* 64.233.188.* 64.233.189.* 64.233.190.* 64.233.191.* 66.249.64.* 66.249.65.* 66.249.66.* 66.249.67.* 66.249.68.* 66.249.69.* 66.249.70.* 66.249.71.* 66.249.72.* 66.249.73.* 66.249.74.* 66.249.75.* 66.249.76.* 66.249.77.* 66.249.78.* 66.249.79.* 66.249.80.* 66.249.82.* 66.249.83.* 66.249.84.* 66.249.85.* 66.249.86.* 66.249.87.* 66.249.88.* 66.249.89.* 66.249.90.* 66.249.91.* 66.249.92.* 66.249.93.* 66.249.94.* 66.249.95.* 74.125.* 173.194.*
GOOGLE.COM.ANGRYPIRATES.COM und GOOGLE.COM .AFRICANBATS.ORG sind sogenannte Domain- oder Sub-Domain-Hacks. Diese gehören überhaupt nicht zu Google. Dies kann jeder jederzeit mit jedem Domainnamen tun. Ohne auf die Details einzugehen, finden Sie Informationen im Internet. Ich möchte dieses Verhalten nicht fördern, indem ich es hier erkläre.
Kommentare
- Danke! Auf jede Weise ‚ können Sie die aktualisierte Liste bereitstellen, auch wenn sie nicht in einem netten Listenformat vorliegt (dh auch wenn sie ‚ ist in einem regulären Ausdruck)? BEARBEITEN: Und alle anderen Bots außer Google auch, wenn Sie sie haben und ‚ nichts dagegen haben, sie zu teilen.