De lo que aprendí en los registros de mi servidor, Las direcciones IP que comienzan con 64.249 pertenecen a Google. Cuando realizo una búsqueda de host en mi computadora para Google, recibo 11 direcciones IP diferentes, todas comenzando con 74.125.226.

Luego voy aquí http://www.iplists.com/ y descubra «un montón de direcciones IP para Google.

Incluso hice una búsqueda de whois en un símbolo del sistema para Google y vi» Abortar búsqueda 50 registros encontrados ….. «junto con un montón de servidores con nombres inusuales como GOOGLE.COM.ANGRYPIRATES.COM y GOOGLE.COM.AFRICANBATS.ORG. Junto con diferentes direcciones IP que no había visto antes, como 91.218.229.20.

Lo que quiero hacer es incluir en la lista blanca las direcciones IP reales de Google. ¿Debo seguir adelante y hacer una lista blanca de cada dirección IP que encontré hasta ahora o hay otras precauciones que debo tomar antes de incluir una dirección de Google en la lista blanca?

No quiero depender de otras personas que busquen IP direcciones para mí, como la fuente http://www.iplists.com/ porque las direcciones IP pueden cambiar en cualquier momento y quiero actualizar mi lista blanca con frecuencia.

Comentarios

  • Lamentablemente, el bloqueo de IP ‘ s mediante una lista blanca recopilada de usted mismo o en cualquier lugar no tiene sentido. Los robots dañinos, los raspadores, etc., cambian con frecuencia las ‘ s. Compran y venden direcciones IP en bloques, como lo haría cualquier otra empresa de alojamiento. En lugar de desperdiciar su tiempo es mejor si usa una configuración que acelera a los usuarios por solicitar mucha información rápidamente, de la misma manera en que la mayoría de los sitios ocupados funcionan en estos días, de hecho, también es la misma que esta red que está usando ahora. También puede configurar una lista negra para r X horas si repiten la ofensa, con mucho el método más efectivo, sin importar el método más seguro.
  • @SimonHayter Yo hago lo mismo. Tengo una lista blanca y una lista negra. La lista negra está casi vacía. Entre los dos hay una lista gris en la que se observa a todos los usuarios y se determina que son humanos o bot. Si son un bot, reviso la lista blanca y si no están en la lista, obtienen contenido basura y se registra la naturaleza de su acceso. Cada usuario se compara con el archivo de registro inmediatamente. Cualquier cosa en el registro se elimina con el tiempo si no regresa o no comienza a comportarse. Esto ha funcionado bastante bien y planeo mejorar el sistema pronto.

Respuesta

De la documentos oficiales para verificar Googlebot / Google :

Tenga en cuenta que Google no recomienda utilizar un estático » lista blanca «.

Puede verificar si un rastreador web accede a su servidor realmente es Googlebot (u otro usuario-agente de Google) . Esto es útil si le preocupa que los spammers u otros alborotadores accedan a su sitio mientras afirman ser Googlebot. Google no publica una lista pública de direcciones IP para que los webmasters las incluyan en la lista blanca. . Esto se debe a que estos rangos de direcciones IP pueden cambiar, causando problemas a los webmasters que los han codificado, por lo que debe ejecutar una búsqueda de DNS como se describe a continuación.

Para verificar que Googlebot sea el autor de la llamada:

  1. Ejecute una búsqueda de DNS inversa en la dirección IP de acceso de sus registros, utilizando el comando de host.
  2. Verifique que el nombre de dominio está en googlebot.com o google.com.
  3. Ejecute una búsqueda de DNS hacia adelante en el nombre de dominio recuperado en el paso 1 usando el comando de host en el nombre de dominio recuperado. Verifique que sea la misma que la dirección IP de acceso original de sus registros.

(Énfasis en el mío)

Consulte los documentos de Google para ver un ejemplo trabajado:
https://support.google.com/webmasters/answer/80553?hl=en

Respuesta

Lo primero es lo primero.

Hay dos nombres de dominio de los que estamos hablando; Google.com y Googlebot.com. Hacer una búsqueda inversa para Google.com sería engañoso.

Aquí hay una respuesta que di hace bastante tiempo en la que realicé una auditoría de las direcciones IP de Google utilizadas para rastrear mi sitio durante 8 años. Esta no es la lista definitiva, pero podría ofrecer una vista histórica.

¿Qué usa Google 173.194.90.xxx IP ‘ s para? ¿Por qué no es un puntero de googlebot.com?

En esta lista, puede ver que el rango de direcciones IP 64.249 que ve es correcto.

Hice una auditoría para esta respuesta. Esta es mi lista blanca actual de googlebot (nombre del agente). Por favor, perdone los comodines. He actualizado mi código para comprender los rangos de manera más eficiente, pero no he actualizado la lista. Perdón.En este caso, solo uso una expresión regular simple para comparar la dirección IP con la lista con un mínimo de trucos para reemplazar el * con algo que entienda regex. Puedo comparar una dirección IP con la lista completa usando mi código para que sea lo suficientemente rápido.

64.233.160.* 64.233.161.* 64.233.162.* 64.233.163.* 64.233.164.* 64.233.165.* 64.233.166.* 64.233.167.* 64.233.168.* 64.233.169.* 64.233.170.* 64.233.171.* 64.233.172.* 64.233.173.* 64.233.174.* 64.233.175.* 64.233.176.* 64.233.177.* 64.233.178.* 64.233.179.* 64.233.180.* 64.233.181.* 64.233.182.* 64.233.183.* 64.233.184.* 64.233.185.* 64.233.186.* 64.233.187.* 64.233.188.* 64.233.189.* 64.233.190.* 64.233.191.* 66.249.64.* 66.249.65.* 66.249.66.* 66.249.67.* 66.249.68.* 66.249.69.* 66.249.70.* 66.249.71.* 66.249.72.* 66.249.73.* 66.249.74.* 66.249.75.* 66.249.76.* 66.249.77.* 66.249.78.* 66.249.79.* 66.249.80.* 66.249.82.* 66.249.83.* 66.249.84.* 66.249.85.* 66.249.86.* 66.249.87.* 66.249.88.* 66.249.89.* 66.249.90.* 66.249.91.* 66.249.92.* 66.249.93.* 66.249.94.* 66.249.95.* 74.125.* 173.194.* 

GOOGLE.COM.ANGRYPIRATES.COM y GOOGLE.COM .AFRICANBATS.ORG son lo que se conoce como truco de dominio o subdominio. Estos no pertenecen a Google en absoluto. Esto es algo que cualquiera puede hacer con cualquier nombre de dominio en cualquier momento. Sin entrar en los detalles de cómo se hace esto, puede encontrar información en la red. No quiero fomentar este comportamiento explicándolo aquí.

Comentarios

  • ¡Gracias! De cualquier forma que ‘ pueda proporcionar la lista actualizada, incluso si no tiene un formato de lista agradable (es decir, incluso si ‘ s en una expresión regular)? EDITAR: Y cualquier otro bots además de Google, también, si los tiene y ‘ no le importa compartirlos.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *