Pelo que aprendi em meus registros de servidor, Os endereços IP começando com 64.249 pertencem ao google. Quando faço uma pesquisa de host no meu computador para o google, recebo 11 endereços IP diferentes, todos começando com 74.125.226.

Então, vou aqui http://www.iplists.com/ e descubra “vários outros endereços IP do google.

Até fiz uma pesquisa whois em um prompt de comando do google e vi” Abortando pesquisa 50 registros encontrados ….. “junto com um monte de servidores com nomes incomuns, como GOOGLE.COM.ANGRYPIRATES.COM e GOOGLE.COM.AFRICANBATS.ORG. Junto com diferentes endereços IP que eu não tinha visto antes, como 91.218.229.20.

O que eu quero fazer é colocar na lista de permissões endereços IP reais do Google. Devo apenas prosseguir e colocar na lista branca todos os endereços IP que encontrei até agora ou há outras precauções que devo tomar antes de colocar na lista branca um endereço do Google?

Não quero depender de outras pessoas que pesquisam por IP endereços para mim, como a fonte http://www.iplists.com/ porque os endereços IP podem mudar a qualquer momento e eu quero atualizar meu lista branca com frequência.

Comentários

  • Infelizmente, bloqueando IP ‘ s usando uma lista branca coletada em você mesmo ou em qualquer lugar é inútil. Bots prejudiciais, scrapers e assim por diante, frequentemente alteram IP ‘ s. Eles compram e vendem endereços IP em blocos, como qualquer outra empresa de hospedagem faria. Em vez de desperdiçar seu tempo é melhor em usar uma configuração que limita os usuários por solicitarem muitas informações rapidamente, da mesma forma que a maioria dos sites ocupados hoje em dia, na verdade também a mesma que esta rede que você usa agora. Você também pode configurar uma lista negra para eles r X horas se repetirem ofende, de longe o método mais eficaz, muito menos o método mais seguro.
  • @SimonHayter Eu faço a mesma coisa. Eu tenho uma lista branca e uma lista negra. A lista negra está quase vazia. Entre os dois está uma lista cinza onde todos os usuários são observados e determinados como humanos ou bot. Se eles forem bots, eu verifico a lista branca e, se eles não estiverem na lista, eles obtêm conteúdo de lixo e a natureza de seu acesso registrado. Cada usuário é comparado ao arquivo de log imediatamente. Qualquer coisa no log é eliminada com o tempo se não voltar ou começar a se comportar. Isso funcionou muito bem e pretendo melhorar o sistema em breve.

Resposta

Do documentos oficiais para verificar o Googlebot / Google :

Observe que o Google não recomenda o uso de estático ” whitelist “.

Você pode verificar se um rastreador da web está acessando seu servidor realmente é Googlebot (ou outro user agent do Google) . Isso é útil se você estiver preocupado que spammers ou outros criadores de problemas acessem seu site enquanto afirmam ser o Googlebot. O Google não publica uma lista pública de endereços IP para webmasters na lista de permissões . Isso ocorre porque esses intervalos de endereços IP podem mudar, causando problemas para quaisquer webmasters que os tenham codificado, então você deve executar uma pesquisa DNS conforme descrito a seguir.

Para verificar o Googlebot como o autor da chamada:

  1. Execute uma pesquisa DNS reversa no endereço IP de acesso de seus registros, usando o comando host.
  2. Verifique se o nome de domínio está em googlebot.com ou google.com.
  3. Execute uma busca DNS direta no nome de domínio recuperado na etapa 1 usando o comando host no nome de domínio recuperado. Verifique se ele é o mesmo que o endereço IP de acesso original dos seus registros.

(Ênfase minha)

Veja os documentos do Google para obter um exemplo prático:
https://support.google.com/webmasters/answer/80553?hl=en

Resposta

Comecemos pelo princípio.

Existem dois nomes de domínio dos quais estamos falando; Google.com e Googlebot.com. Fazer uma pesquisa reversa para o Google.com seria enganoso.

Aqui está uma resposta que dei há algum tempo, quando fiz uma auditoria dos endereços IP do Google usados para rastrear meu site por mais de 8 anos. Esta não é a lista completa, mas pode fornecer uma visão histórica.

O que o Google usa 173.194.90.xxx IP ‘ s para? Por que não é um ponteiro do googlebot.com?

Nesta lista, você pode ver que o intervalo de endereços IP de 64,249 está correto.

Fiz uma rápida auditoria para esta resposta. Esta é minha lista de desbloqueio atual do googlebot (nome do agente). Por favor, perdoe o curinga. Eu atualizei meu código para entender os intervalos com mais eficiência, mas não atualizei a lista. Desculpe.Nesse caso, eu apenas uso uma expressão regular simples para comparar o endereço IP à lista com um mínimo de truques para substituir o * por algo que o regex entende. Posso comparar um endereço IP com a lista inteira usando meu código, então ainda é rápido o suficiente.

64.233.160.* 64.233.161.* 64.233.162.* 64.233.163.* 64.233.164.* 64.233.165.* 64.233.166.* 64.233.167.* 64.233.168.* 64.233.169.* 64.233.170.* 64.233.171.* 64.233.172.* 64.233.173.* 64.233.174.* 64.233.175.* 64.233.176.* 64.233.177.* 64.233.178.* 64.233.179.* 64.233.180.* 64.233.181.* 64.233.182.* 64.233.183.* 64.233.184.* 64.233.185.* 64.233.186.* 64.233.187.* 64.233.188.* 64.233.189.* 64.233.190.* 64.233.191.* 66.249.64.* 66.249.65.* 66.249.66.* 66.249.67.* 66.249.68.* 66.249.69.* 66.249.70.* 66.249.71.* 66.249.72.* 66.249.73.* 66.249.74.* 66.249.75.* 66.249.76.* 66.249.77.* 66.249.78.* 66.249.79.* 66.249.80.* 66.249.82.* 66.249.83.* 66.249.84.* 66.249.85.* 66.249.86.* 66.249.87.* 66.249.88.* 66.249.89.* 66.249.90.* 66.249.91.* 66.249.92.* 66.249.93.* 66.249.94.* 66.249.95.* 74.125.* 173.194.* 

GOOGLE.COM.ANGRYPIRATES.COM e GOOGLE.COM .AFRICANBATS.ORG são conhecidos como hack de domínio ou subdomínio. Eles não pertencem ao Google de forma alguma. Isso é algo que qualquer pessoa pode fazer com qualquer nome de domínio a qualquer momento. Sem entrar em detalhes de como isso é feito, você pode encontrar informações na rede. Não quero encorajar esse comportamento explicando-o aqui.

Comentários

  • Obrigado! De qualquer maneira, você ‘ d seria capaz de fornecer a lista atualizada, mesmo que não em um formato de lista agradável (ou seja, mesmo que ‘ s em um regex)? EDITAR: E quaisquer outros bots além do Google também, se você os tiver e não ‘ não se importar em compartilhá-los.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *