Tenho um PDF que é uma digitalização de algumas páginas de um livro. Quero poder pesquisar neste PDF por termos específicos. Eu sei que o OCR pode ser executado em arquivos no Google Drive. No entanto, não pareço ser capaz de iniciar isso manualmente, e o PDF que eu carrego não parece ter texto selecionável (não consigo nem pesquisar frases nele na barra de pesquisa do Google Drive). uma forma de “forçar o OCR”?

Comentários

  • Parece apenas ter convertido o texto real no PDF; não ' t OCR de qualquer coisa

Resposta

Agora que você carregou um PDF digitalizado (ou um arquivo de imagem), faça o seguinte:

  1. Navegue até a interface da web do GDrive.
  2. Clique com o botão direito do mouse no arquivo de imagem carregado.
  3. Invoque o Open with > Google Docs comando de menu.

Consulte a página de ajuda do Google Drive para detalhes e dicas. Por exemplo, o texto deve estar com o lado direito para cima e em uma fonte comum e legível; o arquivo deve ter 2 MB ou menos, e o texto deve ter pelo menos 10 pixels de altura.

Veja este tutorial Tuts + para mais detalhes problemas e dicas.

Outra dica: pesquisa na Web por GDrive OCR encontra esses artigos.

Resposta

Não tenho reputação suficiente para comentar, então adicionarei como uma resposta. Os PDFs que são digitalizados e não têm informações de texto incorporadas serão submetidos a OCR quando carregados. O Drive não adicionará os dados de texto ao arquivo, mas permitirá que o texto do arquivo seja pesquisado no Drive.

De Claro, abrir o PDF como um Documento Google mostrará o texto OCR, que pode ser editado e tornado “bonito”.

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *