Ik heb een pdf die een scan is van een paar paginas van een boek. Ik wil in deze pdf naar specifieke termen kunnen zoeken. Ik weet dat OCR kan worden uitgevoerd op bestanden in Google Drive. Ik kan dit echter niet handmatig starten en de pdf die ik upload, lijkt geen selecteerbare tekst te bevatten (ik kan er zelfs niet naar zoeken naar woordgroepen in de zoekbalk in Google Drive). Is er een manier om OCR te forceren?
Opmerkingen
- Het lijkt erop dat alleen de daadwerkelijke tekst in de PDF is geconverteerd; ' t OCR iets
Antwoord
Nu je een gescande pdf hebt geüpload (of een afbeeldingsbestand), doe dit:
- Blader naar de GDrive-webinterface.
- Klik met de rechtermuisknop op uw geüploade afbeeldingsbestand.
- Roep de
Open with > Google Docs
menuopdracht op.
Zie de relevante Google Drive-helppagina voor details en tips. De tekst moet bijvoorbeeld met de goede kant naar boven zijn en in een algemeen, leesbaar lettertype zijn, het bestand moet 2 MB of minder zijn en de tekst moet minimaal 10 pixels hoog zijn.
Zie deze Tuts + tutorial voor meer det ails en tips.
Nog een tip: zoeken op internet naar GDrive OCR
vindt deze artikelen.
Antwoord
Ik heb niet genoeg reputatie om commentaar te geven, dus ik zal het als antwoord toevoegen. Pdfs die gescand zijn en geen ingesloten tekstinformatie hebben, worden bij het uploaden herkend. Drive voegt de tekstgegevens niet toe aan het bestand, maar zorgt ervoor dat de bestandstekst kan worden doorzocht in Drive.
Van natuurlijk zal het openen van de pdf als een Google-document de OCR-tekst tonen die vervolgens kan worden bewerkt en “mooi” gemaakt.