OCR og scannede PDF'er: Sådan fungerer tekstgenkendelse i browseren

Hvad er en scannet PDF?

En scannet PDF opstår, når et fysisk dokument — f.eks. et brev, en kontrakt eller et arkivdokument — scannes ind med en scanner og gemmes som PDF-fil. Modsat en “born-digital” PDF, der er oprettet direkte i f.eks. Word eller InDesign, indeholder en scannet PDF ikke maskinlæsbar tekst — kun et billedlag.

Det betyder, at du ikke kan markere, søge i eller kopiere tekst fra dokumentet på sædvanlig vis. For hjælpemidler som skærmlæsere fremstår dokumentet som en tom side. Det er her OCR-teknologi kommer i spil.

Hvad er OCR?

OCR er en forkortelse for Optical Character Recognition — på dansk optisk tegngenkendelse. Teknologien analyserer et billede og forsøger at identificere de tegn og ord, der vises. Moderne OCR-systemer anvender maskinlæring og neurale netværk til at opnå høj nøjagtighed, selv ved varierende skrifttyper, skriftretninger og baggrunde.

OCR er ikke perfekt. Nøjagtigheden afhænger af scanningskvaliteten, skrifttypen, dokumentets alder og layoutets kompleksitet. Et klart og velbelyst scan af et moderne dokument med standardskrift kan opnå en nøjagtighed på over 99% — mens håndskrevne dokumenter, faksimiler eller lavopløselige scans kan give markant dårligere resultater.

Open source OCR direkte i browseren

PDFAccess anvender en open source OCR-motor, der kører direkte i din browser via WebAssembly. Ingen data sendes til en server — al behandling sker lokalt på din enhed.

Faktorer der påvirker OCR-nøjagtighed

Nøjagtigheden af OCR-resultater afhænger af en række faktorer, som det er nyttigt at kende til, hvis du arbejder med scannede dokumenter:

Scanningsopløsning: Mindst 300 DPI anbefales for god OCR. Lavere opløsning giver sværere genkendelsesbetingelser.
Kontrast og belysning: Jævn belysning uden skygger og god kontrast mellem tekst og baggrund giver bedst resultat.
Skrifttype: Standardskrifttyper som Times New Roman og Arial genkendes bedre end dekorative eller håndskrevne skrifttyper.
Dokumentets alder og tilstand: Ældre dokumenter med gulnede sider, blæk-bleed eller revner giver større udfordringer.
Sprogmodel: OCR-motoren skal bruge den korrekte sprogmodel for at opnå optimal nøjagtighed. PDFAccess understøtter dansk og engelsk.

Flersproget OCR og dansk dokumentbehandling

Dansk er et relativt komplekst sprog for OCR, særligt pga. de særlige bogstaver æ, ø og å. PDFAccess’ OCR-motor inkluderer en dedikeret dansk sprogmodel, der er trænet på store mængder dansk tekst og håndterer de særlige tegn korrekt.

PDFAccess downloader automatisk den nødvendige sprogmodel, første gang OCR-funktionen bruges. Modellen er ca. 10 MB og er nødvendig for at opnå korrekt genkendelse af dansk tekst. Ved efterfølgende brug er modellen cachelagret i browseren og behøver ikke hentes igen.

Praktiske tips til bedre OCR-resultater

Vil du forbedre kvaliteten af OCR-outputtet fra dine scannede dokumenter, er her de vigtigste råd:

Scan i mindst 300 DPI — helst 400-600 DPI til dokumenter med fin skrift.
Brug sort/hvid eller gråtone-scan frem for farve, medmindre dokumentet indeholder vigtige farveoplysninger.
Undgå at scanne med skæve vinkler — dokumentet bør ligge fladt og rette.
Rens glaspladen på scanneren jævnligt for støv og fingeraftryk.
Overvej at lave en genscanning af dokumenter med lave DPI, hvis OCR-resultatet er dårligt.