PDFAccess PDF til tilgængeligt webindhold
← Blog
Guide

PDF til HTML: Sådan gør du dine dokumenter tilgængelige på nettet

PDF er det mest udbredte dokumentformat på nettet — men det er også et af de mest problematiske for tilgængelighed. I denne guide forklarer vi, hvorfor HTML er et langt bedre format for webindhold, og hvordan du nemt konverterer dine PDF-dokumenter til tilgængeligt HTML.

Hvorfor er PDF problematisk for tilgængelighed?

PDF (Portable Document Format) er designet til at bevare et dokumentets layout, uanset hvilken enhed det vises på. Det gør PDF’er velegnede til print og distribution — men det skaber en række tilgængeligheds-udfordringer på nettet.

En standard PDF har ingen semantisk struktur. Der er ingen forskel på, om et stykke tekst er en overskrift, et afsnit eller en billedtekst — det er blot positionerede tekstblokke. Skærmlæsere og andre hjælpemidler har svært ved at navigere i dokumentet på en meningsfuld måde, og brugerens mulighed for at tilpasse skriftstørrelse og kontrast er begrænset. Dertil kommer, at scannede PDF’er typisk slet ikke indeholder maskinlæsbar tekst og derfor fremstår som tomme dokumenter for skærmlæsere.

Hvad gør HTML anderledes?

HTML er bygget op om semantik. En overskrift på niveau 1 er tagget som <h1>, et afsnit som <p>, en liste som <ul> eller <ol>. Denne struktur giver skærmlæsere og hjælpemidler mulighed for at forstå og kommunikere dokumentets opbygning til brugeren — og giver brugeren mulighed for at navigere direkte til relevante afsnit.

HTML tilpasser sig desuden responsivt til skærmstørrelse og brugerindstillinger. Tekststørrelse, linjeafstand og farvekontrast kan justeres af brugeren via browser- eller systemindstillinger. Det er nøjagtigt de egenskaber, som WCAG 2.1 kræver af webindhold — og som gør HTML til det ideelle format for tilgængeligt webindhold.

Metoder til konvertering af PDF til HTML

Der findes flere tilgange til at konvertere PDF til HTML. Manuel omsætning — hvor en person manuelt skriver indholdet af en PDF om til HTML — er den mest nøjagtige metode, men er tidskrævende og dyr for store dokumentmængder. Serverbaserede konverteringstjenester sender dine filer til en ekstern server, da filer overføres til en ekstern server.

Browserbaserede løsninger som PDFAccess kombinerer automatisering med privatlivsbeskyttelse: Al behandling sker lokalt i din browser. Ingen data forlader din enhed.

Trin-for-trin: Fra PDF til HTML med PDFAccess

Konvertering med PDFAccess er enkel og kræver ingen teknisk viden. Gå til pdfaccess.net og træk din PDF-fil til upload-feltet — eller klik for at vælge den fra din computer. PDFAccess analyserer automatisk dokumentet og detekterer, om siderne er digitale (born-digital) eller scannede.

  • Digitale sider: Tekst og struktur udtrækkes direkte fra PDF’en og organiseres i semantisk HTML med korrekte overskriftsniveauer, afsnit og lister.
  • Scannede sider: OCR (Optical Character Recognition) bruges til at genkende og udtrække tekst fra billederne. Understøtter dansk og engelsk.
  • Hybride sider: Sider med en blanding af digital tekst og scannede elementer håndteres automatisk.
  • WCAG-validering: Output valideres automatisk mod 5 centrale WCAG 2.1 AA-kriterier, og eventuelle advarsler vises i brugerfladen.
  • Download: Vælg mellem struktureret HTML (.html) med semantiske tags eller ren tekst (.txt) til videre behandling.

WCAG-krav til det konverterede HTML

For at det konverterede HTML-indhold opfylder WCAG 2.1 AA, er der en række forhold du bør tjekke efter konverteringen. PDFAccess genererer automatisk semantisk korrekt HTML-struktur med overskriftsniveauer, afsnit og lister — men visse elementer afhænger af det originale dokuments kvalitet.

Billeder i PDF’en vil fremstå som billedelementer i outputtet. For at opfylde WCAG-krav 1.1.1 (Ikke-tekstligt indhold) skal hvert billede have en beskrivende alternativ tekst. Ligeledes bør du sikre, at tabeller har korrekte kolonneoverskrifter, og at dokumentets titel er beskrivende.

Tjekliste: Er dit HTML-indhold tilgængeligt?

Brug denne tjekliste til at verificere, at dit konverterede indhold er tilgængeligt efter WCAG 2.1 AA:

  • Alle billeder har beskrivende alt-tekst (WCAG 1.1.1)
  • Overskriftsniveauer er logisk hierarkisk strukturerede (WCAG 1.3.1)
  • Farvekontrast er mindst 4,5:1 for normal tekst (WCAG 1.4.3)
  • Tekst kan forstørres til 200% uden tab af indhold (WCAG 1.4.4)
  • Links har beskrivende linktekster — ikke “klik her” (WCAG 2.4.4)
  • Dokumentets sprog er angivet korrekt i HTML lang-attributten (WCAG 3.1.1)