Methodik · Wie die Konvertierungs-Engines arbeiten

Diese Seite erklärt ehrlich, wie die sieben Tools auf pdfkonvertieren.de arbeiten. Alle Konvertierungen laufen komplett lokal im Browser, ohne Server-Upload, ohne KI-API, ohne Tracking der Datei-Inhalte.

PDF zusammenfügen mit pdf-lib

Die PDFDocument-Klasse von pdf-lib (MIT-Lizenz, Andrew Dillon et al) erlaubt es, mehrere PDF-Dokumente zu laden und ihre Seiten in ein neues Dokument zu kopieren. Der Flow ist: jede Datei als ArrayBuffer einlesen, über PDFDocument.load() parsen, mit copyPages() alle Seiten in das Ziel-Dokument übernehmen, und am Ende per save() als Uint8Array serialisieren. Verschlüsselte PDFs werden mit ignoreEncryption: true geladen, was bei den meisten Standard-Passwörtern ausreicht.

PDF zu JPG/PNG mit pdfjs-dist

pdfjs-dist (Apache 2.0, Mozilla) ist die JavaScript-Portierung von Mozillas Firefox-PDF-Renderer. Wir laden die Library dynamisch (um SSR-Probleme zu vermeiden), setzen den Worker-URL über Vite-Asset-Import, parsen das PDF, und rendern jede Seite auf ein HTML5-Canvas. Der Skalierungs-Faktor (1x bis 4x) bestimmt die Render-Auflösung, etwa 72 DPI bis 288 DPI (Druckqualität). Bei JPG füllen wir den Canvas zuerst weiss, weil JPG keine Transparenz unterstützt. Dann wird das Canvas- Ergebnis über canvas.toBlob() als JPG (mit Quality 0.7 bis 1.0) oder PNG-Bild exportiert.

PDF zu TXT mit pdfjs-dist getTextContent

Für die Text-Extraktion verwenden wir page.getTextContent() aus pdfjs-dist. Die zurückgegebenen TextContent.items enthalten pro Wort oder Wort-Block ein str-Feld plus eine transform-Matrix mit der Y-Position auf der Seite. Wir lesen die Items in Reihenfolge, vergleichen die Y-Koordinate mit der vorherigen, und fügen einen Zeilenumbruch ein wenn der Sprung größer als 5 Einheiten ist. So entsteht aus den positionierten Text-Blöcken wieder ein zusammenhängender Text mit Absatz-Struktur.

Bild zu PDF mit jsPDF

Die jsPDF-Library (MIT-Lizenz, James Hall) erzeugt PDFs direkt im Browser. Wir laden jedes Bild als FileReader-DataURL, lesen die nativen Dimensionen über ein verstecktes Image-Element, und betten es über pdf.addImage() mit MEDIUM-Komprimierung ein. Die Seitengröße wird je nach Auswahl (A4, A3, US Letter, oder passend zum Bild) berechnet, die Ausrichtung entweder fest (portrait/landscape) oder automatisch nach Bild-Aspect-Ratio. Bei mehreren Bildern ruft pdf.addPage() jede weitere Seite an, mit konsistentem Rand zwischen 0 und 25 mm.

Datenschutz und Privatsphäre

Die gesamte Berechnung läuft im Browser über JavaScript. Hochgeladene PDFs oder Bilder werden nicht an unsere Server übertragen, nicht gespeichert und nicht an Dritte weitergegeben. Wer den Tab schließt, hinterlässt keine Spuren. Details im Datenschutz.

Was nicht im Tool ist

Bewusst noch nicht implementiert: PDF zu Word (DOCX) mit Layout- Erhaltung (geht client-only nur ohne Formatierung, in V2 als beta-Feature), Excel- Konvertierung (verlangt Tabellen-Erkennung), HTML- und EPUB-zu-PDF (kommen in V2), OCR für gescannte Dokumente (verlangt große Tesseract-Library). Wer diese Features braucht, ist bei den weiteren Tools auf pdf-zentrale.de richtig.

Korrektur-Policy

Wenn dir ein Bug auffällt, etwa falsch konvertierte Sonderzeichen bei Text-Extraktion, defekte PDFs bei Bild-zu-PDF, oder eine inhaltliche Unstimmigkeit in einem Ratgeber, schreib an info@akara-solutions.de. Bestätigte Korrekturen dokumentieren wir öffentlich auf Korrekturen.

Verantwortung

Für die Engines und ihre redaktionelle Pflege sind Mateusz Viola (Konvertierungs-Engines, Hub-Architektur), Jan-Tristan Rudat (PDF-Historie, Dokumenten-Standards) und Eike-Christian Ramcke (DSGVO, Urheberrecht, EU AI Act) zuständig. Inhaltlich Verantwortlicher gem. § 18 Abs. 2 MStV ist Eike-Christian Ramcke, Geschäftsführer der AKARA Solutions GmbH (vollständige Angaben im Impressum).

Quellen

Andrew Dillon et al: pdf-lib. MIT-Lizenz, github.com/Hopding/pdf-lib. Browser-PDF- Manipulation ohne Server-Component.
Mozilla: pdfjs-dist (pdf.js). Apache 2.0, github.com/mozilla/pdf.js. JavaScript- Portierung des Firefox-PDF-Renderers, veröffentlicht Juni 2011.
James Hall: jsPDF. MIT-Lizenz, github.com/parallax/jsPDF. PDF-Erzeugung im Browser.
ISO: ISO 32000-1:2008 - PDF 1.7 als offener Standard. Seit 2008 ist PDF kein Adobe-Format mehr.
ISO: ISO 19005-1:2005 (PDF/A-1). Archiv-tauglich, ohne JavaScript und externe Verweise.
Adobe Systems: The Camelot Project. Internes Paper von John Warnock, 1991. Vorläufer von PDF.

So funktionieren die Konvertierungs-Engines

Drei Libraries, ein Pattern