Digitaler Dokumentenfluss: DjVu oder PDF

Früher oder später steht so gut wie jedes Unternehmen vor der Aufgabe, ein System für den digitalen Dokumentenfluss aufbauen zu müssen. Dabei stellt sich als eine der entscheidenden Fragen die Wahl des Dateiformats, in dem Dokumente übergeben, archiviert und an Geschäftspartner oder Tochterfirmen gesendet werden sollen. Heute wollen wir zwei mögliche Formate vergleichen: PDF und DjVu.

Ein paar Worte zu DjVu

Die Geschichte von DjVu begann 1996, als eine der Abteilungen des Unternehmens AT&T begann, ein neues Dateiformat zu entwickeln. Die zentrale Aufgabe war die Entwicklung einer Technologie, die sich optimal zum Archivieren und Übertragen von gescannten Dokumenten eignet, also auf digitalisierte Schriftdaten zugeschnitten ist. Zu dieser Zeit konnte aber kaum jemand vorausahnen, dass Unternehmen in Zukunft ihre Verträge und Unterlagen über das Internet versenden würden. Daher verstand man unter dem Begriff Dokumente gescannte Magazine, Zeitungen, Bücher und technische Dokumentation. 1998 erschienen die ersten Plug-ins zum Anzeigen von DjVu-Dateien in einem Browser.

1999 wurde eine neue Version des DjVu-Formats veröffentlicht. Dabei wurden verschiedene Funktionen integriert, wie z. B. das Zusammenfassen mehrerer Bilder in einer mehrseitigen Datei mit Blätterfunktion oder die Möglichkeit des Einfügens so genannter "Hotspots", die ähnlich wie ein Hyperlink funktionieren. Im Folgejahr erschien die dritte Version des DjVu-Formats. Etwa zur gleichen Zeit verkaufte AT&T die Technologie an die Firma LizardTech, von der diese in eigenen kommerziellen Produkten verwertet wurde. Zugleich blieb aber DjVu selbst ein freies Dateiformat, weswegen heute viele Freeware-Produkte für das Arbeiten mit DjVu existieren.

An sich stellt das DjVu-Format eine interessante Lösung mit verlustbehafteter Kompression von Bilddaten dar. Im Wesentlichen wird dabei ein Dokument in drei Ebenen unterteilt: Hintergrund, Vordergrund und Schwarzweißmaske. Jede dieser Ebenen wird unterschiedlich verarbeitet. Zusätzlich wird eine Reihe unterschiedlicher Technologien genutzt: Ein Algorithmus für die Trennung von Text und Hintergrund in gescannten Bildern, IW44 – ein Kompressionsalgorithmus auf Wavelet-Basis, JB2 – ein Algorithmus für die Kompression von Schwarzweißbildern, ZP – ein universeller Kompressionsalgorithmus, sowie ein weiterer Algorithmus für das Entpacken auf Anfrage. Dieses Konzept ermöglicht maximale Kompression bei geringstmöglicher Verzerrung. So hat z. B. eine eingescannte Buchseite im DjVu-Format eine Dateigröße von nur 10 – 25 kB.

Ein paar Worte zu PDF

Vom Kürzel PDF (Portable Document Format) hörte man zum ersten Mal im Jahre 1991, als die Firma Adobe Systems eine neue Technologie für die Darstellung sämtlicher druckbaren Inhalte in elektronischer Form ankündigte. Diese neue Technologie erwies sich als äußerst erfolgreich. Bereits im Folgejahr wurde das Format PDF bei der renommierten Fachmesse Comdex Fall mit einem Preis ausgezeichnet. In der Folge widmete sich Adobe Systems sehr intensiv der Weiterentwicklung ihrer Erfindung. 1994 erschien Version 1.1 des PDF-Formats, bei der externe Verweise, geräteunabhängige Farben, Artikelstrukturen, Kommentare und einige Sicherheitsmechanismen implementiert wurden. Die Folgeversion des Formats erschien 1996 und unterstützte die OPI 1.3 Spezifikation und den CMYK-Farbraum.

Die PDF-Version 1.3 wurde 1999 veröffentlicht. Von der Vorversion unterschied sie sich durch die Unterstützung von 2 Byte CID-Schriftarten, OPI 2.0 Spezifikationen und Möglichkeiten der Darstellung weicher Schatten und Farbverläufe. Die nächste Version erschien 2001. Darin wurden weitere wichtige Funktionen umgesetzt, wie etwa die Unterstützung von Transparenz, 128-Bit-Verschlüsselung und die Möglichkeit der Bestimmung der Druckqualität. Im Jahre 2006 erschien schlussendlich die derzeit aktuelle Version 1.7.

Das PDF-Format zeichnet sich vor allem durch seine Omnipräsenz aus. Heute werden viele Gebrauchsanleitungen, Zeitschriften, technische Unterlagen und andere Dokumente in diesem Format präsentiert. Zudem ist praktisch auf jedem Computer Software installiert, die sich zum Anzeigen von PDF-Dokumenten eignet.

Die Fomate DjVu und PDF: verschiedene Anwendungen

Betrachtet man die Formate DjVu und PDF im Kontext der Verwaltung eines Systems für den digitalen Dokumentenfluss, so sollten die Eigenheiten des jeweiligen Formats berücksichtigt werden. Diese stellen sich wie folgt dar: Der Hauptvorteil von DjVu ist die geringe Dateigröße. Besonders deutlich wird dieses Merkmal beim Arbeiten mit Dokumenten, die viele Bilder, Pläne und Formeln enthalten. Zusätzlich funktioniert DjVu dann besonders gut, wenn man nicht nur den Text selbst, sondern auch verschiedene andere Merkmale übertragen muss: Farben und Muster des Originals sowie bestehende kleine Defekte und Spuren von Objekten. Daher eignet sich DjVu insbesondere für das Archivieren von technischen Dokumenten, wie etwa Anweisungen und Gebrauchsanleitungen, und das Digitalisieren seltener oder historischer Dokumente. Heute findet man im Internet eine umfassende Bibliothek der verschiedensten Arten von Literatur, die in dieses Format konvertiert wurde.

Man muss jedoch betonen, dass es sich bei Dateien im DjVu-Format in den meisten Fällen um gescannte Dokumente handelt, die zugleich auf Papier oder einem anderen Medium existieren. Der Umstand, dass das Format ursprünglich für das Speichern von gescannten Dokumentenkopien entwickelt wurde, erschwert die Handhabung einigermaßen. Heute gibt es nämlich so gut wie keine Möglichkeiten und auch kaum Bedarf, DjVu-Dateien auf eine andere Weise zu erstellen.

Das Verwenden von DjVu bei Systemen für den digitalen Dokumentenfluss ist mit vielen Nachteilen verbunden. Zunächst mal erfolgt die Datenkompression verlustbehaftet, was bei Verträgen, Gesetzestexten und anderen juristischen Dokumenten unerwünscht ist. Zum Zweiten ist DjVu nicht besonders weit verbreitet und kann deshalb von Unternehmen nicht uneingeschränkt zum Austausch von Informationen mit Partnern und Kunden verwendet werde. Auf den wenigsten Firmencomputern und Privatrechnern ist Software zum Anzeigen dieser elektronischen Dokumente installiert. Zum Dritten sucht man bei diesem Format vergeblich nach Funktionen zum Schutz von vertraulichen Informationen.

PDF ist als Basis von Systemen für den digitalen Dokumentenfluss besser geeignet. Als wichtigstes Plus ist dieses Format weit verbreitet. Wie bereits zuvor erwähnt, verfügt so gut wie jeder Computer unabhängig vom Betriebssystem über Software, mit der man PDF-Dokumente nicht nur lesen, sondern auch über jeden Drucker ausdrucken kann, und zwar in exakt der selben Form, in der die Datei erstellt wurde. Kompatibilität wird daher nie zum Problem, was beim Verwalten eines Systems für den digitalen Dokumentenfluss von zentraler Bedeutung ist.

Der zweite Vorteil des PDF-Formats sind die eingebauten Funktionsmerkmale zum Schutz vor unbefugtem Zugriff auf Inhalte. Mit ihrer Hilfe lassen sich Dokumente sperren und das Anzeigen oder Verwenden der Inhalte durch Personen ohne Berechtigung kann ausgeschlossen werden. Als Schutzmechanismus kommen bewährte Verschlüsselungstechnologien zum Einsatz, die von Softwareentwicklern und IT-Experten vielfach getestet wurden.

Abschließend lautet der dritte Vorteil von PDF, dass es sich bei diesem Format um eine ISO-Norm handelt (standardisiert von der International Organization for Standardization). Bereits jetzt verfügt dieses Dateiformat bei der Archivierung von Dokumenten und dem zwischenbetrieblichen Austausch von Informationen in elektronischer Form über den Status einer Norm. Und das ist nur der Anfang, denn die Entwickler dieses Formats beabsichtigen die Übergabe der Spezifikationen an den öffentlichen Branchenverband AIIM (Association for Information and Image Management). In diesem Fall wird sich PDF bei Systemen für den digitalen Dokumentenfluss mit größter Wahrscheinlichkeit als internationaler Standard durchsetzen.

Welche Schlüsse können aus diesen Ausführungen gezogen werden? Es wird ersichtlich, dass DjVu und PDF nicht als konkurrierende Dateiformate zu sehen sind. Sie wurden speziell für das Lösen unterschiedlicher Aufgaben entwickelt und konkurrieren daher nicht, sondern ergänzen einander. PDF empfiehlt sich klarerweise als weltweiter Quasi-Standard bei Systemen für den digitalen Dokumentenfluss viel eher. Man muss zwar festhalten, dass in bestimmten Unternehmen bereits digitale Archive von technischen und sonstigen Dokumenten auf DjVu-Basis existieren, die mittels Einscannen von Papierdokumenten aufgebaut wurden. Dies ist jedoch keine relevante Grundlage für das Bevorzugen dieses speziellen Formats. Vielmehr empfiehlt sich der Aufbau eines modernen und funktionstüchtigen Systems für den digitalen Dokumentenfluss und ein anschließendes Konvertieren aller bestehenden DjVu-Dateien ins PDF-Format.

Wie man Dokumente von DjVu in PDF umwandelt

Für den Aufbau eines Systems für den digitalen Dokumentenfluss wird für das Arbeiten mit Dateien im gewählten Format Standardsoftware benötigt, wobei viele dieser Programme kostenlos sind. Es gibt jedoch eine Aufgabe, die solche Anwendungen nicht bewältigen können. Dabei handelt es sich um das Konvertieren von Dokumenten von DjVu in PDF. Dafür ist zusätzliche Software erforderlich, wie z. B. Universal Document Converter. Universal Document Converter ist ein Universalprodukt für das Konvertieren von Dokumenten in verschiedene Formate und eignet sich bestens für unsere Anwendung.

Das Grundprinzip der Funktionsweise von Universal Document Converter ist virtuelles Drucken. Während der Installation wird im Betriebssystem ein neuer Drucker eingerichtet, der anschließend aus jeder Anwendung benutzt werden kann. Nach dem Ausdrucken mit diesem Drucker erhält der Benutzer eine Kopie der Datei im gewünschten Format. In der Praxis erweist sich diese Arbeitsweise als sehr bequem. Zunächst mal erfolgt das Konvertieren sehr schnell und praktisch ohne jegliche Vorarbeiten. Zum Zweiten ist der Vorgang sehr simpel und erfordert daher keine Einschulung.

Beim Konvertieren einer Datei von DjVu in PDF mithilfe des Programms Universal Document Converter geht man wie folgt vor: Als Erstes muss der Benutzer die DjVu-Datei öffnen. Dies tut man am einfachsten mit dem Internet Explorer, bei dem zuvor das entsprechende Plug-in installiert wurde. Anschließend muss der Benutzer lediglich die Schaltfläche "Drucken" anklicken und Universal Document Converter als Drucker wählen.

Thomas Vass

Besitzer der Privaten Kapitalmarkt Crowdfunding Website

«Ich habe den Universal Document Converter seit den ersten Versionen als mein einziges Werkzeug für die Dokumentkonvertierung verwendet. Es funktioniert einwandfrei und ist sehr benutzerfreundlich. Ich empfehle das Produkt für alle Geschäftsanwendungen.»