4.5. Volltexterkennung - OCR

Zur Durchführung einer Texterkennung kann der TaskManager mit diesem Plugin an Goobi angebunden werden. Mittels der gewählten Konfiguration läßt sich dabei festlegen, welche Datenformate aus der OCR Engine übernommen werden sollen, um diese z.B. an Goobi zurückzuliefern.

Aufruf des Plugins

Der TaskClient Aufruf für einen OCR-Job ist den Aufrufen für andere Jobtypen sehr ähnlich:

/usr/bin/java -jar /opt/digiverso/itm/bin/TaskClient.jar
-itm http://localhost:8080/itm/service
-s {tifpath}
-d {processpath}
-e -gid {processid}
-i {stepid}
-T {processtitle}
-f {process.Schrifttyp}
-n template.xml
-l ${metas.DocLanguage}
-st intranda-abbyy

Parameter

Die innerhalb dieses Aufrufs zu übergebenen Parameter haben folgende Bedeutungen:

Parameter

Mögliche Goobi Variable

Bedeutung

-itm

http://localhost/itm/service

URL zur Schnittstelle des intranda TaskManagers

-e, --returnError

-

Wenn angegeben, beendet sich der TaskClient mit einem Fehlercode, um das automatische Fortschreiten im Workflow zu unterbinden

-p

0 – 10

Priorität zur Verarbeitung dieses Jobs

-gid

{processid}

ID des Goobi-Vorgangs

-i

{stepid}

Die ID des Arbeitsschrittes, der den Aufruf startet

-T, --title

{processtitle}

Der Vorgangstitel in Goobi, für den der Aufruf gestartet wird

-t, --jobtype

OCR

Der Typ des Jobs

-n, --templatename

template.xml

Name der zuvor erzeugten Konfigurationsdatei

-s, --source

{tifpath}

Pfad zum media Verzeichnis des Vorgangs

-d, --destination

{processpath}

Pfad zum Hauptverzeichnis des Vorgangs

-f, --fontType

bspw. {product.Schrifttyp} oder {process.Schrifttyp}

Schrifttyp, unterstützt werden Fraktur und Antiqua

-l, `--language

${metas.DocLanguage}

Sprache des zu erkennenden Textes

-st

intranda-abbyy

OCR-Server-Typ

Arbeitsweise des Plugins

Wenn ein neuer OCR Job im intranda TaskManager eingegangen ist, werden je nach Anzahl der zu erkennenden Bilder verschiedene Tickets erzeugt. Typische Ticketgrößen sind maximal 500 Images bei maximal 10 GB Speichergröße der Bilder. Jedes Ticket besteht aus einer Liste der Bilddateien sowie aus einer Angabe, welche OCR Ausgabeformate erzeugt werden sollen.

Die erzeugten Tickets werden einzeln abgearbeitet. Der intranda TaskManager lädt das Ticket und die dazugehörenden Bilder in den OCR Input Ordner. Dieser Ordner kann entweder ein lokaler Ordner, ein gemounteter Ordner oder ein WebDav Ordner sein. Die OCR Software überwacht diesen Ordner und fängt nach vollständiger Übertragung der Daten mit der Texterkennung an.

Der intranda TaskManager überwacht nun den Error-Ordner auf Fehler sowie den Control-Ordner der OCR Software auf Ergebnisberichte. Ist eine entsprechende Control-Datei eingegangen, werden im Output-Ordner alle zu diesem Ticket gehörenden Daten zusammengestellt und heruntergeladen. Sie werden im Unterordner ocr des jeweiligen Vorgangsordners in einzelne Unterordner anhand ihrer Datei-Endung gespeichert.