4.5. Volltexterkennung - OCR

Zur Durchführung einer Texterkennung kann der TaskManager mit diesem Plugin an Goobi angebunden werden. Mittels der gewählten Konfiguration läßt sich dabei festlegen, welche Datenformate aus der OCR Engine übernommen werden sollen, um diese z.B. an Goobi zurückzuliefern.

Aufruf des Plugins

Der TaskClient Aufruf für einen OCR-Job ist den Aufrufen für andere Jobtypen sehr ähnlich:

/usr/bin/java -jar /opt/digiverso/itm/bin/TaskClient.jar 
    -itm http://localhost:8080/itm/service 
    -s {tifpath} 
    -d {processpath} 
    -e -gid {processid} 
    -i {stepid} 
    -T {processtitle} 
    -f {process.Schrifttyp} 
    -n template.xml 
    -l ${metas.DocLanguage} 
    -st intranda-abbyy

Parameter

Die innerhalb dieses Aufrufs zu übergebenen Parameter haben folgende Bedeutungen:

Arbeitsweise des Plugins

Wenn ein neuer OCR Job im intranda TaskManager eingegangen ist, werden je nach Anzahl der zu erkennenden Bilder verschiedene Tickets erzeugt. Typische Ticketgrößen sind maximal 500 Images bei maximal 10 GB Speichergröße der Bilder. Jedes Ticket besteht aus einer Liste der Bilddateien sowie aus einer Angabe, welche OCR Ausgabeformate erzeugt werden sollen.

Die erzeugten Tickets werden einzeln abgearbeitet. Der intranda TaskManager lädt das Ticket und die dazugehörenden Bilder in den OCR Input Ordner. Dieser Ordner kann entweder ein lokaler Ordner, ein gemounteter Ordner oder ein WebDav Ordner sein. Die OCR Software überwacht diesen Ordner und fängt nach vollständiger Übertragung der Daten mit der Texterkennung an.

Der intranda TaskManager überwacht nun den Error-Ordner auf Fehler sowie den Control-Ordner der OCR Software auf Ergebnisberichte. Ist eine entsprechende Control-Datei eingegangen, werden im Output-Ordner alle zu diesem Ticket gehörenden Daten zusammengestellt und heruntergeladen. Sie werden im Unterordner ocr des jeweiligen Vorgangsordners in einzelne Unterordner anhand ihrer Datei-Endung gespeichert.

Last updated