4.7. Internet Archive Download

Ein effizientes Harvesting des Internet Archive wird in Goobi ebenfalls durch die Zusammenarbeit mit dem intranda TaskManager möglich. Hierzu müssen zwei Voraussetzungen zunächst erfüllt sein. Das WebDavCommunicator-Plugin muss in dem Plugin-Ordner des TaskManagers vorliegen. Standardmäßig handelt es sich hierbei um folgenden Pfad:

/opt/digiverso/itm/plugins/WebDavCommunicator-<version>.jar

Das Plugin selbst wird ebenfalls in den Plugin-Ordner kopiert. Standardmäßig handelt es sich hierbei um folgenden Pfad:

/opt/digiverso/itm/plugins/IADownloadPlugin-<version>.jar

Aufruf des Plugins

Der Aufruf des Internet-Archive-Harvestings wird innerhalb von Goobi in einem Workflowschritt folgendermaßen konfiguriert:

/usr/bin/java -jar /opt/digiverso/itm/bin/TaskClient.jar
-itm http:~/~/localhost/itm/service
-s http:~/~/archive.org/download/${meta.CatalogIDDigital}
-d {imagepath}/source/
-n template
-e -i {stepid}
–T {processtitle}
-gid {processid}
-t IADOWNLOAD

Parameter

Die innerhalb dieses Aufrufs zu übergebenen Parameter haben folgende Bedeutungen:

Parameter

Mögliche Goobi Variable

Bedeutung

-itm

http://localhost/itm/service

URL zur Schnittstelle des intranda TaskManagers

-e, --returnError

-

Wenn angegeben, beendet sich der TaskClient mit einem Fehlercode, um das automatische Fortschreiten im Workflow zu unterbinden

-p

0 – 10

Priorität zur Verarbeitung dieses Jobs

-gid

{processid}

ID des Goobi-Vorgangs

-i

{stepid}

Die ID des Arbeitsschrittes, der den Aufruf startet

-T, --title

{processtitle}

Der Vorgangstitel in Goobi, für den der Aufruf gestartet wird

-t, --jobtype

IADOWNLOAD

Der Typ des Jobs

-n, --templatename

template

Name der zuvor erzeugten Konfigurationsdatei

-s, --source

http://archive.org/download/${meta.CatalogIDDigital}

Pfad zur URL des Werkes im Internet Archive

-d, --destination

{processpath}

Pfad zum Hauptverzeichnis des Vorgangs

Arbeitsweise des Plugins

Dem Plugin wird eine URL zu einem Band im Internet Archive übergeben. Von dort werden die folgenden Daten in das jeweils übergebene Zielverzeichnis heruntergeladen:

scandata.xml
marc.xml
abbyy.gz
jp2.zip

Schlägt ein Download fehl, wird zunächst die Priorität des Jobs heruntergesetzt und versucht den nächsten Job herunterzuladen. Diese fehlerhaften Versuche werden an Goobi gemeldet und dort im Vorgangslog als Warnung dargestellt.

Jeder Job hat zu Beginn seiner Laufzeit im TaskManager die Priorität 10. Je höher die Priorität, desto eher wird ein Job abgearbeitet. Ist die Priorität eines Jobs bei 0 angelangt, wird der Download noch erneute vier Mal neu versucht. Schlagen alle Versuche des Downloads fehl, wird der Job als fehlerhaft gewertet und mit einer Fehlermeldung an Goobi zurückgesendet.