4.7. Internet Archive Download

Ein effizientes Harvesting des Internet Archive wird in Goobi ebenfalls durch die Zusammenarbeit mit dem intranda TaskManager möglich. Hierzu müssen zwei Voraussetzungen zunächst erfüllt sein. Das WebDavCommunicator-Plugin muss in dem Plugin-Ordner des TaskManagers vorliegen. Standardmäßig handelt es sich hierbei um folgenden Pfad:

/opt/digiverso/itm/plugins/WebDavCommunicator-<version>.jar

Das Plugin selbst wird ebenfalls in den Plugin-Ordner kopiert. Standardmäßig handelt es sich hierbei um folgenden Pfad:

/opt/digiverso/itm/plugins/IADownloadPlugin-<version>.jar

Aufruf des Plugins

Der Aufruf des Internet-Archive-Harvestings wird innerhalb von Goobi in einem Workflowschritt folgendermaßen konfiguriert:

/usr/bin/java -jar /opt/digiverso/itm/bin/TaskClient.jar 
    -itm http:~/~/localhost/itm/service 
    -s http:~/~/archive.org/download/${meta.CatalogIDDigital} 
    -d {imagepath}/source/ 
    -n template 
    -e -i {stepid} 
    –T {processtitle} 
    -gid {processid} 
    -t IADOWNLOAD

Parameter

Die innerhalb dieses Aufrufs zu übergebenen Parameter haben folgende Bedeutungen:

Arbeitsweise des Plugins

Dem Plugin wird eine URL zu einem Band im Internet Archive übergeben. Von dort werden die folgenden Daten in das jeweils übergebene Zielverzeichnis heruntergeladen:

scandata.xml
marc.xml
abbyy.gz
jp2.zip

Schlägt ein Download fehl, wird zunächst die Priorität des Jobs heruntergesetzt und versucht den nächsten Job herunterzuladen. Diese fehlerhaften Versuche werden an Goobi gemeldet und dort im Vorgangslog als Warnung dargestellt.

Jeder Job hat zu Beginn seiner Laufzeit im TaskManager die Priorität 10. Je höher die Priorität, desto eher wird ein Job abgearbeitet. Ist die Priorität eines Jobs bei 0 angelangt, wird der Download noch erneute vier Mal neu versucht. Schlagen alle Versuche des Downloads fehl, wird der Job als fehlerhaft gewertet und mit einer Fehlermeldung an Goobi zurückgesendet.

Last updated