Arbeitspakete

Ein OpenURL-Link-Resolver bietet dem Benutzer meist mehrere verschiedene Links zu im aktuellen Kontext relevanten Online-Services an. Der URL hinter einem solchen Link wird jedoch erst dann „konstruiert", wenn der Benutzer den Link anklickt, um ihm zu folgen. Zu jedem Online-Service, auf den der Link-Resolver verweisen können soll, gibt es deshalb ein typischerweise nur wenige Zeilen langes und möglichst schnelles Programmstück, das diese Arbeit erledigt: einen sogenannten Link-Konstruktor. Er setzt die im jeweils aktuellen Kontext vorliegenden bibliographischen Metadaten in eine vorab vom Programmierer autoptisch ermittelte URL-Schablone ein.

So einfach das klingt, so hoch ist der intellektuelle und redaktionelle Aufwand, der in die erstmalige Entwicklung und die laufende Pflege von Link-Konstruktoren gesteckt werden muss: Die zu implementierende URL-Schablone sieht für jeden in Frage kommenden Online-Service bzw. bei jedem Serviceanbieter ein wenig anders aus und erfährt mit der Zeit selbstverständlich auch gewisse, in der Regel unangekündigte Änderungen. Die Qualität des gesamten Link-Resolvers hängt damit nicht zuletzt entscheidend von der Aktualität seiner Link-Konstruktoren ab.

Im Rahmen des DFG-Projekts „Generischer Link-Resolver" (GLR) soll deshalb unter anderem die herkömmliche Vorgehensweise bei der Entwicklung und Pflege von Link-Konstruktoren automatisiert werden. Dazu ist es notwendig,

1. hinreichend viele potentielle Ziel-URLs zu sammeln.

Aus Sicht des GLR-Projekts sind das die URLs von Inhaltsverzeichnissen, Abstracts und Volltexten (im Folgenden abkürzend Volltext-URLs genannt) frei zugänglicher Online-Zeitschriften. In der Elektronischen Zeitschriftenbibliothek (EZB) sind die Hompage-URLs vieler solcher Zeitschriften nachgewiesen. Ein am 12.03.2007 erstellter EZB-Export umfasste insgesamt 13.452 entsprechende Titeldatensätze.

Anhand bestimmter bibliographischer Kriterien wurde eine Auswahl von Zeitschriften getroffen, die für das Vorhaben besonders geeignet erschienen. Ihre Homepage-URLs stellten jeweils den Einstiegspunkt für eine rekursive Extraktion sämtlicher Sub-URLs, d. h. aller Links auf Seiten innerhalb derselben Domain, dar. Dieser prinzipiell periodisch wiederholbare Crawling-Schritt lieferte im ersten Anlauf ca. 15,6 Millionen URLs.

2. potentielle Ziel-URLs von sonstigen gesammelten URLs zu unterscheiden.

Die gecrawlten URLs wurden gemäß der vom W3C definierten URI Generic Syntax in ihre Bestandteile zerlegt und nach diversen Heuristiken bzgl. ihrer Struktur (rein numerische, rein alphabetische, echt alphanumerische Zeichenfolgen; Anzahl und Kombination von Parameter-Wert-Paaren) modelliert.

Die so gewonnen Daten werden nun mittels Data-Mining-Verfahren weiter analysiert und dienen vor allem dem Training eines neuronalen Netzes, welches später von einem beliebigen Sub-URL entscheiden soll, ob es sich um einen Volltext-URL handelt oder nicht.

3. innerhalb einer Menge von potentiellen Ziel-URLs aus derselben Domain maschinell ein syntaktisches Muster erkennen zu können.

4. zumindest weitgehend maschinell auch die Semantik hinter einer erkannten syntaktischen Struktur zu entschlüsseln.

Endprodukte des skizzierten Ablaufs sind automatisch programmierte und (bei periodischer Wiederholung) automatisch aktualisierte Link- Konstruktoren, die entweder über die OpenURL-Schnittstelle des GLR von Endanwendern direkt oder über die SOAP-Schnittstelle des GLR von potentiell beliebigen lokalen Link-Resolvern nachgenutzt werden können.

Nach oben

Arbeitspakete

1. hin­re­ichend viele po­ten­tielle Ziel-​URLs zu sam­meln.

2. po­ten­tielle Ziel-​URLs von son­sti­gen gesam­melten URLs zu un­ter­schei­den.

3. in­ner­halb einer Menge von po­ten­tiellen Ziel-​URLs aus der­sel­ben Do­main maschinell ein syn­tak­tis­ches Muster erken­nen zu können.

4. zu­min­d­est weit­ge­hend maschinell auch die Se­man­tik hin­ter einer erkan­nten syn­tak­tis­chen Struk­tur zu entschlüsseln.

Weiterführende Links

1. hinreichend viele potentielle Ziel-URLs zu sammeln.

2. potentielle Ziel-URLs von sonstigen gesammelten URLs zu unterscheiden.

3. innerhalb einer Menge von potentiellen Ziel-URLs aus derselben Domain maschinell ein syntaktisches Muster erkennen zu können.

4. zumindest weitgehend maschinell auch die Semantik hinter einer erkannten syntaktischen Struktur zu entschlüsseln.