Arbeitspakete

Ein OpenURL-​Link-​Re­solver bi­etet dem Be­nutzer meist mehrere ver­schiedene Links zu im ak­tuellen Kon­text rel­e­van­ten On­line-​Ser­vices an. Der URL hin­ter einem solchen Link wird je­doch erst dann „kon­stru­iert", wenn der Be­nutzer den Link anklickt, um ihm zu fol­gen. Zu jedem On­line-​Ser­vice, auf den der Link-​Re­solver ver­weisen können soll, gibt es de­shalb ein typ­is­cher­weise nur wenige Zeilen langes und möglichst schnelles Pro­grammstück, das diese Ar­beit erledigt: einen so­ge­nan­nten Link-​Kon­struk­tor. Er setzt die im jew­eils ak­tuellen Kon­text vor­liegen­den bib­li­ographis­chen Meta­dat­en in eine vorab vom Pro­gram­mier­er au­top­tisch er­mit­telte URL-​Sch­ablone ein.

So ein­fach das klingt, so hoch ist der in­tellek­tuelle und redak­tionelle Aufwand, der in die er­st­ma­lige En­twick­lung und die laufende Pflege von Link-​Kon­struk­toren gesteckt wer­den muss: Die zu im­ple­men­tierende URL-​Sch­ablone sieht für jeden in Frage kom­menden On­line-​Ser­vice bzw. bei jedem Ser­vicean­bi­eter ein wenig an­ders aus und erfährt mit der Zeit selb­stverständlich auch gewisse, in der Regel unangekündigte Änderun­gen. Die Qualität des gesamten Link-​Re­solvers hängt damit nicht zulet­zt entschei­dend von der Ak­tu­alität sein­er Link-​Kon­struk­toren ab.

Im Rah­men des DFG-​Pro­jek­ts „Gener­isch­er Link-​Re­solver" (GLR) soll de­shalb unter an­derem die herkömm­liche Vorge­hensweise bei der En­twick­lung und Pflege von Link-​Kon­struk­toren au­toma­tisiert wer­den. Dazu ist es notwendig,

1. hin­re­ichend viele po­ten­tielle Ziel-​URLs zu sam­meln.

Aus Sicht des GLR-​Pro­jek­ts sind das die URLs von In­haltsverze­ich­nis­sen, Ab­stracts und Voll­tex­ten (im Fol­gen­den abkürzend Voll­text-​URLs genan­nt) frei zugänglich­er On­line-​Zeitschriften. In der Elek­tro­n­is­chen Zeitschriften­bib­lio­thek (EZB) sind die Hom­page-​URLs viel­er solch­er Zeitschriften nachgewiesen. Ein am 12.​03.​2007 er­stell­ter EZB-​Ex­port um­fasste in­s­ge­samt 13.​452 entsprechende Titel­datensätze.

An­hand bes­timmter bib­li­ographis­ch­er Kri­te­rien wurde eine Auswahl von Zeitschriften getrof­fen, die für das Vorhaben beson­ders geeignet er­schienen. Ihre Home­page-​URLs stell­ten jew­eils den Ein­stiegspunkt für eine rekur­sive Ex­trak­tion sämtlich­er Sub-​URLs, d. h. aller Links auf Seit­en in­ner­halb der­sel­ben Do­main, dar. Dieser prinzip­iell pe­ri­odisch wieder­hol­bare Crawl­ing-​Schritt lieferte im er­sten An­lauf ca. 15,6 Mil­lio­nen URLs.

2. po­ten­tielle Ziel-​URLs von son­sti­gen gesam­melten URLs zu un­ter­schei­den.

Die gecrawl­ten URLs wur­den gemäß der vom W3C definierten URI Gener­ic Syn­tax in ihre Be­standteile zer­legt und nach di­versen Heuris­tiken bzgl. ihrer Struk­tur (rein nu­merische, rein al­pha­betis­che, echt al­phanu­merische Ze­ichen­fol­gen; An­zahl und Kom­bi­na­tion von Pa­ram­e­ter-​Wert-​Paaren) mod­el­liert.

Die so gewon­nen Daten wer­den nun mit­tels Da­ta-​Min­ing-​Ver­fahren weit­er analysiert und di­enen vor allem dem Train­ing eines neu­ronalen Net­zes, welch­es später von einem be­liebi­gen Sub-​URL entschei­den soll, ob es sich um einen Voll­text-​URL han­delt oder nicht.

3. in­ner­halb einer Menge von po­ten­tiellen Ziel-​URLs aus der­sel­ben Do­main maschinell ein syn­tak­tis­ches Muster erken­nen zu können.

4. zu­min­d­est weit­ge­hend maschinell auch die Se­man­tik hin­ter einer erkan­nten syn­tak­tis­chen Struk­tur zu entschlüsseln.

 

End­pro­duk­te des skizzierten Ablaufs sind au­toma­tisch pro­gram­mierte und (bei pe­ri­odis­ch­er Wieder­hol­ung) au­toma­tisch ak­tu­al­isierte Link- ​Kon­struk­toren, die en­twed­er über die OpenURL-​Schnittstelle des GLR von En­dan­wen­dern di­rekt oder über die SOAP-​Schnittstelle des GLR von po­ten­tiell be­liebi­gen lokalen Link-​Re­solvern nach­genutzt wer­den können.

Nach oben