URI | https://www.bib-bvb.de/Provenienzkennzeichnungen/Uebersicht.html#yewno |
---|
Die freien Schlagworte wurden durch die Firma Yewno (www.yewno.com) geliefert. Sie basieren auf einem Verfahren zur Extraktion von sogenannten concepts, das sich Methoden des maschinellen Lernens bedient. Yewno hat auf Grundlage von über einhundert Millionen wissenschaftlicher Texte eine Künstliche Intelligenz (KI) trainiert, die über 5 Millionen concepts zur automatischen inhaltlichen Erschließung von Texten extrahiert hat und die Grundlage für den Yewno Knowledge Graph sind.
Die so trainierte KI von Yewno wird auf Graue Literatur aus Südosteuropa, die vom Dienstleister Central and Eastern European Online Library (CEEOL) gesammelt wird, angewendet und so zu einzelnen Titeln concepts extrahiert. Mit Hilfe dieser concepts soll die Graue Literatur inhaltlich granularer erschlossen werden und Nutzenden in Discovery Systemen als freie Schlagwörter zur Verfügung gestellt werden.
Hierfür werden die Dokumente, die in verschiedenen osteuropäischen Sprachen vorliegen, zunächst mit Hilfe von Google Translate ins Englische übersetzt. Zu jedem Dokument wird dann von Yewno mittels eines automatischen Verfahrens eine Liste von concepts erstellt. Jedes concept verfügt über einen Relevanzwert (Skala 0 bis 1) welcher angibt, wie hoch die Relevanz des Konzepts für den Gesamtinhalt des Dokuments ist. Ergänzt werden die so gewonnenen concepts noch um eine Klassifikation nach topics, die auf den concepts basiert. Diese Klassifikation wurde von Yewno entwickelt und ist proprietär. concepts und topics werden von Yewno in Form von CSV-Dateien geliefert und als freie Schlagworte in das Aleph-Feld 951 in den B3Kat importiert.
URI | https://www.bib-bvb.de/Provenienzkennzeichnungen/Uebersicht.html#gnomon |
---|
Durch maschinelle Spracherkennung wurden für etwa 425.000 Datensätze aus den Altdaten der Gnomon Bibliographischen Datenbank (https://www.gbd.digital/) Sprachcodes ermittelt. Eingesetzt wurden ein vortrainiertes Sprachmodell für fasttext (erstellt von facebook, https://fasttext.cc/docs/en/language-identification.html), Google's Compact Language Detector v3 (https://github.com/google/cld3), sowie die Bibliotheken langdetect (https://pypi.org/project/langdetect/) und Lingua (https://github.com/pemistahl/lingua-py), so dass anhand der Übereinstimmung in den Klassifizierungen ein zuverlässiger Konfidenzindikator gewonnen werden konnte. Die maschinell ermittelten Werte wurden in problematischen Datengruppen, vor allem bei sehr kurzen Titeln, zudem noch intellektuell nachkorrigiert. Bei Beiträgen in einsprachigen Lexika wurde zudem der Sprachcode des übergeordneten Werkes herangezogen.
URI | https://www.bib-bvb.de/Provenienzkennzeichnungen/Uebersicht.html#sdnb2form |
---|
Die Deutsche Nationalbibliothek vergibt für die Literaturgruppe Schulbücher die DNB-Sachgruppe S, für Kinder- und Jugendliteratur die Sachgruppe K sowie für Belletristische Medienwerke die Sachgruppe B. Für Titeldatensätze ohne Formangaben bzw. Zielgruppen werden aus diesen Majuskel-Codes automatisiert entsprechende Formangaben erzeugt.
Aus dem Code S wird die Formangabe Lehrmittel erzeugt, aus dem Code K werden die Zielgruppen Kind und Jugend in MAB 678 sowie die Formangabe Kinderbuch und die Formangabe Jugendbuch in MAB 064a erzeugt, aus dem Code B wird die Formangabe Fiktionale Darstellung erzeugt. Die Codes werden nach Erzeugung der Formangabe gelöscht.