aureka Blog

Vorteile der Nutzung von KI für digitale Archive

Geschrieben von aureka | 08.10.2024 16:26:42

Kulturelle Institutionen auf der ganzen Welt erstellen riesige digitale Archive, um Geschichte und Kultur zu bewahren. Doch während die Menge an Daten wächst, wird es immer schwieriger, diese Archive der Öffentlichkeit zugänglich zu machen. Ohne eine gute Erschließung und leistungsfähige Suchfunktionen bleibt ein Großteil dieses wertvollen Inhalts verborgen. Hier kommt KI ins Spiel. Mit KI können Archive besser organisiert und leichter durchsuchbar gemacht werden, was den Menschen einen besseren Zugang zu den darin enthaltenen Informationen ermöglicht.

KI-gestützte Erschließung

Eine der zeitaufwändigsten Aufgaben für digitale Archive ist die Erstellung von Metadaten. Metadaten sind kompakte Informationen, die beschreiben, was jede Datei – ob Text, Audio, Video oder Bild – enthält. Sie ermöglichen das Durchsuchen dieser Archive. Traditionell erfordert die Erstellung von Metadaten eine Person mit spezialisierten Kenntnissen, die jedes Stück durchgeht und manuell Beschreibungen, Schlagworte und Kategorien hinzufügt. Doch heutzutage haben kulturelle Institutionen und Indexierer oft nicht genügend Zeit, um die riesigen Datenmengen in Archiven und Bibliotheken zu bearbeiten.

Laut der Society of Indexers ergänzen sich KI und menschliche Erschließung gut. Während KI die Hauptaufgabe der Identifizierung von Schlagworten und der Erstellung von Metadaten automatisieren kann, bleibt menschlicher Input entscheidend, um diese Daten zu verfeinern und ihre Qualität und Relevanz für die Nutzer sicherzustellen.

KI kann die Art und Weise, wie Metadaten erstellt werden, revolutionieren. Mit KI-gestützter Erschließung können Metadaten automatisch erstellt werden, was Zeit und Ressourcen spart. aurekas Erschließungssystem geht einen Schritt weiter, indem es Institutionen ermöglicht, große Mengen an Text zu verarbeiten und beschreibende Begriffe entweder aus standardisierten Vokabularen oder ohne Einschränkungen zuzuweisen.

Kurz gesagt, das aureka-System arbeitet in drei Schritten:

  1. Semantische Repräsentation: Zunächst erstellt es eine mathematische Repräsentation der semantischen Bedeutung sowohl der Begriffe des Vokabulars als auch der zu erschließenden Textfragmente. Dadurch kann das System die zugrunde liegende Bedeutung von Wörtern und Phrasen verstehen.
  2. Ähnlichkeitsprüfung der Begriffe: Anschließend identifiziert das System die Begriffe aus dem Vokabular, die am ehesten mit der semantischen Repräsentation der Textfragmente übereinstimmen. So findet es die relevantesten Schlagworte, selbst wenn die exakten Begriffe nicht im Text erscheinen.
  3. Kontextuelle Bewertung: Schließlich bewertet es die identifizierten Begriffe basierend auf ihrer Relevanz für das gesamte Dokument, eine bestimmte Sammlung oder sogar ein ganzes Archiv. Die am höchsten bewerteten Begriffe können als Dokumenten-Metadaten verwendet werden, während spezifischere, fragmentbasierte Begriffe für eine tiefere Erkundung verfügbar bleiben.

Während spezialisiertes Wissen immer noch notwendig ist, um festzulegen, welche Vokabulare verwendet werden und um die Metadaten zu verfeinern, übernimmt die KI den größten Teil der Arbeit. Experten können überwachen, was die KI tut, anstatt die gesamte Arbeit manuell zu erledigen.

Mit Hilfe der KI wird die digitale Erschließung skalierbarer, wodurch Ressourcen freigesetzt werden und gleichzeitig sichergestellt ist, dass kulturelle und historische Materialien gut kategorisiert und leicht auffindbar sind.

KI-gestützte Suche

Das Durchsuchen eines digitalen Archivs sollte einfach sein, aber bei so viel Inhalt kann es sich wie die sprichwörtliche Suche nach der Nadel im Heuhaufen anfühlen. Einige Nutzer möchten das Archiv durchstöbern und mit Hilfe von Metadaten Verbindungen zwischen verschiedenen Objekten herstellen. Andere kommen mit einer konkreten Frage und benötigen präzise Antworten.

KI-gestützte Suche ermöglicht es beiden Nutzergruppen, das Gesuchte auf eine bedeutungsvollere Weise zu finden. Anstatt sich auf Schlagworte zu verlassen, können die Nutzer nach der eigentlichen Bedeutung ihrer Anfrage suchen. Das bedeutet, dass sie die genaue Formulierung im Inhalt nicht kennen müssen. Mit KI können Nutzer ihre Fragen entweder in wissenschaftlicher oder alltäglicher Sprache – und in verschiedenen Sprachen – stellen und erhalten relevante Dokumente aus dem Archiv.

Diese fortschrittliche Suchtechnologie, bekannt als retrieval-augmented generation (RAG), funktioniert, indem zunächst die relevantesten Dokumente basierend auf der Nutzeranfrage abgerufen werden. Anschließend verwendet die KI diese Dokumente, um die relevantesten Informationen zu extrahieren und eine textuelle Antwort auf die Frage des Nutzers zu generieren.

Diese Art von KI-gestützter Archivlösung macht Archive dynamischer und benutzerfreundlicher. Sie ermöglicht es Menschen, auf neue Weise mit Sammlungen zu interagieren, sei es als Forscher, Journalisten oder Mitglieder der Öffentlichkeit, die neugierig auf den Inhalt des Archivs sind.

Fazit: Das volle Potenzial digitaler Archive ausschöpfen

Die Aufgabe, digitale Archive zugänglich zu machen, ist keine leichte. KI revolutioniert jedoch die Art und Weise, wie Institutionen mit der Erstellung von Metadaten und Suchfunktionen umgehen. Durch die Automatisierung der Metadatenerstellung und die Verbesserung der Suchmöglichkeiten hilft KI kulturellen Institutionen, die Herausforderungen bei der Verwaltung massiver digitaler Archive zu meistern.

KI-gestützte Erschließung spart nicht nur Zeit, sondern sorgt auch dafür, dass Archive besser organisiert und leichter zu erkunden sind. Mit KI-gestütztem Informationsmanagement und KI-gestützter Suche können Nutzer intuitiver mit Archiven interagieren, sei es beim Durchsuchen oder bei der Suche nach spezifischen Informationen.

Durch die Integration von KI bewahren kulturelle Institutionen nicht nur die Geschichte, sondern machen sie auch für zukünftige Generationen zugänglicher und spannender.