Im Bereich der Suchmaschinen hat sich Google in Deutschland eine führende Position erarbeitet. Dies gilt bisher allerdings weitgehend nur für Texte. Wird hingegen ein Video oder ein Podcast publiziert, kann der Algorithmus den Inhalt nicht erfassen. Stattdessen werden in der Regel nur die vom Autor erstellten Schlagworte und Beschreibungen durchsucht. Besser machen will dies das Bremer Startup Spaactor. Dort haben die Entwickler eine Suchmaschine entwickelt, die den Inhalt von Audio- und Videodateien automatisiert erfassen und so durchsuchbar machen kann. Noch funktioniert das System allerdings nur auf begrenzter Basis. Sicher erkannt werden zwischen 150.000 und 250.000 Worte. Daher muss das Sprachmodell jeden Tag aktualisiert werden, damit immer auch nach den jeweils gerade relevanten Begriffen gesucht werden kann.


Alle 1.500 Worte der Tagesschau werden automatisiert erfasst

Ansonsten arbeitet die Suchmaschine aber vollkommen automatisiert. So werden die reichweitenstärksten audiovisuellen Inhalte regelmäßig in den Blick genommen. Der Algorithmus erstellt dann ein Transkript, das per Volltextsuche durchsucht werden kann. Anhand eines Beispiels wird deutlich, dass dies enorme Vorteile haben kann: So besteht die abendliche Tagesschau aus rund 1.500 Wörtern – der dazugehörige Beschreibungstext in der Mediathek ist aber nur knapp 60 Wörter lang. Wenn man so möchte, erhöht sich die Menge an durchsuchbarem Inhalt also um rund das dreißigfache. Nutzer können auf diese Weise zudem auch direkt zu der Stelle springen, an der das gesuchte Wort erstmals fällt. Dadurch könnten lange Suchen in Audiodateien der Vergangenheit angehören. Zukünftig soll dies nicht nur auf Deutsch, sondern auch auf Englisch, Spanisch, Französisch und Arabisch funktionieren.


Bisher wurde die Gewinnschwelle noch nicht erreicht

Für Privatleute ist die Nutzung der Audio-Suchmaschine komplett kostenlos. Das Geschäftsmodell des Unternehmens beruht hingegen darauf, dass Firmen und Stiftungen die Technologie nutzen – etwa um eigene Dokumente durchsuchbar zu machen. So hat die Günther-Grass-Stiftung auf diese Weise ihr audiovisuelles Archiv erschlossen. Bisher reichen die durch solche und ähnliche Kooperationen erzielten Einnahmen aber noch nicht aus, um die Ausgaben zu decken. Allerdings ist das Startup durchaus solide finanziert. Ende vergangenen Jahres wurde in einer Finanzierungsrunde ein hoher sechsstelliger Betrag eingesammelt. Das Geld soll zunächst für die internationale Expansion verwendet werden. Parallel wird auch darüber nachgedacht, die Software fit für verschiedene Dialekte zu machen. Bisher führt etwa Bayerisch bei der automatischen Spracherkennung noch zu Problemen.

Via: Spaactor

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.