
In Verbindung mit der Einführung der ChatGPT-API hat OpenAI heute die Whisper-API eingeführt, eine gehostete Version der Open-Source-Sprache-zu-Text-Vorlage Whisper, die das Unternehmen im September veröffentlicht hat.
Mit 0,006 $ pro Minute ist Whisper ein automatisches Spracherkennungssystem, das laut OpenAI eine „robuste“ Transkription in mehreren Sprachen sowie die Übersetzung aus diesen Sprachen ins Englische ermöglicht. Es akzeptiert Dateien in einer Vielzahl von Formaten, einschließlich M4A, MP3, MP4, MPEG, MPGA, WAV und WEBM.
Unzählige Organisationen haben hochleistungsfähige Spracherkennungssysteme entwickelt, die den Kern von Software und Diensten von Technologiegiganten wie Google, Amazon und Meta bilden. Was Whisper jedoch anders macht, ist, dass es auf 680.000 Stunden mehrsprachiger und „Multitasking“-Daten trainiert wurde, die laut OpenAI-Präsident und CEO Greg Brockman aus dem Internet gesammelt wurden, was die Erkennung von einzigartigen Akzenten, Hintergrundgeräuschen und Fachjargon verbessert hat.
„Wir haben ein Modell veröffentlicht, aber das war eigentlich nicht genug, um das gesamte Entwickler-Ökosystem dazu zu bringen, darauf aufzubauen“, sagte Brockmann gestern Nachmittag in einem Videoanruf mit TechCrunch. “Die Whisper-API ist dieselbe große Vorlage, die Sie als Open Source erhalten können, aber wir haben sie maximal verbessert. Sie ist viel schneller und sehr bequem.”
Nach Ansicht von Brockman gibt es zu viele Hindernisse, wenn es um die Einführung von Transkriptionstechnologie geht. Laut einer Statista-Umfrage aus dem Jahr 2020 nennen Unternehmen Genauigkeit, Akzent oder Akzente im Zusammenhang mit Erkennung und Kosten als Hauptgründe dafür, Technologie nicht als Technologie für Sprache einzusetzen.
Aber Whisper hat seine Grenzen – insbesondere im Bereich der „nächsten Wort“-Vorhersage. Da das System mit einer großen Menge verrauschter Daten trainiert wurde, warnt OpenAI, dass Whisper Wörter in seine Transkription aufnehmen kann, die nicht wirklich gesprochen werden – möglicherweise, weil es versucht, das nächste Wort im Audio vorherzusagen und die Audioaufnahme selbst transkribiert. Darüber hinaus schneidet Whisper in allen Sprachen nicht gleich gut ab und leidet unter einer höheren Fehlerquote, wenn es um Sprecher von Sprachen geht, die in den Trainingsdaten nicht gut vertreten sind.
Dieser letzte Teil ist leider nichts Neues in der Welt der Spracherkennung. Bias hat selbst die besten Systeme lange Zeit geplagt, da eine Stanford-Studie aus dem Jahr 2020 ergab, dass Systeme von Amazon, Apple, Google, IBM und Microsoft bei weißen Benutzern weitaus weniger Fehler machten – etwa 19 % – als bei schwarzen Benutzern.
Trotzdem sieht OpenAI die Transkriptionsfähigkeiten von Whisper als genutzt, um bestehende Anwendungen, Dienste, Produkte und Tools zu verbessern. Die KI-gestützte Sprachlern-App Speak verwendet bereits die Whisper-API, um einen neuen sprechenden Begleiter in der App zu betreiben.
Wenn OpenAI in großem Umfang in den Text-to-Speech-Markt eindringen kann, könnte dies für das von Microsoft unterstützte Unternehmen sehr profitabel sein. Laut Allied Market Research könnte der Sektor bis 2031 einen Wert von 12,5 Milliarden US-Dollar haben, gegenüber 2,8 Milliarden US-Dollar im Jahr 2021.
„Unser Image ist, dass wir wirklich eine globale Intelligenz sein wollen“, sagte Brockmann. “wSie möchten wirklich mit viel Flexibilität in der Lage sein, jede Art von Daten, die Sie haben, aufzunehmen – welche Art von Aufgaben Sie erledigen möchten – und ein Multiplikator für dieses Interesse sein.“