Professioneller Einsatz von KI-Stimmen
Professioneller Einsatz mittels KI erzeugten, deutschen Sprecherstimmen in der Medienproduktion auf Basis eigener Sprachmodelle, lokal gehostet und mit zusätzlichem Fokus auf Dialekt/Akzentabbildung.
Letzte Aktualisierung:
Projektdetails
Ziel ist die Überprüfung, ob sich mithilfe von selbst produzierten, bzw klangoptimierten Trainingsdaten, umfangreicher Harmonisierung von Phonemen und Aussprachekatalogen, bestehende deutsche Sprachkorpusse – die in der Regel für Spracherkennung (Speech-to-Text) und nicht für Sprachsynthetisierung (Text-to-Speech) erstellt wurden - so erweitern, selektieren und verbessern lassen, so dass ein deutschen Sprachkorpus entwickelt werden kann, der für hochwertige Medienproduktion in deutscher Sprache geeignet ist.
Zum Projektende soll ein erster Rohkorpus für die weitere Validierung der KI-Modelle im Rahmen der Machbarkeitsstudie vorliegen, sowie ein Konzept für die Entwicklung eines vollumfängliches Sprachkorpus für optimierte deutsche Sprache, für die sich an die Machbarkeitsstudie anschließende geplante Produktentwicklung.
Die Potenziale von KI-erzeugter Sprache sind enorm, Korrekturen, Aktualisierungen, Erstellung kompletter Inhalte, Integration von Terminologie- und Aussprachedatenbanken und vieles mehr, erhöhen den Wunsch nach professioneller Umsetzung und Nutzung. Da die bisherigen Technologien hauptsächlich mit englischen Audiodateien entwickelt wurden, gibt es im Bereich der deutschen Sprache und mit ihren regionalen Akzenten und Dialekten noch viel Optimierungspotenzial. Dazu kommt, dass der Datenschutz und vor allem der Datentransfer in andere Länder für viele Kunden problematisch ist und selten den europäischen Normen und Gesetzen entspricht. Dieser deutlich bessere Schutz ist auch für die Sprecher:innen, mit deren KI-Stimmen Audio generiert wird relevant. Hier entsteht ein Potential für den Einsatz in Medienproduktionen, der gezielten, auch regionalen, Kundenansprache (Audio-Chatbots, regionaler Socialmedia Content, etc.) und neue Anwendungen in der Barrierefreiheit.
Das geplante Projekt wird von den beiden Verbundpartnern VOX-OVER und ADACOR durchgeführt. Durch das Cross Innovation Netzwerk der IHK wurde die Zusammenarbeit in die Wege geleitet.
Die Kombination von technischem und künstlerischem KnowHow war die Ausgangslage.
VOX-OVER ist Experte im Bereich Sprachproduktion für hochwertige Medienproduktionen im Bereich Film- und Hörbuchvertonung, E-Learning und bringt Expertise rund um die Themen Audio, Tonaufnahmen, Sprache, Sprachfärbungen, Tonalität in das Verbundprojekt ein.
ADACOR ist ein Cloud-Service-Provider und Experte für die Implementierung und dem Betrieb moderner Anwendungen und Cloud-Infrastrukturen.
ADACOR bringt die Expertise rund um die Themen KI-Infrastruktur, Programmierung und Daten in das Projekt ein.
Showroom
Mit der Machbarkeitsstudie haben wir das übergreifende Ziel verfolgt, eine KI-Plattform zu entwickeln, die nicht nur die sprachlichen und rechtlichen, sondern auch die technischen Anforderungen der professionellen Sprachproduktion erfüllt. Der Aufwand für die Erstellung eines effizienten Lernkorpus, mit dem sich hochwertige KI-Sprache generieren lässt, ist nun abschätzbar.
Datenschutz und Datensicherheit sind nach wie vor die größte Hürde für den professionellen Einsatz von KI-Stimmen im B2B-Bereich. Diese sicherheitsrelevante Vorgaben können nur in eigenen, lokal gehosteten Bereichen erfüllt werden können. Verbesserte Sicherheitsmöglichkeiten sind auch für die Sprecher:innen, mit deren KI-Stimmen die Sprache generiert wird, ein sehr wichtiger Aspekt.
Die Ergebnisse der Machbarkeitsstudie zeigen, dass es technisch machbar und wirtschaftlich sinnvoll ist, die Erstellung von hochwertiger KI-Sprache auf Basis eigener Sprachmodelle zu einem Produkt weiterzuentwickeln. Sie sind der Ausgangspunkt für die „Digitale Produktinnovation“ von VOX-OVER und ADACOR: eine lokal gehostete Plattform, die höchste Audioqualität und Datensicherheit vereint.
Gefördert durch
- Digitale Technologie
Cloud Computing Künstliche Intelligenz (KI / AI)
- Einsatzbereich
E-Learning Medien
- Eingesetzte digitale Verfahren, Technik, Software und Methoden
Transformer KI-Modelle MMS StyleTTS2 ProTools
- Landkreis, kreisfreie Stadt
Offenbach am Main
- Förderprogramm
- Distr@l - Machbarkeitsstudien (FL 1)
- Fördersumme
- 53.000,00 €
- Förderzeitraum
- 1. Sep. 2024 - 31. Mai. 2025
- Status
- abgeschlossen
Antragsteller
VOX-OVER GmbH & Co. KG
Strahlenbergerstr. 125a
63067 Offenbach
Ansprechpartner
Herr Markus Löhr
VOX-OVER GmbH & Co. KG
Strahlenbergerstrasse 125A
63067 Offenbach am Main
