Bei Gastbeiträgen müssen diese freigeschaltet werden.
Soeben ist mir erstmals ein von KI synchronisiertes Video - Y1ImPlnUvSA - bei Youtube untergekommen. Jetzt frage ich mich, ob dies der Beginn einer schönen neuen Welt oder doch eher gruselig ist. Findet man die Universal-Kommunikatoren bei Star Trek nur so lange toll, bis man ihnen real begegnet?
Die inkonsistenz von Geschwindigkeit und Tonhöhe in dem Beispiel ist ja echt gruselig.
Die "KI" oder das ML Modell wurde wohl einfach mit den übersetzten subs gefüttert, hat Synonyme verwendet, um es menschlicher zu machen (mehr Varianz als stur übersetzt).
Die Idee ist eigentlich ganz gut, nur das Modell nicht gut entwickelt, recht einfach gehalten.
Je nach Machine Learning Modell (es sind immer noch nur Algorithmen, eine KI gibt es ja nicht) und Post wahrscheinlich notwendigem Processing werden die Ergebnisse mal besser, mal schlechter sein.
Doch Potential hat es. Ich denke es kann z.B. sinnvoll beim Übersetzen von Filmen sein, die es in keiner Sprache gibt, die du verstehst. Also besser als gar nichts.
Oder wie beim Google Translator, um mit Menschen aus anderen Ländern sprechen zu können, die man sonst nie verstehen würde. Bei über 200 Sprachen und tausenden Dialekten...
Oder natürlich automatisiert zur Überwachung, beim der Aufklärung usw. Das spart teure Übersetzer und Zeit, gibt Ergebnisse in Echtzeit aus.
Disney hat ja schon einige Modelle von Schauspielern gekauft, damit müssen sie nicht mehr selbst spielen, das kann ein Drahtmodell am Computer erledigen. Das ist auch irgendwie gruselig.
Es wird nicht lange dauern, bis die Synchro auch automatisiert wird.
------
Singen kann "KI" ja auch schon, bzw. pitchen, anamorph überschneiden, stitchen.
Bspw. watch?v=febJU9xYCHs - Mylène Farmer - Moi... Lolita (AI Alizée Cover)
Es klingt tiefer, rauher als Alizée, natürlich nicht perfekt, aber nah dran.
PS: Mylène Farmer hat das Lied einst für Alizée geschrieben, die Stimmen sind auch relativ ähnlich.
Übersetzte Info aus yt:
"Nur um es klarzustellen: Es ist nicht Mylène, die singt.
Aber es ist eine künstliche Intelligenz, die mit ihrer Stimme trainiert wurde, genau in der Ära „Before the Shadow“ … und ein wenig in der Ära von Anamorphosis und Stitch.
Deshalb gebe ich in den Titeln an, dass es sich um ein AI-Cover handelt. Hergestellt mit künstlicher Intelligenz."
------
Naja bei Star Trek waren es auch echte Menschen, die natürlich gesprochen haben und nicht wie Maschinen aus einem Durchschnitt von einem ML Modell.
Interessant, aber auch irgendwie gruselig war "Eliza" auf dem ZX Spectrum. Da hast du mit einem Programm geschrieben.
Oder erste Sprachsynthese namens Currah MicroSpeech, bzw. Intro-Sprachsynthese in Spielen der 80er Jahre (bspw. Mission Impossible, Ghost Busters).
Irgendwo da fing alles an für jeden verfügbar. Autom. Sprach-Erkennung gab es in den 70ern schon.
Irgendwann kam IBM VoiceType, furchtbar ungenau und ineffiziente Befehls-Erkennung für Windows.
Dragon Naturally Speaking als Sprach-Erkennung war dann schon deutlich besser vor rund 20 Jahren, benötigte jedoch 30 Minuten Training und viel Rechenleistung.
Heute ist Google Sprach-Erkennung mit 30 MB offline-Dateien in Android nahezu perfekt ohne Training, auch beim Liegen oder mit Erkältung.
Mittlerweile sind PCs deutlich schneller, Daten-Modelle deutlich größer geworden, Cloud Computing ist ein Thema.
Die Genauigkeit der Ergebnisse von Sprach-Erkennung, Machine Learning, Polygon-Erkennung mittels OpenCV, Übersetzung usw. hängt nur von den Ressourcen ab, die man benutzt. Mit wie viel Aufwand die "KI" gefüttert wird und ob man post processing verwendet, manuell nachbessert oder nicht.
Wenn ich es richtig verstanden habe: YT macht 'ne Spracherkennung zu Text und lässt den Content-Erzeuger den Text dann korrigieren. Dieser wird dann übersetzt und zu Sprache.
Soeben ist mir erstmals ein von KI synchronisiertes Video - Y1ImPlnUvSA - bei Youtube untergekommen.
Ziemlich beeindruckend , in der Tat. Sie haben sogar die Originalstimmen transformiert.
Aber ich hätte dann Deutsch mit französischem Akzent bevorzugt. 😉
Aber ich hätte dann Deutsch mit französischem Akzent bevorzugt. 😉
Cherie, Du ast sischerlisch erotische Phantasie?
Das natürlich , und weil das Video zeigt , dass die Liebe bei den Franzosen immer noch ein bisschen komplizierter ist als bei uns.
Nein , im Ernst: Stell dir vor , sie würden Filme und Serien mit der KI-Stimme des Schauspielers auf Deutsch und (s)einem original-sprachigem Akzent synchronisieren. Das fände ich irgendwie "ehrlich" und authentisch (und lustig).
Andererseits würde das natürlich nicht immer funktionieren , wenn zB der Akzent als Stilmittel verwendet wird.
Enorme Möglichkeiten jedenfalls , man erinnere sich nur an "ted (2012)" mit berlinerischem und bayrischem Akzent.
Der Bedarf für Synchronsprecher wird in Zukunft vermutlich abnehmen , so gut , wie die KI das offensichtlich heute schon kann.
Die Frage, die sich dann jedoch stellt, ist: Benötige ich dann überhaupt noch echte Schauspieler? Ist dann dieser Beruf vom Aussterben bedroht und wer bekommt dann den Oscar?
Die Figur wird nur noch animiert und die Stimme kommt eh einmal vom Original und dann nur noch aus der Dose.
Das sind die richtigen Fragen.
Ich bin allerdings trotzdem (positiv) beeindruckt.
Schaut euch nur mal diese imaginäre Werbung für Toys "R" Us an , erstellt mit SORA von OpenAI:
https://x.com/brendengallager/status/1805696767390081154
Einfach nur wow!
@Chris. Dein eingestelltes Beispiel ist echt beeindruckend.
Kann ich mich dann demnächst darauf freuen, die originale Stimme meines geliebten Tom Hardy AI-synchronisiert zu hören, statt der Stimme seines grauenhaften, völlig unfähigen Synchronsprechers? 😄
Frage mich da schon, wie das bei solch diffizilen Szenen, wie z.B. bei "The Revenant", entscheidende Kampfszene mit di Caprio am Fluss, gehen soll? Durch den besch... Synchronsprecher erhält das eine ganz andere Bedeutung, als was Tom Hardy mit seiner Originalstimme daraus macht. Was macht dann eine künstliche Intelligenz daraus? Kann ich nicht glauben, dass sie es schafft, das Ganze, so wie Tom Hardy selbst im Original, zu übersetzen.
(Abgesehen davon, ist der ganze Film total Banane! Unfassbar, dass der so hochgelobt wird! Im Original aber wohl schon noch besser, als in der grauslichen Synchro!)
Freundliche Grüße
Die Frage beschäftigt mich: Was ist nun authentischer, das künstliche Original oder die natürliche Nachahmung? Tatsächlich wohl die optimierte KI. Dann kommen auf mich allerdings harte Zeiten zu, da ich die Stimmen der meisten Amerikaner nicht leiden kann - dann kann ich wohl nur noch Briten und Franzosen gucken.
Beim bildlichen Schauspiel wäre bei mir aber Schluss. Man baut zu den Schauspielern ja irgendwie eine emotionale Beziehung auf. In dem Augenblick, wo ich es wüsste - ja, manchmal merke ich es schon heute nicht -, dass es eine generierte Darstellung ist, wäre es mit der Emotion vorbei.