Google entwickelt AI-Generator für HD-Videos aus Textprompts

Imagen Video ist in der Lage, Videos mit einer Auflösung von 1280×768 Pixeln und einer Bildrate von 24 Bildern pro Sekunde zu generieren. Derzeit befindet es sich noch in der Forschungsphase, aber seine Erscheinung nur fünf Monate nach Google Imagen deutet auf die rasante Entwicklung von Videosynthese-Modellen hin.

Fortschritte im Bereich der KI-Diffusionsmodelle

Die Fortschritte im Bereich der KI-Diffusionsmodelle haben sich rasant entwickelt, nur sechs Monate nach der Einführung des Text-zu-Bild-Generators DALLE-2 von OpenAI. Die Ankündigung von Google Imagen Video erfolgt weniger als eine Woche nachdem Meta sein Text-zu-Video-KI-Tool Make-A-Video vorgestellt hat.

Laut Googles Forschungspapier verfügt Imagen Video über mehrere bemerkenswerte stilistische Fähigkeiten, wie zum Beispiel die Generierung von Videos basierend auf Werken berühmter Maler (zum Beispiel die Gemälde von Vincent van Gogh), die Generierung von 3D-rotierenden Objekten unter Beibehaltung der Objektstruktur und die Darstellung von Text in verschiedenen Animationsstilen. Google hofft, dass allgemeine Videosynthese-Modelle "die Schwierigkeit der hochwertigen Inhaltsproduktion erheblich verringern" können.

Die Schlüsselkomponente von Imagen Video

Die Schlüsselkomponente von Imagen Video sind sieben Diffusionsmodelle, die den ursprünglichen Textvorgaben (wie zum Beispiel "ein Bär, der das Geschirr abwäscht") in ein Video mit niedriger Auflösung (16 Frames, 24×48 Pixel, mit 3 Bildern pro Sekunde) umwandeln und es dann mit jedem Schritt in höheren Auflösungen und Bildraten hochskalieren. Das endgültige Ausgabevideo ist 5,3 Sekunden lang.

Die auf der Imagen Video-Website präsentierten Videobeispiele reichen von banalen Szenen ("Schmelzendes Eis, das vom Hörnchen tropft") bis hin zu fantastischeren Szenen ("Durchfliegen einer intensiven Schlacht zwischen Piratenschiffen auf einem stürmischen Ozean"). Sie weisen zwar offensichtliche Artefakte auf, zeigen aber mehr Flüssigkeit und Detailreichtum als frühere Text-zu-Bild-Modelle wie CogVideo, die vor fünf Monaten debütierten.

Ein weiteres textbasiertes Video-Modell, das mit Google in Verbindung steht, wurde heute offiziell vorgestellt. Es trägt den Namen Phenaki und kann längere Videos aus detaillierten Vorgaben erstellen. Dies zeigt, dass der Wettbewerb zwischen Diffusionsmodellen weiterhin rasant voranschreitet, wobei die Anzahl der AI-Paper auf arXiv exponentiell wächst und es für einige Forscher schwierig macht, mit den neuesten Entwicklungen Schritt zu halten.

Die Trainingsdaten für Google Imagen Video stammen aus dem öffentlich verfügbaren LAION-400M Bild-Text-Datensatz sowie aus "14 Millionen Video-Text-Paaren und 60 Millionen Bild-Text-Paaren", so Google. Dadurch wurde das Modell mit "problematischen Daten" trainiert, die von Google gefiltert wurden, aber immer noch sexuell explizite und gewalttätige Inhalte sowie soziale Stereotype und kulturelle Vorurteile enthalten können. Das Unternehmen ist auch besorgt, dass sein Tool "zur Erzeugung von gefälschten, hasserfüllten, expliziten oder schädlichen Inhalten" verwendet werden könnte.

Daher ist es unwahrscheinlich, dass wir in absehbarer Zeit eine öffentliche Veröffentlichung sehen werden. "Wir haben beschlossen, das Imagen Video-Modell oder den Quellcode nicht freizugeben, bis diese Bedenken ausgeräumt sind", sagt Google.

Google entwickelt AI-Generator für HD-Videos aus Textprompts

Fortschritte im Bereich der KI-Diffusionsmodelle

Die Schlüsselkomponente von Imagen Video

NUTZEN SIE KI FÜR IHR UNTERNEHMEN?

Weiterführende Artikel

Wie können wir Ihnen helfen?