Termentieren, Hunyuanworld-voyagerEr stellte das neue Modell für künstliche Intelligenz vor. Dieses Modell erfolgt über ein einzelnes Visual Es kann kurze Videosequenzen mit ähnlicher Konsistenz wie 3D erzeugen.Benutzer, ermittelt die Richtung der Kamera in der Bühne Eine virtuelle Entdeckungserfahrungkann leben.
Voyager gleichzeitig Sowohl farbenfrohe Bild- als auch Tiefeninformationen (RGB)Bietet die Möglichkeit.
Obwohl das Reale nicht 3D ist, ähnlicher Effekt
Die resultierenden Ergebnisse sind nicht buchstäblich 3D -Modelle; Aber Die Kamera erstellt konsistente Szenen, als würden sie sich in einem dreidimensionalen Bereich bewegen.Das System produziert gleichzeitig 49 -Frame -Video (ca. 2 Sekunden). Diese kurzen Clips können kombiniert und ein paar Minuten Szenen erhalten werden. Auch wenn sich der Winkel der Kamera ändert, bleiben die Objekte konstant und die Perspektive wird realistisch angepasst. Die erzeugten Tiefendaten können in verschiedenen Projekten verwendet werden, indem sie bei Bedarf in 3D -Punktwolken konvertiert werden.
Arbeitslogik

Voyager nimmt vom Benutzer ein einzelnes Bild- und Kamera -Bewegungsroute. Vorwärts-, Rück-, rechts-, links- oder Rückkehrbewegungen können ausgewählt werden. Das System kombiniert visuelle und Tiefendaten und erstellt einen 3D -Punkt -Cloud -Speicher mit dem Namen „World Cache“. Wenn Sie neue Rahmen erzeugen, werden diese Daten in 2D und Konsistenzkontrolle ausgeführt.
Einschränkungen und Schwierigkeiten
Wie bei allen mit Transformator -basierten Modellen imitiert Voyager die gelernten Muster. Also Es ist völlig neu und hat Schwierigkeiten bei Szenarien, die sich nicht in Bildungsdaten befinden. Das Modell wurde mit mehr als 100.000 Videos, insbesondere unwirklichen Motorszenen, trainiert und hat die Kamerabewegungen auf diese Weise gelernt.
Das Modell kann eine Konsistenz für einige Minuten aufrechterhalten. Bei vollen 360 Grad können sich jedoch kleine Fehler ansammeln und dazu führen, dass sich die Bühne verschlechtert.
Vergleich mit Wettbewerbern
Laut Tencents Bericht sticht Voyager gleichzeitig mit der Herstellung von Farb- und Tiefendaten ab. Es bietet auch dank des „Welt -Cache.
Google Genie 3und Dynamics Lab Mirage 2Modelle bieten auch unterschiedliche Ansätze in der Weltproduktion. Genie 3 schafft interaktive Welten aus Texteingaben; Mirage 2 konvertiert Bilder, die aus dem Browser geladen wurden, in spielbare Umgebungen. Voyager hingegen konzentriert sich auf die Videoproduktion und 3D -Umstrukturierungsprozesse.
Bildungsprozess und technische Anforderungen
Voyager, Tencent Hunyuanworld 1.0Eine verbesserte Version des Modells. Für das Training wurde eine automatische Datenlinie eingerichtet; Auf diese Weise wurden die Videos durch Quadrat- und Kamerabewegungen und Tiefeninformationen entfernt.
Das Modell benötigt eine ernsthafte Hardware für den Betrieb: mindestens 60 GB GPU -Speicher von 540p -Auflösung und die empfohlenen 80 GB. Die Codes werden auf dem Umarm auf das Gesicht geteilt und der Einzel-/Multi-GPU-Unterstützung präsentiert.
Bachelorbeschränkungen
Termentieren,Es verbot die Verwendung des Modells in einigen Regionen. Die Europäische Union kann nicht in Großbritannien und Südkorea eingesetzt werden. Darüber hinaus ist es erforderlich, zusätzliche Lizenzen für kommerzielle Projekte mit mehr als 100 Millionen aktiven Nutzern zu erhalten.
Benchmark -Ergebnisse
Entwickelt von Stanford -Forschern WorldScoreIm Test erhielt Voyager mit 77,62 Punkten die höchste Gesamtpunktzahl. Insbesondere in den Kategorien Objektsteuerung, Stilkonsistenz und Bildqualität. Aber unter Kameraton WonderworldEr war hinter seinem Modell.
Zukünftige Perspektive
In der heutigen Form reicht Voyager für echte Zeitspiele oder lange interaktive Erlebnisse nicht aus. Anforderungen an die hohe Ausrüstung und Konsistenzbeschränkungen sind immer noch Hindernisse. In Anbetracht des Gens von Google und ähnlichen Projekten kann jedoch gesagt werden, dass diese Entwicklungen die ersten Schritte einer neuen interaktiven Kunstform für künstliche Intelligenz sind.





