Tek fotoğraftan 3D benzeri video üreten yeni yapay zeka

Tencent, HunyuanWorld-Voyager adını verdiği yeni yapay zeka modelini tanıttı. Bu model, tek bir görsel üzerinden 3D’ye benzer tutarlılıkta kısa video sekansları üretebiliyor. Kullanıcı, kameranın sahne içinde hangi yönde hareket edeceğini belirleyerek sanal bir keşif deneyimi yaşayabiliyor.

Voyager, aynı anda hem renkli (RGB) görüntü hem de derinlik bilgisi üreterek geleneksel 3D modelleme tekniklerine ihtiyaç duymadan doğrudan üç boyutlu yeniden inşa imkanı sunuyor.

Gerçek 3D olmasa da benzer etki

Ortaya çıkan sonuçlar tam anlamıyla 3D modeller değil; fakat kamera üç boyutlu bir alanda hareket ediyormuş gibi tutarlı sahneler oluşturuluyor. Sistem, her seferinde 49 karelik (yaklaşık 2 saniyelik) video üretiyor. Bu kısa klipler birleştirilerek birkaç dakikalık sahneler elde edilebiliyor. Kameranın açısı değişse bile nesneler sabit kalıyor ve bakış açısı gerçekçi şekilde ayarlanıyor. Üretilen derinlik verileri, istenirse 3D nokta bulutlarına dönüştürülerek farklı projelerde kullanılabiliyor.

Çalışma mantığı

Voyager, kullanıcıdan tek bir görüntü ve kamera hareket rotası alıyor. Öne, arkaya, sağa, sola ya da dönüş hareketleri seçilebiliyor. Sistem, görsel ile derinlik verilerini birleştirerek “world cache” adı verilen bir 3D nokta bulutu belleği oluşturuyor. Yeni kareler üretilirken bu veriler 2D’ye yansıtılarak tutarlılık kontrolü yapılıyor.

Sınırlamalar ve zorluklar

Transformer tabanlı tüm modellerde olduğu gibi Voyager da öğrenilen örüntüleri taklit ediyor. Yani tamamen yeni ve eğitim verisinde olmayan senaryolarda zorlanıyor. 100 binden fazla video ile, özellikle de Unreal Engine sahneleriyle eğitilen model, kamera hareketlerini bu sayede öğrenmiş durumda.
Model, birkaç dakika boyunca tutarlılığı koruyabiliyor; fakat tam 360 derece dönüşlerde küçük hatalar birikerek sahnenin bozulmasına neden olabiliyor.

Rakiplerle karşılaştırma

Tencent’in raporuna göre Voyager, aynı anda hem renk hem de derinlik verisi üretmesiyle öne çıkıyor. Ayrıca “world cache” sayesinde kareler arasında süreklilik sağlıyor.

Google’ın Genie 3 ve Dynamics Lab’in Mirage 2 modelleri de dünya üretiminde farklı yaklaşımlar sunuyor. Genie 3, metin girdilerinden etkileşimli dünyalar oluştururken; Mirage 2, tarayıcı üzerinden yüklenen görselleri oynanabilir ortamlara dönüştürüyor. Voyager ise özellikle video üretimi ve 3D yeniden yapılandırma süreçlerine odaklanıyor.

Eğitim süreci ve teknik gereksinimler

Voyager, Tencent’in HunyuanWorld 1.0 modelinin geliştirilmiş bir versiyonu. Eğitim için otomatik bir veri hattı kuruldu; bu sayede videolar kare kare analiz edilip kamera hareketleri ve derinlik bilgileri çıkarıldı.
Modelin çalışması için ciddi donanım gerekiyor: 540p çözünürlükte en az 60 GB GPU belleği, önerilen ise 80 GB. Kodlar Hugging Face üzerinde paylaşıldı ve tekli/multi-GPU desteği sunuluyor.

Lisans kısıtlamaları

Tencent, modelin kullanımını bazı bölgelerde yasakladı. Avrupa Birliği, Birleşik Krallık ve Güney Kore’de kullanılamıyor. Ayrıca 100 milyonun üzerinde aylık aktif kullanıcıya sahip ticari projeler için ek lisans almak gerekiyor.

Benchmark sonuçları

Stanford araştırmacılarının geliştirdiği WorldScore testinde Voyager, 77.62 puanla en yüksek toplam skoru aldı. Özellikle nesne kontrolü, stil tutarlılığı ve görüntü kalitesi kategorilerinde öne çıktı. Ancak kamera kontrolünde WonderWorld modelinin gerisinde kaldı.

Gelecek perspektifi

Bugünkü haliyle Voyager, gerçek zamanlı oyun ya da uzun interaktif deneyimler için yeterli değil. Yüksek donanım ihtiyacı ve tutarlılık sınırlamaları hâlâ engel. Ancak Google’ın Genie’si ve benzeri projelerle birlikte düşünüldüğünde, bu gelişmelerin yeni bir etkileşimli, yapay zekâ destekli sanat formunun ilk adımları olduğu söylenebilir.

İzmir’i sağanak vurdu. Araçlar su altında kaldı

İran’dan kritik hamle. Hint Okyanusu’nda Çin ve Rusya ile askeri tatbikat yapacak

TÜPRAŞ tesisinde patlama: Açıklama geldi!

Beyoğlu’nda bir otelin girişinde yangın

Tarafsız, Küresel Habercilik

Kurumsal

Kurumsal

Kurumsal

Biz Kimiz?