Google Veo 3 yapay zekada çığır açıyor

Google’ın yeni jenerasyon yapay zekâ görüntü üretim modeli olan Veo 3, yalnızca birkaç sözlük metin komutlarıyla gerçekçi görüntüler oluşturabiliyor. Yeni sürümle birlikte, sistem artık bu görüntülere ortam sesleri, insan sesi ve gerçek vakitli fizik simülasyonları da ekleyebiliyor. Örneğin; “kalabalık bir metro vagonu” komutu verildiğinde, sadece görsel değil, tren sesleri, kalabalığın uğultusu ve konuşmalar da oluşturulabiliyor.
Veo 3, ağız hareketleriyle senkronize ses üretimi konusunda da argümanlı. Bu da onu sinema sanayisi için değerli bir araç haline getiriyor. Model, Google’ın yeni duyurduğu AI tabanlı sinema üretim aracı Flow üzerinden de erişime açık. Şimdilik sırf ABD’deki Gemini Ultra aboneleri tarafından kullanılabiliyor.
Google, bu gelişmeyi “yaratıcı dallarda kullanılabilir yapay zeka üretme vizyonumuzun bir parçası” olarak tanımlıyor.
ZORLU BİR TEKNİK MAHZUR AŞILDI
Video ve sesi birebir anda yapay zekâ ile üretmek, teknoloji dünyasında bugüne dek hayli kuvvetli bir sıkıntı olarak görülüyordu. Zira görüntü sabit karelerden oluşurken, ses dalga formunda ve büsbütün farklı vakit ölçeklerinde işliyorlar. Bu da iki farklı data cinsinin birebir anda işlenmesini ve senkronize edilmesini son derece karmaşık hale getiriyor.
Örneğin; birebir otomobil, 10 km/saat süratle gittiğinde farklı, 100 km/saat süratle gittiğinde farklı ses çıkarır. Yüzeye nazaran de ses değişir: Taş döşeli bir yolda yürüyen atın sesi, çim üzerindekiyle birebir değildir. Veo 3, bu çeşit fizikî değişkenleri dinamik olarak hesaplayabilen bir altyapıya sahip.
Google’ın yanı sıra Meta da bu alanda adım atan teknoloji devlerinden biri. Lakin Google’ın Veo 3 modeli, eş vakitli görüntü ve ses üretimini muvaffakiyetle gerçekleştiren birinci modellerden biri olarak öne çıkıyor.
Yapay zekâ, artık yalnızca manzara değil; duyulabilen, hissedilebilen sahneler de yaratabiliyor. Bu da dijital içerik üretiminin geleceğini büsbütün yine şekillendirebilir.