Generování audia a videa – Inteligentní lidé a stroje.

Audio a video jsou další oblasti, které se (zatím) těší menšímu zájmu, nicméně jde o dnešní status a vše dál bude záležet na přílivu peněz. Zejména u videa je ale zájem zřejmý a dá se očekávat, že většina hráčů na poli obrázků do videa brzy naplno nastoupí.

Audio

Technologie AI Audia se postará o bezztrátovou kompresi, kdy si AI algoritmus dokáže najít ve vstupu pravidelnosti a ty se naučí vyjádřit úsporněji. Výsledkem dodá obstojně poslouchatelnou zvukovou nahrávku i o velmi malé velikosti. Pro srovnání digitální formát MP3 pracuje s kompresí tak, že odstraňuje složitost ve spektru (např vysoké frekvence) a výsledkem je jen relativně malá velikost při znatelně horší kvalitě. Kromě efektivní komprese může být další nasazení AI algoritmů v audiu například při rekonstrukci chybějících zvukových nahrávek.

Modely s největším potenciálem mají většinou trial (cca 20 projektů) zdarma, jako podkres k celovečernímu filmu to zdaleka nestačí, ale pro podkres např na TikTok dobrý, vyzkoušejte sami:

StableAudio (produkt od Stability AI, tedy stejné firmy která stojí za obrazovým Stable Diffusion)
Suno – umožňuje specifikovat jak styl, tak text. A má velmi dobré výsledky.
Riffusion
AudioGen (výzkumný projekt od Meta)…vygeneruje přesný zvuk podle velmi stručného (cca 3-8 slov) textového promptu

Video

Generování videa je efektnější, ale výrazně složitější úloha, protože navazovat obrazová políčka s jemným posunem (i třeba jen 15 snímků za vteřinu) je extrémně náročné a dosažení pohybové konzistence videa nad 6-10s je v dnešní době bez mraku post-processingu a hodin kreativní práce prakticky nemožné. Můžeme však v této oblasti očekávat velký pokrok, protože zde existuje enormní množství trénovacích dat – a data AI modely rády.

Na vysvětlenou a ve velké zkratce probíhá generování videa ve třech krocích:

Vygeneruju si obrázek (viz kapitola Generování obrazu) a doplním ho o třetí rozměr času. To proto, že model musí brát v úvahu předchozí políčko, a porozumět, kde se objekty nacházejí, aby je posunul. Výsledkem negenureje další obrázky zvlášť, ale vytváří si vztahy mezi políčkama.
Následně se model natrénuje na první rundě velkého množství videí, jakýchkoliv, bez ohledu na jejich kvalitu. Na těch se naučí základní videoprincipy.
Poslední fází je finetuning, kdy se model přejede na vybraných, super kvalitních videích. Model se naučí specifické techniky, například švenk kamerou, zooming, nebo pohybující se objekty.

Mezi nejznámější a ke dnešku nejpokročilejší modely k vyzkoušení bych doporučil:

Runway ML – jeden z prvních modelů, dovoluje přidávat informace o pohybu kamery, nově motion brush a inpainting (v prvním políčku zvolím oblast, kterou chci rozpohybovat), closed source
Pika Labs – novější služba, closed source
Stable Video Diffusion – open source

3D Modelování

Jde prozatím o velmi experimentální oblast a modely tady ještě moc neumí. Je nicméně velmi zajímavá představa, že AI jednou bude designovat užitné předměty, které se dostanou do našeho reálného světa (!)

OpenAI Point-E – open source, primárně image-to-3D model
Alpha3D – text-to-3D model

Rozhodně zkoušejte a žasněte, jak dokážete instruovat vytvoření videa a výsledný klip osadit vlastní, unikátní hudbou!