Audio a video jsou další oblasti, které se (zatím) těší menšímu zájmu, nicméně jde o dnešní status a vše dál bude záležet na přílivu peněz. Zejména u videa je ale zájem zřejmý a dá se očekávat, že většina hráčů na poli obrázků do videa brzy naplno nastoupí.
Audio
Technologie AI Audia se postará o bezztrátovou kompresi, kdy si AI algoritmus dokáže najít ve vstupu pravidelnosti a ty se naučí vyjádřit úsporněji. Výsledkem dodá obstojně poslouchatelnou zvukovou nahrávku i o velmi malé velikosti. Pro srovnání digitální formát MP3 pracuje s kompresí tak, že odstraňuje složitost ve spektru (např vysoké frekvence) a výsledkem je jen relativně malá velikost při znatelně horší kvalitě. Kromě efektivní komprese může být další nasazení AI algoritmů v audiu například při rekonstrukci chybějících zvukových nahrávek.
Modely s největším potenciálem mají většinou trial (cca 20 projektů) zdarma, jako podkres k celovečernímu filmu to zdaleka nestačí, ale pro podkres např na TikTok dobrý, vyzkoušejte sami:
- StableAudio (produkt od Stability AI, tedy stejné firmy která stojí za obrazovým Stable Diffusion)
- Suno – umožňuje specifikovat jak styl, tak text. A má velmi dobré výsledky.
- Riffusion
- AudioGen (výzkumný projekt od Meta)…vygeneruje přesný zvuk podle velmi stručného (cca 3-8 slov) textového promptu
Video
Generování videa je efektnější, ale výrazně složitější úloha, protože navazovat obrazová políčka s jemným posunem (i třeba jen 15 snímků za vteřinu) je extrémně náročné a dosažení pohybové konzistence videa nad 6-10s je v dnešní době bez mraku post-processingu a hodin kreativní práce prakticky nemožné. Můžeme však v této oblasti očekávat velký pokrok, protože zde existuje enormní množství trénovacích dat – a data AI modely rády.
Na vysvětlenou a ve velké zkratce probíhá generování videa ve třech krocích:
- Vygeneruju si obrázek (viz kapitola Generování obrazu) a doplním ho o třetí rozměr času. To proto, že model musí brát v úvahu předchozí políčko, a porozumět, kde se objekty nacházejí, aby je posunul. Výsledkem negenureje další obrázky zvlášť, ale vytváří si vztahy mezi políčkama.
- Následně se model natrénuje na první rundě velkého množství videí, jakýchkoliv, bez ohledu na jejich kvalitu. Na těch se naučí základní videoprincipy.
- Poslední fází je finetuning, kdy se model přejede na vybraných, super kvalitních videích. Model se naučí specifické techniky, například švenk kamerou, zooming, nebo pohybující se objekty.
Mezi nejznámější a ke dnešku nejpokročilejší modely k vyzkoušení bych doporučil:
- Runway ML – jeden z prvních modelů, dovoluje přidávat informace o pohybu kamery, nově motion brush a inpainting (v prvním políčku zvolím oblast, kterou chci rozpohybovat), closed source
- Pika Labs – novější služba, closed source
- Stable Video Diffusion – open source
3D Modelování
Jde prozatím o velmi experimentální oblast a modely tady ještě moc neumí. Je nicméně velmi zajímavá představa, že AI jednou bude designovat užitné předměty, které se dostanou do našeho reálného světa (!)
- OpenAI Point-E – open source, primárně image-to-3D model
- Alpha3D – text-to-3D model
Rozhodně zkoušejte a žasněte, jak dokážete instruovat vytvoření videa a výsledný klip osadit vlastní, unikátní hudbou!