Tím nástrojem je Sora a jedná se o model umělé inteligence, který dokáže vytvářet až 60vteřinové realistické a nápadité video sekvence z textových příkazů ve vysokém rozlišení, které budou vyhovovat široké škále tvůrčích potřeb umělců napříč všemi odvětvími.
Nutno dodat, že tento nový generátor textu na video není první svého druhu. Mezi další společnosti, které předvedly podobnou technologii, patří Google, Meta a startup Runway. Avšak vysoká kvalita videí předvedených společností OpenAI – některá poté, co generální ředitel Sam Altman požádal uživatele sociálních médií, aby posílali nápady na psané podněty – ohromila pozorovatele a zároveň vyvolala obavy z etických a společenských důsledků.
Spuštění Sory
Nástroj byl uveden do provozu v polovině února tohoto roku a zatím není veřejně dostupný. OpenAI odhalila jen omezené informace o tom, jak byl vytvořen. Společnost, kterou někteří autoři a deník The New York Times zažalovali kvůli používání autorsky chráněných děl k vylepšení ChatGPT, také nezveřejnila, jaké obrazové a video zdroje byly k vývoji Sory použity. Na webových stránkách společnosti OpenAI je zobrazeno několik videí vytvořených pomocí této novinky, včetně jednoho, které ukazuje skupinu vlnitých mamutů klusajících horským prostředím, a dalšího, které zobrazuje dvě pirátské lodě v šálku kávy a jehož popisek zní „fotorealistické detailní video dvou pirátských lodí, které spolu bojují při plavbě v šálku kávy.“
OpenAI na svém blogu uvedla, že před zveřejněním nového nástroje pro veřejnost spolupracuje s umělci, filmovými tvůrci a různými odborníky na oblasti jako jsou etika, dezinformace, nenávistný obsah a předsudky, kteří budou model testovat. Dále společnost uvedla, že vytváří také nástroje, které pomohou odhalit zavádějící obsah.
Jak Sora funguje
Jádrem inovace Sory je technika, která transformuje vizuální data do formátu, jemuž lze snadno porozumět a s nímž lze snadno manipulovat, podobně jako se slova rozkládají na tokeny pro zpracování umělou inteligencí v textových aplikacích. Tento proces zahrnuje komprimaci videodat do lépe zvládnutelné podoby a jejich rozdělení do políček nebo segmentů. Tyto segmenty fungují jako stavební bloky, které může Sora přeskupovat a vytvářet tak nová videa. K dosažení svých schopností využívá Sora kombinaci deep learningu, zpracování přirozeného jazyka a počítačového vidění.
Deep learning, nebo chcete-li, hluboké učení pomáhá chápat a vytvářet složité vzory v datech, zpracování přirozeného jazyka interpretuje textové podněty k vytváření videí a počítačové vidění umožňuje přesně chápat a vytvářet vizuální obsah. Pomocí difuzního modelu – typu modelu, který je obzvláště dobrý při vytváření vysoce kvalitních obrázků a videí – dokáže Sora vzít zašuměná, neúplná data a přeměnit je na jasný a souvislý videoobsah.
Přístup Sory se tak výrazně liší od tvorby postav pomocí CGI (computer generated imagery neboli počítačová grafika), která vyžaduje rozsáhlé manuální úsilí, a od tradičních technologií deepfake, které často postrádají etické záruky, tím, že nabízí škálovatelnou a přizpůsobitelnou metodu generování videoobsahu na základě textového vstupu.
Co to znamená pro podniky?
Jedním z nejpozoruhodnějších aspektů Sory je její flexibilita, protože podporuje různé formáty a velikosti videí, zlepšuje rámování a kompozici pro profesionální zpracování a přijímá text, obrázky nebo videa jako podněty pro animaci obrázků nebo rozšíření videí. Vznik této aplikace představuje klíčové příležitosti pro podniky v různých odvětvích. V blízké budoucnosti se mohou významně uplatnit dvě klíčové oblasti.
První oblastí je marketing a reklama. Stejně jako se ChatGPT stal marketingovým nástrojem a nástrojem pro tvorbu obsahu, můžeme očekávat, že podniky budou používat Soru z podobných důvodů. Po veřejném uvolnění budou značky a společnosti moci vytvářet velmi poutavý a vizuálně atraktivní videoobsah pro marketingové kampaně, sociální média a reklamy. Možnost vytvářet vlastní videa na základě textových podnětů umožní větší kreativitu a personalizaci, což možná pomůže značkám vyniknout na přeplněném trhu.
Druhou oblastí, kterou by aplikace mohla ovlivnit, je školení a vzdělávání. Společnosti by mohly využívat Soru k tvorbě vzdělávacích a školicích videí, která jsou přizpůsobena konkrétním tématům nebo scénářům. To by mohlo zlepšit zážitek ze vzdělávání zaměstnanců a zákazníků a zpřístupnit složité informace a učinit je poutavějšími.
Jaké jsou hlavní výzvy do budoucna?
V následujících měsících musejí OpenAI, regulační orgány a uživatelé pečlivě zvážit klíčové faktory, které by mohly představovat výzvu, včetně otázek autorských práv, etických problémů a důsledků zvýšeného digitálního šumu. Vzhledem ke schopnosti Sory generovat realistický videoobsah existuje riziko neúmyslného vytváření videí, která porušují stávající autorská práva. OpenAI již byla několikrát žalována kvůli porušování autorských práv a otázkám duševního vlastnictví. Společnost nezveřejnila, odkud pocházejí data použitá k vývoji Sory, ale deníku New York Times sdělila, že aplikaci rozvíjela pomocí veřejně dostupných videí, na která získala licenci od držitelů autorských práv. Tato technologie také vyvolává etické otázky, zejména v souvislosti s vytvářením deepfake videí nebo zavádějícího obsahu.
Sora by mohla sloužit jako nástroj, který rozšíří možnosti tvůrců obsahu a umožní jim efektivněji vytvářet kvalitnější obsah. Stejně jako u každého technologického pokroku bude klíčové, aby se lidé přizpůsobili a našli způsoby, jak začlenit Soru do svých pracovních postupů a využili její silné stránky k doplnění svých vlastních dovedností a kreativity.