Нейросеть Sora - это модель диффузии, которая генерирует видео, начиная с того, что выглядит как статический шум, и постепенно преобразует его, удаляя шум за множество шагов.
Она способна генерировать целые видео за один раз или расширять сгенерированные видео, чтобы сделать их длиннее, но на данном этапе
продложительностью до 1 минуты и качеством 1080 Full HD.
Sora использует архитектуру трансформера, что обеспечивает превосходные показатели масштабируемости. Мы представляем видео и изображения как коллекции меньших единиц данных, называемых фрагментами, каждый из которых аналогичен токену в GPT.