其他
王炸AI模型「Sora」全网刷屏:一批人真要失业了?
一位时尚的女人走在东京的街道上,街道上到处都是温暖的发光霓虹灯和动画城市标志。她身穿黑色皮夹克,红色长裙,黑色靴子,背着一个黑色钱包。她戴着墨镜,涂着红色口红。她自信而随意地走路。街道潮湿而反光,营造出五颜六色的灯光的镜面效果。许多行人四处走动。
2月16日凌晨,头部人工智能公司OpenAI 突然发布了自己的首个文生视频模型:Sora。OpenAI表示Sora能够生成复杂的场景,不仅包括多个角色,还有特定的动作类型,以及对视频内容的准确细节描绘。
3个“革命性”进步💥
概括来说,Sora体现的「颠覆性」主要体现在下面三个方面:1、视频长度翻了15倍要知道,在Sora之前,受制于时空推理局限性,行业的普遍水平是2-4秒之间,很多人打趣地说道“与其说是视频,不如说是动图”。而此次Sora的最大支持长度是60秒,直接飙升15倍。2、镜头丰富、画面稳定、场景一致此前AI生成视频产品基本都是单镜头生成,主要展现的是让一张静态图片动起来。但由Sora所生成的视频,能够在保持主体一致性的前提下实现多角度镜头无缝切换,且能做到画面稳定、场景一致,还兼具着高保真度和高分辨率。
3、世界模型概念其他家AI文生视频同行所运用的基础模型架构更像是“小”模型的思路——基于上一帧预测下一帧,并且用文字或者笔刷遮罩做约束。但Sora则已经具有了世界模型的雏形———准备足够大量的视频,用多模态模型给视频做标注,把不同格式的视频编码成统一的视觉块嵌入,然后用足够大的网络架构+足够大的训练批次(batch size)+ 足够强的算力,让模型对足够多的训练集做全局拟合(理解)。所以其生成的视频是基于对真实物理世界的理解。
目前官网上已经更新了48个视频demo。这些demo中,Sora不仅能准确呈现细节,还能理解物体在物理世界中的存在,并生成具有丰富情感的角色。值友们一起来看看:
与中国龙一起庆祝中国农历新年的视频。
一窝金毛幼犬在雪地里玩耍。他们的头从雪中探出来,被雪覆盖着。
穿过东京郊区的火车窗外的倒影。
赛博朋克背景下机器人的生活故事。
还可以再具体一点,比如:
动画场景的特写是一个毛茸茸的小怪物跪在融化的红蜡烛旁边。艺术风格是 3D 和现实的,重点是灯光和纹理。这幅画的气氛是一种惊奇和好奇,怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉,就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。
一位 24 岁女性眨眼的极端特写,在魔法时刻站在马拉喀什,70 毫米拍摄的电影胶片,景深,色彩鲜艳,电影般。
另外,OpenAI首席执行官奥特曼也在X网站上发起征集,让用户把自己想给Sora的文字描述提交给他来生成视频:“不用担心你的要求太细,或是难度太大!”有人提出想要“一段海上自行车比赛的视频,让各种动物作为运动员骑自行车,采用无人机拍摄视角”。奥特曼在回复中发布了一段由Sora生成的视频,视频中有企鹅、海豚和其他水生生物骑自行车,可谓天马行空。
这是Sora呈现的:雪后的东京熙熙攘攘。镜头穿过繁忙的街道,跟随着几位享受着美丽雪景和在附近摊位购物的人们。美丽的樱花瓣伴随着雪花在风中飘舞。
但又一轮对比之下,似乎SORA还是更加优秀——无论是长镜头还是对文字的理解能力。
Sora已经完美了吗?
Sora 建立在过去对 DALL·E 和 GPT 模型的研究之上。它使用 DALL·E 3 的重述技术,该技术涉及为视觉训练数据生成高度描述性的标题。因此,该模型能够更忠实地遵循生成视频中用户的文本指令。除了能够仅根据文本指令生成视频之外,该模型还能够获取现有的静态图像并从中生成视频,准确地动画图像的内容并关注小细节。详细的技术报告大家可以点击「阅读原文」去了解。
Sora来了,有些人真要失业了?