想要打造一款“Sora”模型,最少需要几个人?
刚刚,美国AI创企Hotshot发布了其视频模型的早期预览版——Hotshot,仅用四个人就完成了OpenAI整个“Sora”团队的工作量。
Hotshot生成的5秒AI视频
Hotshot是一款Transformer扩散模型,在快速对齐、一致性和运动方面表现出色,同时可扩展到生成更长时间、更高分辨率的AI视频。据Hotshot官方博客透露,从端到端,Hotshot最新版本数据训练耗时4个月,每小时耗费数百万H100。
Hotshot官网
Hotshot给出了一些Hotshot文生视频与其他同行对比的相关案例。
比如说,这是“一个留着爆炸头的20岁男子坐在一朵棉花云上,在蓝天中看书”文字描述所生成的视频。
或者是,一只戴着太阳镜的泰迪熊在巨大的瀑布前,在丛林中弹奏电吉他,跳着舞并且摇头晃脑。
可以看出,在这些视频中,Hotshot表现出的效果较为高清,展现出来画面相对准确,视频长度维持在5秒左右且画面流畅。“我们看到70%用户更喜欢Hotshot的结果,而不是其他的文生视频模型。”Hotshot创始人说道。
目前,Hotshot的测试版现已在官网上提供试用,且生成式的视频不带有任何水印。每位用户每天有两次免费生成视频的机会。
“训练GPU就像开火车,保持每个环节都不能落下。”
“训练模型就是软件界的火箭发射。”
“每次优化程序都相当考验情感和理智,尤其是金钱方面。”
创始团队在其博客上分享了自己的从0打造文生视频模型的经历以及趣事,比如说他们曾差点烧掉机房,硅兔君也从中看到了初创企业对AI的热情不减。
Hotshot成立于2023年,共有三名创始人,Aakash Sastry、John Mullan和Duncan Crawbuck,均有11年打造消费级应用的经验。在其博客中,他们还分享了从0打造翻版“Sora”的关键四步:数据工程、研究、训练、以及扩展的过程以及思考。
硅兔君在原文基础上进行编译,以下enjoy。
一、数据工程:立下两个亿级目标,构建自己的视频、图像数据库
由于Hotshot要训练一个更大的模型,需要扩大模型的数据工程。在初期,他们设定了一个目标:将语料库扩展到6亿个剪辑视频,这需要承担巨大的运营开销。
Hotshot通过联合使用图像和视频来训练模型,以构建比视频更丰富的公开可访问图像数据。由于并没有自己的图像语料库,因此他们设定了一个新目标,将图像语料库扩展到10亿张图像。
尽管目前有许多公开的VLM可用于添加字幕(LLaVa、CogVLM 等),但由于它们是针对图像理解而非视频进行训练的,更擅长空间理解(颜色、物体、人物等),在时间理解(动作、事物随时间的变化)方面却不尽人意。
为了解决这个问题,Hotshot创建了一个300K的视频样本数据集,其中包含密集的时间字幕,并以想要的风格手动添加字幕,并对公开可用的VLM进行了微调,以进行视频理解。几周时间后,Hotshot打造了一个视频字幕生成器,用来注释数亿个视频样本。
想要大规模部署该视频字幕生成程序,能处理数十亿张图片和视频剪辑并非易事。其中,最难的是他们需要在云端管理数千个GPU。“我们团队一个月24小时无休盯着这些GPU工作。”Hotshot创始团队提及,“这像一夜之间你需要数百或数千名基础员工。他们还各自有自己的想法,并不听话。”
二、研究:用超参数训练自研自动编码器
如果想要快速得到一个优秀的模型,只需像Hotshot一样,在众多优秀开源存储库挑选一个,你就能有一个良好的开端。“我在Meta时,也曾这样打造了基于Transformer的Diffusion Model模型。”Hotshot创始人提及。
几天时间后,Hotshot获得了DiT(Diffusion Transformer)模型进行ImageNet训练的简单示例。他们开始训练一个新的自动编码器来在空间和时间上压缩视频,从而有效地训练长序列视频。
Hotshot官网展现9种不同表述生成的视频
Hotshot从未有过从头开始训练过自动编码器的经验,因此在该过程中,模型训练的不稳定带来很大困扰。训练进行到一半时,Hotshot发现鉴别器已经启动,但训练实际效果却没什么变化。最终他们使用不同的超过原有上限的参数据重新开始训练,一天时间后,生成器和鉴别器的损失都开始逐渐下降。根据此结果,Hotshot打造了一个新的自动编码器,作为网络端的输入。
三、训练:确认合适训练架构,可提升20%模型训练和推理速度
想要打造一个完美的文生图视频,首先需要确定训练架构,这可能涉及一系列问题:如采用哪种类型的扩散公式?网络的深度和宽度是多少?
Hotshot最终希望打造一个能够生成任意分辨率和最长10秒的视频模型。他们花费了相当多的时间评估几种不同的新架构,让模型的训练和推理速度提高约20%。
四、扩散:H100训练差点烧掉机房,99%时间花在基础设施和优化上
随着计算规模扩大,管理变得更加困难,IO变得极其瓶颈化,日志记录变得混乱,H100经常出现故障,尤其是在训练视频模型时将硬件推到极限时。此外,随着计算规模扩大,训练运行的成本变得更加高昂,这使得优化代码以尽可能快地运行尤为重要。
Hotshot还发现,越优化代码并增加GPU的功率,GPU故障的风险就越高。“一家数据中心提供商和我们说,机房差点着火,让我们少优化代码。”
但机房着火也没有阻挡Hotshot的热情。
接下来三个月里,Hotshot把99%的时间都花在了基础设施和优化上。Hotshot通过使用不同类型的数据/模型并行性来大规模优化数据, 编写自定义内核,最大限度地减少他们的GPU费用,缓存数据以便尽可能快速高效地检索。
作为初创团队,创始团队感受到训练模型是为一种完全不同的冒险。在内部,他们认为训练模型是软件界的火箭发射。“使用数千个GPU进行大规模训练就像玩具火箭直接到SpaceX Falcon发射。”
他们还举了个例子:随着 GPU数量的扩大,训练启动时间会增加,因为数千个程序进程正在从NFS驱动器读取数据以尝试加载权重,因此用户必须开始使用分布式文件系统或平衡网络在单个进程传输的权重。尤其是GPU经常故障,因此经常需要重新启动。而且,当数千个同步GPU中有一个进程挂起,就会使整个“GPU列车”停止运行。为了追踪原因,Hotshot编写了自己的监测软件来检测挂起的GPU并确定其原因。
另一方面,大规模的数据训练十分考验集群的带宽。
随着视频分辨率越来越大,持续时间越来越长,在训练的同时解码高分辨率视频也越来越难。最后,他们选择将自己的数据集预先计算先嵌入到程序中,跳过解码视频和处理视频潜在和文本嵌入的步骤,并化运行下一个数据集的计算,从而减轻压力。
但提前内置数据集索引会占据相当大的内存。为了解决这个问题,Hotshot优化了索引并将其压缩了七倍,并且将所有的数据存储为bfloat16嵌入。同时,Hotshot还对数据集分片使用了Zstandard压缩,并将其上传到S3,选择了物理上尽可能靠近集群的存储区域。
“在机器学习训练中,优化数据比我们之前所做的任何其他事情都更能烧钱。”Hotshot创始团队调侃道。
五、13个月连发三款AI视频模型,AI视频将抢滩数字媒体
在过去13个月时间内,Hotshot打造了3种不同的视频模型。
第一个视频模型Hotshot-XL可以生成1秒8fps的视频,研发过程仅耗时3个月。
但Hotshot认为该模型更像是一个技术演示,而不能成为构建产品基础。同时,Hotshot希望能够将该模型回馈给社区。所以他们开源了Hotshot-XL。如今,每月约有2万名新开发人员和艺术家使用 Hotshot-XL。
第二款视频模型Hotshot Act-One可生成3秒8fps的视频,训练耗时5个月。
在构建此模型的过程中,Hotshot能够将视频数据集扩展到2亿个带字幕的公开视频,并首次真正打造了大规模计算、分布式训练和高分辨率扩散模型。
第三款视频模型Hotshot,可以生成长达10秒的720P镜头。
Hotshot的创始人Sastry预测,AI生成内容可能在未来12个月内成为数字媒体的主流,尤其是在YouTube视频制作方面,创作者将能够完全控制从文本到视频,甚至音频的生成过程。
2024年上半年,AI文生视频领域卷翻天。仅6个月时间内,就涌现出Runway Gen-3、PixVerse V2、Vidu、Dream Machine等10余款AI文生视频模型。就在今天美国创企Luma AI还发布了Dream Machine 1.5,增强视频生成的真实感、改进了运动跟踪效果。
仅仅4人团队的Hotshot,能否在文生视频领域站稳?我们共同期待。