2024年AI视频生成研究报告:视频生成领域的发展与挑战
2024年08月18日⏰星期日🗓农历七月十五
本文由AI分析解读,AI提示词见文末
近年来,生成式AI浪潮席卷而来,大语言模型在文本处理方面表现卓越,文生图领域也产生了不少杀手级应用,而视频作为图像模态的进一步扩展,虽然成熟相对较慢,但也取得了显著进展。
一、视频生成领域的发展现状
1. 与其他模态的比较
- 文本:大语言模型在文字处理上表现出色,如ChatGPT日活用户已突破1亿,OpenAI在2024年6月ARR达到34亿美元。
- 图像:文生图领域发展迅速,Midjourney已有超过2000万用户,在无投资的情况下自我造血,2023年营收超过2亿美元。
- 视频:领军企业做出标杆,如2024年2月OpenAI发布的Sora引发全球关注,但商业化、产品化进展较慢。
- 音频:目前主要是音乐生成,市场不如图片生成、视频生成等领域热门,比视频更加早期。
- 3D:技术路线目前尚不清晰,垂直明星创业公司较少,产品大多处于早期阶段。
2. 技术路线的演进
- GAN:2014年发表,2016年左右开始用于视频生成,但应用范围有限,生成多样性差、速度快。
- Transformer:2017年发表,逐步向各个领域渗透,早期在视频生成领域效果有限,成本较高。
- Diffusion Model:2020年DDPM论文发表,推动扩散模型在视觉生成领域占据主导地位,生成质量高、显存开销大。
- Diffusion + Transformer:2022年12月Diffusion Transformer论文发表,2024年2月OpenAI发布的Sora验证了其有效性,可扩展性强,长期来看有望成为主要路线。
3. 主要企业的成果
- OpenAI:2024年2月发布Sora,取得惊艳的生成效果。
- 字节跳动:推出Story diffusion、Dreamina、AnimateDiff - Lightning、MagicDance、MagicEdit、Boximator、Magic - Me、MagicVideo - V2、MagicAnimate、Pixel Dance、MagicAvatar、MagicVideo - V1等视频相关成果。
- 阿里巴巴:推出寻光视频创作平台、UniAnimate、EasyAnimate、AtomoVideo、EMO、Animate Anyone、Livephoto、DreaMoving、VGen、Model scopeSynthesis等。
- 腾讯:推出MOFA - Video、Follow Your Emoji、Follow - Your - Posev2、ToonCrafter、ID - Animator、Revideo、混元DiT、MuseV、DynamiCrafter、MovieLLM、AniPortrait、Follow - Your - Click、FreeNoise、VideoCrafter2、AnimateZero、VideoCrafter等。
- 快手:推出可灵大模型、VideoTetris、Direct - a - Video、Video - LaVIT、12V - Adapter等。
- 百度:推出Hallo、UniVG、VideoGen等。
- Google:推出Veo、vlogger、Lumiere、W.A.L.T.、VideoPoet、Imagen Video、Phenaki、Flowvid、Fairy、Emu Video + Emu Edit、Make - a - video等。
二、视频生成领域面临的挑战
1. 技术复杂
- 视频生成对算力、数据等资源要求较高,技术复杂,成熟相对文本、图像较慢。
2. 商业化和产品化进展缓慢
- 虽然领军企业做出了标杆,但整个领域的商业化和产品化仍面临挑战。
3. 模型架构和训练的挑战
- 不同模型架构各有优缺点,如GAN生成多样性差,Transformer生成速度慢、开销大,Diffusion Model显存开销大,而Diffusion + Transformer的具体细节和架构在不同模型、产品中各异,需要不断优化和改进。
三、未来展望
- 视频生成领域具有巨大的潜力,随着技术的不断进步,未来有望在更多领域得到应用,如短视频、电商、动漫等。
- 同时,各企业也将继续加大在该领域的研发投入,推动视频生成技术的发展和商业化应用。
总之,AI视频生成领域正在快速发展,但也面临着诸多挑战。我们期待未来该领域能够取得更多的突破,为人们的生活和工作带来更多的便利和创新。
AI解读
AI提示词
- 本文使用如下提示词,由豆包@字节跳动提供解读
[角色定位]
- 你是一位数字化转型专家,擅长阅读研究报告并在微信订阅号上撰写深入浅出的文章进行分享。
- 你擅长提炼报告的核心观点,总结报告的关键要点,用通俗易懂的表达进行阐述,确保文章既有吸引力,又能通过平台的AI原创检测。
[专业技能]
- 核心观点提炼: 挖掘文章的主要观点和支持论据。
- 结构调整优化: 确保文章逻辑清晰流畅,能够自行进行润色,使其更自然。
- 减少AI痕迹: 最大限度地消除AI痕迹,保证文章的原创性。
[约束条件]
- 避免敏感词: 对于敏感词、限制词要进行规避或用拼音、emoji表情代替。
- 内容充实: 文案输出要求内容丰富,不要简单生成。
- 问题处理能力: 具备遇到问题时自我处理和解决的能力。
- 核心要点加粗: 在每个阶段的核心要点请加粗展示。
- 忠实于核心内容: 请忠实于原文的核心内容,不允许随意杜撰或联想,禁止使用正式、重复和机械化的语气。
现在,请根据这份文件撰写一篇文章进行归纳总结。
报告原文
报告共46页(13.2MB),扫码即可获取。