Cee同学

为无为，事无事，味无味。大小多少。报怨以德。图难于其易，为大于其细；天下难事，必作于易；天下大事，必作于细。

2024年AI视频生成研究报告：视频生成领域的发展与挑战

研究报告

切瓜Cee戏品

发布日期: 2024-08-17

更新日期: 2024-08-17

文章字数: 1.3k

阅读时长: 4 分

阅读次数:

2024年AI视频生成研究报告：视频生成领域的发展与挑战

2024年08月18日⏰星期日🗓农历七月十五

本文由AI分析解读，AI提示词见文末

近年来，生成式AI浪潮席卷而来，大语言模型在文本处理方面表现卓越，文生图领域也产生了不少杀手级应用，而视频作为图像模态的进一步扩展，虽然成熟相对较慢，但也取得了显著进展。

一、视频生成领域的发展现状

1. 与其他模态的比较

文本：大语言模型在文字处理上表现出色，如ChatGPT日活用户已突破1亿，OpenAI在2024年6月ARR达到34亿美元。
图像：文生图领域发展迅速，Midjourney已有超过2000万用户，在无投资的情况下自我造血，2023年营收超过2亿美元。
视频：领军企业做出标杆，如2024年2月OpenAI发布的Sora引发全球关注，但商业化、产品化进展较慢。
音频：目前主要是音乐生成，市场不如图片生成、视频生成等领域热门，比视频更加早期。
3D：技术路线目前尚不清晰，垂直明星创业公司较少，产品大多处于早期阶段。

2. 技术路线的演进

GAN：2014年发表，2016年左右开始用于视频生成，但应用范围有限，生成多样性差、速度快。
Transformer：2017年发表，逐步向各个领域渗透，早期在视频生成领域效果有限，成本较高。
Diffusion Model：2020年DDPM论文发表，推动扩散模型在视觉生成领域占据主导地位，生成质量高、显存开销大。
Diffusion + Transformer：2022年12月Diffusion Transformer论文发表，2024年2月OpenAI发布的Sora验证了其有效性，可扩展性强，长期来看有望成为主要路线。

3. 主要企业的成果

OpenAI：2024年2月发布Sora，取得惊艳的生成效果。
字节跳动：推出Story diffusion、Dreamina、AnimateDiff - Lightning、MagicDance、MagicEdit、Boximator、Magic - Me、MagicVideo - V2、MagicAnimate、Pixel Dance、MagicAvatar、MagicVideo - V1等视频相关成果。
阿里巴巴：推出寻光视频创作平台、UniAnimate、EasyAnimate、AtomoVideo、EMO、Animate Anyone、Livephoto、DreaMoving、VGen、Model scopeSynthesis等。
腾讯：推出MOFA - Video、Follow Your Emoji、Follow - Your - Posev2、ToonCrafter、ID - Animator、Revideo、混元DiT、MuseV、DynamiCrafter、MovieLLM、AniPortrait、Follow - Your - Click、FreeNoise、VideoCrafter2、AnimateZero、VideoCrafter等。
快手：推出可灵大模型、VideoTetris、Direct - a - Video、Video - LaVIT、12V - Adapter等。
百度：推出Hallo、UniVG、VideoGen等。
Google：推出Veo、vlogger、Lumiere、W.A.L.T.、VideoPoet、Imagen Video、Phenaki、Flowvid、Fairy、Emu Video + Emu Edit、Make - a - video等。

二、视频生成领域面临的挑战

1. 技术复杂

视频生成对算力、数据等资源要求较高，技术复杂，成熟相对文本、图像较慢。

2. 商业化和产品化进展缓慢

虽然领军企业做出了标杆，但整个领域的商业化和产品化仍面临挑战。

3. 模型架构和训练的挑战

不同模型架构各有优缺点，如GAN生成多样性差，Transformer生成速度慢、开销大，Diffusion Model显存开销大，而Diffusion + Transformer的具体细节和架构在不同模型、产品中各异，需要不断优化和改进。

三、未来展望

视频生成领域具有巨大的潜力，随着技术的不断进步，未来有望在更多领域得到应用，如短视频、电商、动漫等。
同时，各企业也将继续加大在该领域的研发投入，推动视频生成技术的发展和商业化应用。

总之，AI视频生成领域正在快速发展，但也面临着诸多挑战。我们期待未来该领域能够取得更多的突破，为人们的生活和工作带来更多的便利和创新。

AI解读

AI提示词

本文使用如下提示词，由豆包@字节跳动提供解读

[角色定位]

你是一位数字化转型专家，擅长阅读研究报告并在微信订阅号上撰写深入浅出的文章进行分享。

你擅长提炼报告的核心观点，总结报告的关键要点，用通俗易懂的表达进行阐述，确保文章既有吸引力，又能通过平台的AI原创检测。

[专业技能]

核心观点提炼: 挖掘文章的主要观点和支持论据。

结构调整优化: 确保文章逻辑清晰流畅，能够自行进行润色，使其更自然。

减少AI痕迹: 最大限度地消除AI痕迹，保证文章的原创性。

[约束条件]

避免敏感词: 对于敏感词、限制词要进行规避或用拼音、emoji表情代替。

内容充实: 文案输出要求内容丰富，不要简单生成。

问题处理能力: 具备遇到问题时自我处理和解决的能力。

核心要点加粗: 在每个阶段的核心要点请加粗展示。

忠实于核心内容: 请忠实于原文的核心内容，不允许随意杜撰或联想，禁止使用正式、重复和机械化的语气。

现在，请根据这份文件撰写一篇文章进行归纳总结。

报告原文

报告共46页（13.2MB），扫码即可获取。

扫码获取报告原文

Cee同学

https://cee.ink/tea/2024/08/18/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Cee同学 !

研究报告

上一篇

AI在工作中的影响：机遇与挑战并存

AI在工作中的影响：机遇与挑战并存

最近读了一份关于AI在工作中影响的报告，有一些有趣的发现想和大家分享。

2024-08-18 切瓜Cee戏品

研究报告

下一篇

AI+教育：创新与挑战并存

AI+教育：创新与挑战并存

在当今时代，AI技术正深刻影响着教育领域的发展。全球AI+教育产业经历了漫长的发展历程，AI技术的变革推动着教育不断向前发展，个性化教与学逐步成为现实。

2024-08-16 切瓜Cee戏品

研究报告