AI视频生成的场景痛点及产品功能设想(7000字)
本文分四个部分:
- 核心用户画像、场景及痛点需求分析
- (重点)视频生成产品的功能形态设想:从C端普通用户、C端专业用户及B端用户(以电商广告为例)三方面,分别阐述P0和P1级功能思考
- 视频生成产品中,AI产品经理的价值及核心工作是什么
- “广告营销类”AI视频生成产品mapping汇总(含优劣势分析及优秀视频案例捕捉)
核心观点包括:
- 激发AI视频长期需求:目标用户应关注原本不拍、不剪视频的普通大众。在短剧、生活记录类视频的基础上,利用AI制作动效,可能是AI视频的长期需求。
- Tob广告营销类视频:包含视频素材生成、端到端视频生成两类,重点在于设计好Agent工作流,并针对不同产品品类训练、调优模型。
- 优先将常用功能做出差异:先开发、优化常用功能,做出差异化亮点(如对口型、人物一致性),再融入其他功能,最终覆盖完整视频创作流程。
- AI视频新奇玩法模块化:封装AI视频新奇玩法为单个功能,如老照片动效功能、续写梗图剧情功能。用Agent工作流来增加视频成功的概率,并在功能上增加用户引导。
一、视频生成产品的用户、使用场景及需求
1.1 C端用户
普通用户
低制作门槛:无专业剪辑知识,也不愿花大量时间成本学。
满足猎奇心理:制作趣味视频(如老照片动效),分享给家人、朋友。
专业视频制作师
创意需要:对视频质量有较高要求,希望AI能激发创意。
提效需求:交付有截止日期,希望AI能在保证质量的前提下,加速视频制作。
合规性和版权问题:广告视频需遵守严格的合规要求,特别是素材版权问题。
1.2 B端用户(以电商广告用户为例)
用户画像:理解业务需求,清楚需要的内容样式。但不擅长制作精美的视频,核心关注视频的转化效果。
用户需求:
预算限制:传统视频拍摄和制作成本高,视频制作有预算额度。
内容质量高:需能展示产品卖点、符合品牌营销策略,还需具备传播性和营销效果。
快速大量生产:需要在短时间内制作、测试不同风格的视频。例如:美国的黑五期间,店家可能需要上千条视频素材,而传统视频制作流程复杂,难快速大量生产。
二、个人对AI视频产品形态的思考
2.1 针对C端普通用户
普通用户对AI视频的消费需求,可能带来AIGC内容平台型机会(类抖音),但现实情况是:针对短期猎奇需求,大部分用户没用起来。很多人更愿付费购买“老照片动效成品”,而不是自己使用即梦、Runway等工具。
长期来看,用户对AI视频容易失去新鲜感。当前AI视频更多像动态PPT,镜头间不够连贯,质量不如生活实拍效果,更难与影视类的作品相比。用户更想看的是优质的、记录生活的,能引起情感共鸣的内容。
如何破局?
第一阶段:让普通用户,方便的用起来AI新奇功能(类似老照片动效),对应功能P0-1、2、3。
第二阶段:激发、满足长期需求,让用AI辅助视频创作成为长期现状,对应功能P0-4。
普通用户难用起来的原因:
- 缺乏基础了解:不清楚AI能力,觉得复杂高深,没有很强的尝试意愿。
- 不了解AI本质是预测和概率:有的用户试了一次效果不理想,就觉得功能不行,不再使用。
- 现有产品功能有使用门槛:视频生成Prompt撰写,AI精准生图,视频可控性功能(如首尾帧、动态笔刷)都有一定的学习成本。产品大多也要付费、申请内测等。
解决方案
核心是给予用户引导及例子。从Prompt扩写、功能模块化、给例子促灵感三个角度考虑。
整体思路优先开发技术较为成熟,但仍需改进的功能,做出差异化亮点(如对口型和人物一致性),再融入其他功能,最终覆盖完整视频创作流程。
P0级功能设想
P0-1:Prompt模板化、提供扩写
背景:不同产品推荐的Prompt格式和支持的内容不完全一致。例如,都支持风格描述,但支持的具体风格不同,这可能是由训练视频的文本描述格式不一致导致。
具体功能:在产品里内嵌Prompt模板或提供Prompt扩写功能。用户只需填空,例如【主体】+【动作描述】+【环境背景】+【风格】+【画面质量】。每项给出产品支持的种类及含义,如风格选项及效果演示。如下实例嵌入产品中:
AI对完成prompt扩写并生成视频后,用户如不满意,可选择让AI在保持用户输入主体上,多次随机生成完整prompt,并提供视频效果。用户可再做二次加工。
作用:降低用户使用门槛。用户有时只对于画面主体有想法,但怎样演绎效果更好,可能需要AI通过多次扩写prompt给到灵感,充分挖掘视频生成能力。
P0-2:AI视频新奇玩法功能化
背景:用户对文生视频、图生视频这样的功能名词,感知不如「老照片互动」、「我来设计梗图后续剧情」这类具体能做什么的名词强。目前,用户往往需要搜索教程才会使用。
具体功能:
将AI视频新奇玩法封装为一个个功能。例如老照片动效、电视剧梗图(如容嬷嬷喂小燕子吃鸡腿)。用Agent工作流来增加视频成功的概率,并在功能上做用户引导,提醒用户可能需要多试几次、有合规风险等。
以老照片互动为例,通过人像抠图、背景融合等工作流节点,提升功能效果,给予用户操作教程指导,可能介绍哪些互动关键词,能让视频效果更好。
P0-3:灵感探索站
背景:仅有产品使用教程不够,用户需要更多案例来引导创作。
具体功能:提供大量新奇,好玩的素材样例。同时提供案例背后的模板,用户可直接套用,或在此基础上做二次创作。类似Morph studio的功能(下图)。
作用:完整故事的制作依旧比较复杂,二创相对容易很多。同时灵感探索站本身也可以是AIGC视频内容消费平台。
P0-4:AI辅助视频剪辑
背景:为避免用户过了新鲜劲后,就不再看AI视频的情况。找到并激发AI视频的长期需求很重要。应关注原本不拍、不剪视频的普通大众,因AI降低了操作难度而开始使用。用AI制作动效或视频图层,是可能存在的长期需求。
具体功能:AI制作动效或者视频图层
作用:实现目标用户的破圈,AI(虚拟)+现实视频的结合。既用到了AI视频能力,又满足了普通用户消费“真实生活内容”的需求。
P1级功能设想
P0的需求,核心目的是让普通用户能够用起来。而P1的需求,是能让普通用户觉得AI视频生成好用,实现可能还需技术进步。关于“好用”,我理解包括:功能多样明了(对应功能P1-1)、更简便的可控(对应功能P1-2)以及流程简化(对应功能P1-3)。
P1-1 融合多种视频技术
背景:当下AI视频技术种类繁多,例如数字人、对口型、表情控制、图+人跳舞、换脸、视频生成等。不同的技术对应不同产品、模型。但对于普通用户来说,可能会觉得都是视频。
具体功能:将多种AI视频技术融合到同一产品内,统一整合,用户提出需求后,引导用户具体使用某个功能。
P1-2 视频内容定向修改
通过输入Prompt调整视频内元素。每次用户输入修改指令后,跳出详细的Prompt让用户确认
除修改视频内人物、物体外,还可通过Prompt修改对话脚本,加上用克隆的原声重新配音及对口型等功能,类似Vozo。
现有的视频内容难以支持定向修改,往往一点效果不好就必须重新生成,导致视频抽卡的时间、算力成本高、整体体验不佳(可能受限于现用的 DIT – Diffusion Transformer 框架,视频是一次性完整生成的)
P1-3 视频端到端全自动生成
用户只需输入几个关键词(如故事主题、风格、剧情特色等),系统就能生成一个故事脚本。用户调整或确认脚本内容后,扩写每一幕场景Prompt。再生成视频,视频默认风格、人脸一致,人物对话、旁白有音效,且对好口型等。真正做到山姆奥特曼所说“电影变成了游戏”,技术上可能还有距离。
2.2 针对C端专业视频制作师
P0级功能设想
专业设计师、剪辑师,已有成熟的视频生产、剪辑工具,因此需要解决”专业设计师为何要用AI视频产品”的问题,在AI生成质量尚未达到非常高水平的背景下,关键词是“提效和可控”。
P0-1 更多细项常用功能:
例如风格、人脸保持一致,在当前视频制作工作流中,单个的视频只有几秒,为剧情连贯,需抽图实现人脸、风格一致。如能一键定义人脸、风格,能省不少时间。类似Pixverse V2的加场景功能(人像、风格一致性)以及MOKI的风格、角色选择功能。
其他常用功能有很多,例如视频内定向换脸,对口型功能,镜头平移但物体不变形等等,目的都是为了提效。
P0-2 更多内容元素可控:
除了上面内容元素可控外,还包括视频风格、运镜、帧率、清晰度、表情、背景、光影、图层、音频等等也可控,最终不需绿幕就能实现近似专业影视效果。
当前AI视频一大痛点是对物理世界的规律和Prompt的理解不足。增强视频的可控性,可一定程度上解决这些问题。同时也能帮助提效,避免频繁抽卡。视频各项元素越精细化可控,制作效率越高,专业制作人更可能使用。
这些常用功能看起来已有很多产品在做,但核心是做出差异化,有不同实现方法或者更好模型效果。在完成亮点功能的MVP后,再考虑其他P1级功能,逐步完善产品。例如,可控性方面,Runway做横纵斜方向的运动笔刷,Pixverse功能上支持以箭头设定运动方向,寻梦则预告实现对图层的控制。
另外,这些功能或许应从海外专业用户开始付费推广。当前AI生成视频产品有算力成本,而海外用户付费意愿较高,类似Midjourney、Pixverse等产品,优先在Discord版推出并收集用户反馈。先向海外专业用户推广,再相应调整定价策略、产品功能,更有助于实现正向ROI。
P1级功能设想
覆盖AI视频生成全流程:包括生成剧本-生成分镜表-生成图片提示词-挑选图片-图生视频-挑选视频-剪辑视频等等,用户可对每个步骤做进一步修改,例如分镜表中调整某一幕的运镜,视频效果也相应调整。
支持功能协作:允许多人对一条工作流进行加工,并提供权限控制。
素材管理、剪辑功能:便于组织和管理各类素材。支持强大的剪辑功能,类似剪映、Pr。
专业用户在生成完整视频作品时,需要大量视频相关工具(包括剧本生成、补帧、高清化等等),可以将这些功能融合进产品。
此外,一个大的作品背后是大量素材(图片、短片),以及多人的协作(P1-1、2)和专业的剪辑,需要素材管理和剪辑功能。
2.3 针对B端用户(以电商广告为例)
对于B端用户来说,视频创作效率与质量至关重要,视频需真实还原商品,体现商品卖点,符合品牌调性。然而,当前生成式视频在可控性、时长上存在短板,容易出现AI痕迹。商拍广告流量成本又较高。因此,普遍更多使用质量可控、能快速大量生成的数字人、混剪和相册类视频,较少使用Sora类视频生成。
ToB视频生成的核心内容包括“视频素材生成”以及“端到端视频生成”,核心都在于设计好Agent工作流,并针对不同产品类型训练和调优模型。
P0级功能设想
虽然视频生成技术还不成熟,但在tob领域也有应用,视频在吸引客户的效果上,很多时候比图片更好,但需要运动幅度小,时长短,效果可控。
动态微视频:将图生视频的能力固化为功能,用户可上传图片,生成动态微视频。
要实现这部分能力,需要更好的Prompt扩写功能及Agent工作流(融合好运动笔刷效果)。
端到端混剪视频生成:
通过用户提供的宣传关键点、图片、视频素材,生成相应的脚本文案、字幕、动效。工作流包括:产品亮点素材挖掘、配乐选择和模板选择等。例如试衣视频,涉及抠图、上身、更换背景、生成动效等步骤,根据商品类别提供多种混剪模板,生成凸显产品亮点的混剪视频。
需设计好Agent工作流,通过Agent来增加每个步骤的成功概率,可能需要对不同品类的商品,做定向模型训练。例如,介绍椅子时,先介绍面料、人体工学,从功能到整体,最后细节展示,而这套流程可能不适用于鞋类或衣服。
同时,需要根据用户反馈,持续迭代模型及产品。例如,针对衣服的宣传,如果褶皱飘动效果不自然,可能在调优模型时,需要补充优质的衣服褶皱、飘动数据。
P1级功能设想
后链路数据监控,记录不同视频内容带来的品牌增粉,下载,注册等。
产品能让视频附带营销关键信息,例如地理位置、留资链接等。
视频多账号管理,批量分发视频功能。
后链路数据的效果监控,以及让视频附带营销关键信息对转化非常重要。此外,商家和公司往往有多个自媒体账号,可能由不同员工负责,需有效管理这些账号,确保视频内容符合品牌调性。
三、在视频生成产品中,AI产品经理的价值及核心工作是什么
我认为核心工作是:找到在当前AI技术能力下,以前满足不了(或不够好),但今天能满足(或能更好)的功能点。具体包括:
找到限制条件下最优解
当前的一些视频功能,需要同时兼顾算力消耗、质量、用时三个维度,用户希望生成用时少的基础上,保持高质量。这需要产品经理做出取舍。
需求挖掘和功能设计
AI产品经理依旧需确定要实现什么功能,这个新的功能可能是由数据集、Agent工作流、RAG等等实现的。但更重要的是明确为什么要这个功能。一切以需求为核心,这也意味着,并不一定要完全AI来实现,更多应关注用户需求怎样能被更好的满足。
模型能力的提升
具体包括:(1)针对目标场景,清楚模型哪里还不够好 (2)清楚可以给技术侧,怎样的支持帮助调优
通过专业的视频评测方法,例如VBench,结合不同用途人群的反馈来调优模型。广告设计师、自媒体、影视设计师对视频模型能力,关注重点可能不同,包括:人物质量,动作连贯性,商品效果不佳(褶皱,摆动不自然)等。在确定最先应解决的问题后,才能针对提升模型效果。
识别到问题后,除和开发沟通算法架构的提升外,也需考虑训练数据的质量问题。比如训练数据里的Prompt没有描述清视频里的多主体,才导致多主体表现效果不佳。增补优质训练数据的同时,也考虑调优数据造、挖、洗这整一条数据加工流程。
四、“广告营销类”AI视频生成产品mapping汇总(含优劣势分析及优秀视频案例捕捉)
笔者汇总了在AI视频生成领域内的,广告营销相关的各种产品(37个),根据其核心功能和特性进行了分类,并做了优劣势分析。
这些产品的详细信息,笔者已整理成表格Excel
根据这些产品的核心功能,主要对以下4类:视频大模型、数字人、多种类AI视频组合、端到端解决方案,挑了部分产品在本文做简要介绍。
4.1 视频大模型
以Sora为典型代表,仅输入简单文字提示或者图片,就可通过模型生成视频,以下选取了在各项评测中,排名较高的产品。
4.1.1 Pixverse
核心功能包括:
多种生成方式:支持图生视频、文生视频、图+提示词生视频,适用于创作故事和制作广告。
动态笔刷:通过在图片上画箭头,用户可自定义物体移动方向。图生视频凭借类似功能,能实现比文生视频更好的稳定性。
风格设置:用户可选择视频风格,包括写实风格、动漫风格、3D风格等。
角色一致性控制:可通过上传角色的照片,较好的控制视频一致性。该功能对于影视类广告、剧情类广告效果很重要。
4.1.2 Pixeling千象
一款全中文、易上手的AIGC创作平台和社区。注重用户友好和简单操作,帮助用户零基础轻松使用一站式功能。核心功能包括:
文生视频、图生视频、运动幅度设置、视频横纵比设置、镜头控制等。
电商百宝箱(E象):提供了专门为电商设计功能组,包括商品视频模板和多种实用的电商图片处理工具。
4.2 多种类AI视频组合
4.2.1 布尔向量(BOOLV)
将出海、海外电商用户可能用到的许多功能,都集成到同一个产品上,提供从商品链接到视频生成,再到效果分析的全链路支持。
核心功能包括:
电商链接一键生成视频:用户可通过输入电商平台(如 Shopify、Amazon等)商品链接,快速生成相关视频。
多种视频生成方式:支持从图片、脚本、博客内容和模板生成视频,并提供视频增强功能。这里与视觉大模型不同点在于,布尔向量的成品更像是各类模板视频、移动相册图的排列组合。
提供方便简洁的视频剪辑工具。
提供视频效果分析工具,商家可凭借效果数据,更好的调整和优化视频内容。
产品优势
场景适配度高:BOOLV专门面向电商用户。模型本身对电商场景和品类做了微调,在功能上,覆盖了许多海外电商用户“生成营销内容场景”。
稳定性高:由于视频依赖于模板和图片轻微移动、镜头平移,布尔向量的视频稳定性和一致性更高。
形式多样:布尔向量和广州美院合作,制作了大量针对各类场景,有艺术气息的模板,并支持多种元素(如音乐、字幕、特效、贴纸)的组合,使得视频内容更加丰富有趣,效果不单一。
4.2.2 其他同类产品
Creatify:能够自动分析产品信息,并生成脚本。提供了多样化的语音选项和数字人。
特看:不仅提供视频制作功能,还包含视频效果数据监控和各类榜单(如达人榜、商品榜、视频榜、话题榜),商家可结合这些榜单效果,判断爆款商品、视频类型。此外,支持AI直播相关功能。
这类产品由于功能更加丰富,不局限于某一种技术路线。且覆盖了出海电商视频制作中各场景需求,使得电商视频制作效率大大提升。
4.3 数字人
Heygen
核心功能包括:
数字人克隆:用户可上传自己的声音和画面,来克隆一个数字化的自己。这使得个人和企业能快速生成与自身形象相符的数字人。
允许用户通过上传照片,或选择预设模板来生成数字人。支持语言翻译,保持口型一致。
优势:
操作简单快捷:技术相比视觉大模型来说更成熟,不需要许多后期剪辑技巧,用户可轻松创建适用各种场景的商业视频。
多语言支持和本地化:提供换语言及调整口型功能,有非常大的用户群体。本地化的内容对营销效果来说,可以极大的增加可信度和营销效果。
劣势:
产品价格高:生成1分钟的视频需要2美金。与传统拍摄方案相比,价格不算高。但由于算力消耗方面的考虑,HeyGen编辑视频的过程无法预览效果,用户在制作过程中需要反复调整,会重复支付费用。
AI感比较明显:虽然Heygen的产品能力在数字人领域,已处于领先的状态,但数字人技术的局限性依旧存在,视频不够生动、声音略机械、肢体动作较少、缺乏情感等等,长时间看到同类视频后,用户容易发现不是真人。对消费者来说形式依旧偏单一。
数字人类产品非常多,包括用D-ID、Elai、奇妙元等。总体而言,通过数字人技术,可较低成本的,短时间内制作出大量营销视频,如果视频中需要人做产品介绍,而商家自己又不想出镜,是可以大体满足需求的。
4.4 端到端解决方案
FancyTech
与其他同类产品的不同点在于,不提供视频生成工具,而是转向提供结果。FancyTech联合创始人Morgan表示,传统SaaS订阅费并不能免除提供商与客户持续互动的责任,这使得服务交付成为业务的重要组成部分,避免过多的产品定制化。
根据布尔向量CEO王庆描述:
“现有电商商家主要分为两类,一类用户是研发能力很弱,相对比较传统,但他们业务体量可能很大;第二类客户的话相对比较年轻,然后他们有比较好的研发能力。这两类客户商业模式不太一样。
针对第一类客户来说,他们更多是希望你能做交付。因为缺乏研发能力,做部署化 SaaS 和交付就会比较好。第二类客户会更加希望做共创。比如给到 API,在业务流的某一个环节给到支撑。
FancyTech类的服务,可以满足第一类客户的需求。我相信随着技术的不断升级,用户结合相应产品制作视频的成本不断降低,会有越来越多的第二类客户。
作者:黄钊hanniman前腾讯PM,11年AI经验,干货首发公众号hanniman
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!