虚拟数字人的应用和观察
生成式AI的技术让虚拟数字人不仅仅只有系统设置好的能力,更可以具备“灵魂”。
如何让虚拟人有生命力和有影响力,是未来行进的方向。
21年我关注这方面的时候,大部分还是处于电影特效环节,一个真人需要穿一些专业的动捕设备,然后需要设计同学进行大量的人工建模和绑定;
23年年底到现在我再次对这个行业的现状进行了一些摸索,发现确实有了惊人的迭代。
刚开始还是处于应用本身的更新,22年我有次在广州一个展会上看到了做数字人直播的SaaS公司,印象非常清楚,当时还询价,大概是8000/人/月;而且其他的展位都是有商品的,只有这家放了ppt,而且连海报都还没有,只是一个黑白A4纸,打印的产品说明。
当时这家公司的人还是一些“假人”建模出来的,并且音和形的拟合度也非常低。
整体观看,非常假。
但是时日至今,现在确实能够够看到一些还不错的数字人。
一、虚拟数字人的几个常见应用
1. 虚拟偶像
产出一些音乐、小短剧、照片等,主体基本由公司进行运营,在各大社交平台进行圈粉。
商业化变现路径:粉丝经济
代表作:洛天依(二次元音乐)
柳夜熙(剧情)
2. 虚拟主播
播音主持专业赛道,对新闻、综艺等进行专业的主持;也有在抖音小红书代替真人出镜,呈现内容;
商业化的变现路径:节省人力 资本价值
代表人物:央视的主播小C
3. 数字员工
服务于企业,多有IP属性、品牌代言和跨界属性,带来一些“噱头”,视觉效果加持,提供一些客服能力。
商业化路径:品牌价值、资本价值
代表人物:百信银行的员工AIya
4. 虚拟导游
服务于各地的文旅局,作为旅游IP的特性进行呈现;现在这这两年的商业化路径看起来还不错。
古人现代化呈现(虚拟李白)
商业化路径:代言人、AI概念加持
代表人物:刘三姐
5. 数字分身
概念:大多数是对现实生活中的人提供一个第二数字分身进行呈现,比如现在的老黄,主要是作为公司的代表作进行呈现,比如最近的刘强东直播、黄仁勋数字分身。
二、技术方案
实现路径:造个虚拟人出来–>能表达(说话不假)—>能够产生交互(能回复问题)
最原始的状态:动捕设备 手工渲染
现在的方案:
1. 人怎么造出来
- 手动建模:通过unity3D.c4d等等都可以建模(原始)
- AI绘画的技术:
- 文生图通过文生图的形式,构建一个人(通过
- AI换脸通过真人图像转虚拟人的形式(比如抖音的一些头像、写实画像转二次元、妙鸭..)
2. 人怎么动
真人驱动:通过动作捕捉设备进行关联,记录动作坐标;
代码驱动:对生成的数字人模型进行骨骼、表情的绑定以实现后续驱动;
智能驱动:通过动作的描述、口型、表情,等等,自动进行有动作流的绑定与生成。
3. 声音拟合
这里就像是我给一个视频配音,如何提高精准度,这里大家应该都感受过,需要一直不断地拉大视频的帧,这样才能对的更整齐
但是这里还有一个问题,我们还需要让这个人的口型和语音对上,这个其实就是一个技术难点了(比如前几年电视剧的后期配音大家是非常能明显的感觉到区别)
过去的做法,是我需要人工把人物模型说话的模型建模渲染出来,然后让语音对齐这个口型;
口型动画生成技术:现在的技术已经攻克了口型和语音的自动拟合,能够实现我通过语音驱动这个人物模型的口型;
但是坦白讲,随着语言而变动表情和语气,这个点,确实现在还没有看到,或许也是成本太高了,一时半会不太能呈现出来。
4. 如何产生交互?
对话这件事情,现在已经有了生成式大模型、知识库,对于信息的输入和赋予灵魂的输出,这件事情,倒不是技术困境了,阻力核心还是集中在,如何结合多模态让人类感知到这个“数字人”真实性。
三、未来来商业化的方式(个人思考)
1. 电商的应用场景,真实度提升的那一刻,虚拟主播会逐步进入大家的世界
现在能看到的一些数字人直播间还是非常初级的阶段,大多还是基础的实现口播,在情绪和问答数据交互上存在一些瓶颈,但是这些是可以通过现有的模型技术进行解决的,相信很快会有大的厂商在这里解决这里的技术问题
- 在一些大厂的基础商铺会首批上线,比如集团下的多个化妆品品牌等等;
- 一些本地生活的连锁门店的直播间,交互范围有限,且需要靠抖音直播的时长来转化优惠券和流量的;
四、文旅行业会快速落地
现在各地的文旅局,都在推进AI的应用,不管是博物馆的ar眼镜还是一些全息投影叠加AI人物的生成
导览数字人、代言人,这些都可以快速提升游客的感官体验。并且在这个场合中,“假”并不会被过度放大。
eg:上次在山东省博物馆和河南省博物院,都有看到类似的应用,通过ai的方式展现了京杭大运河当前的开凿和状况;还有李白杜甫这些诗人的经历,都有通过虚拟人 生成式视频 现场交互的方式,给游客带来较好的体感
助手数字人化
日常大家会使用siri和小爱同学等等的语音对话助手,但是这里的siri是一个同样的siri,而且只是语音
如果现在你可以真实的构建一个数字人助手,可以yy一下,我可以线上设定他参数,比如我希望他是boy or girl ,语气是怎么样的,学历背景和工作履历是如何的,从一维二维的对话,走向三维的视频,同时再结合一些VR眼镜等等硬件,可以在特定的环境实现真实对话。。纯yy暂无一些资料表明。
五、国内的一些商业化方案
1. 单一IP的定制化方案
- 强定制化品牌形象的数字人:央视电视台主播、政务IP
- 卖捏好的人(SaaS方案)-for电商直播(百度的智能云)
- 软硬件一体化方案-for电商(讯飞)
- 重点发力重视数字人直播赛道
会员制,卖时长和做好的视频–For内容制作者(云平台)如影
数字员工解决方案(小冰)
六、技术困境
1. 生动性:包括最近大家看到的刘强东京东直播,都是非常死板,没有“人味”
虽然解决了口型的问题,但是对于情绪和表情上,还是没有办法进行通用的商业化,这里在未来的一段时间必然是攻克的瓶颈。
2. 算力:大模型的通病了,如何降本,让这件事情走进千家万户
版权声明
本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符,请点击 举报 进行投诉反馈!