交互型数字人发展现状

乐活小宇宙 2024-03-07 09:22:46

交互型数字人是指能与人类进行实时交互对话的数字人，可以作为智能客服，解答业务问题或者办理业务，推荐产品。中国电信app首页的AI筱翼，是一种常见的数字人智能客服，电信掌上营业厅功能很多，部分功能不容易找到，通过数字人语音交互可以直达业务页面。talkie对话界面也有一个形象，但是形象在对话中一直是静态的，不属于交互型数字人。

一、交互型数字人基本原理

可交互的数字人，主要原理是先通过照片或视频生成数字人，对话时通过asr识别用户输入的问题，然后问题被发送给数字人大脑（传统bot知识库或大模型）获取答案，再通过tts将答案转换成音频，通过音频驱动数字人的唇部和面部，形成数字人说话视频，实现真人与数字人的对话。

数字人的驱动能力包括唇部，面部表情和肢体动作。通过音频驱动数字人唇部和面部变化，唇形准确率现在都比较高，数字人说话时口型和音频能对上，口型不细看基本没有破绽。数字人的肢体动作来源于提前制作好的动作库。制作数字人形象时，可以定制常用的动作，比如点赞、比心、手势引导等动作，将动作和数字人说话内容做好关联，数字人说话时就会触发这些动作，肢体动作和面部表情使数字人说话时更接近人类，更自然。2D真人数字人和3D数字人都可以实现实时对话，但两者在数字人制作渲染、推理方面，是完全不同的技术路径。

二、客户群体

整个交互型数字人行业的服务对象，目前还是to B大客户，主要为银行/证券/保险/运营商/政务行业等客户提供解决方案，最终的落地形式有嵌入手机app，或线下大屏。目前数字人客服的渗透率还不高，即便金融行业大公司也还处于数字人应用的探索和试点阶段。

在生活中我们能体验到的，有中国电信app上的AI筱翼，部分城市比如深圳的一些地铁站有数字人大屏，承担真人客服的功能，银行线下网点的大屏数字人大堂经理。项目价格一般可达百万级，市场上有数字人制作/驱动/NLP和语音全链路能力的厂商不多，落地一般由多家厂商参与完成。

这次大模型的春风也刮到了数字人领域，在大模型的应用畅想中，C端一般会提到用数字人作为个人智能助手或者数字人陪伴聊天，但是可交互的数字人目前价格至少几万，加上缺少实际场景，所以市场上to C的数字人产品很少。来画出品的AI相框是少见的to C数字人，本质是提供数字人形象和声音定制服务，通过一张照片生成数字人，以相框作为数字人的硬件载体，实现实时对话。

交互型数字人发展现状

图片来源于网络

三、行业现状和挑战

根据某研究机构的公开数据，2022年整个数字人行业的市场规模将近百亿，预计2025年将达到500亿左右。个人推测交互型数字人目前的市场规模数十亿。

1、数字人智能客服对客户的真实价值有待检验。

目前数字人客服对客户来说，属于锦上添花，有时只是一个噱头，还不能替代真人客服降本增效。数字人是一个交互入口，真正能为客户解决的实际问题有限。

在业务咨询场景，传统的NLP只能进行封闭域对话，被调侃为人工智障；现在基于大模型和本地知识库，涉及业务问题基于提供的知识库回答，非业务问题用大模型回答，数字人确实智能了不少，但幻觉问题并未完全解决，部分敏感场合如果编造答案，对企业有较大的负面影响。而在业务办理场景，不论是之前的文本智能客服，还是现在的数字人客服，基本没有办理复杂业务的能力。

2、实时交互成本高

客服场景一般使用真人数字人，需要云端渲染，每次回答都需要实时生成一个视频，再结合实际客服的高并发场景，导致实时交互消耗的服务器资源多，交互成本高。

3、数字人的表现力，跟真人相比比较生硬。

当前数字人表情和动作，2D真人类型的靠录制，没录制过的表情和动作数字人不会做。3D类型的靠动画师手动制作，生动性依赖动画师的专业水平，手动制作高质量的动作需要的时间长。有限的动作和表情，让数字人在播报大量内容时，显得动作重复单调，缺乏情感。

好消息是大模型在视频生成上不断进步突破。阿里最新的emo模型效果看起来很经验，可以根据音频，直接生成头部运动自然，和面部表情自然的说话视频。这一新技术的应用，可以显著提升数字人对话时的自然程度，解决数字人表现生硬的问题。非常期待能尽快应用到数字人领域。