以假乱真？AI数字人+外语学习功能让用户“相见恨晚”

VR陀螺 2023-11-20 10:01:05

一项技术能否发挥自身价值和作用，很大程度取决于它在应用场景的选择。现在，AI大模型在各行各业得以应用，如今更是将战场延伸到了教育领域中的口语学习板块。

当喜欢的外语片段可以通过AI生成贴近原声且准确的对口型翻译，或与AI数字人进行一对一对话和外语口语练习，面部表情生动而真实，如此具有真实感的AI，能成为用户在学习方面的强力助手吗？

一、完全对口型翻译？HeyGen平台让AI数字人更生动

近段时间，小红书博主“johnhuu 教英语”发布的一条视频引起海内外的社交媒体纷纷刷屏转发。

视频中将泰勒·斯威夫特、艾玛·沃特森和“憨豆先生”的演员罗温·艾金森的原声视频通过AI技术翻译内容并转化成与本人声音相似的普通话，并同步修改口型生成新的视频。

除了英文原声转中文，博主还反过来，使用蔡明的讲话片段实现了流畅的中文转英文。生成后的视频的仿真程度令人震惊，没有传统译制片配音的腔调，声音也很“贴脸”，更像是本人在用中文说话。

也有网友表示了对AI技术仿真程度越来越高且难以辨别的担忧，博主表示“目前也不是一键搞定的事情，分好几个步骤，翻译，声音克隆和换嘴，每一个步骤都要做到到顶尖才能够毫无破绽。”

在HeyGen的官方X（原推特）转发上，也能看到不少使用HeyGen实现八国语言流畅切换的案例。

多数网友表示：普遍感觉翻译基本准确，但细节仍需要根据上下文进行细微调整；目前更像是“直译”而不是“本地化翻译”，但已经足够理解视频所述内容。尽管如此，网友们还是扒到了拥有如此精细的“AI对口型”能力的视频生成工具HeyGen，其背后的公司是一家总部位于深圳的AI内容生产系统开发商，诗云科技。

据了解，诗云科技的联合创始人兼CEO徐卓（Joshua Xu），硕士毕业于卡内基梅隆大学计算机专业，本科毕业于同济大学自动化专业，是Snapchat前100号员工（2014 – 2020）、广告事业部No.2工程师，核心技术Leader；曾在6年间从0到1搭建Snapchat广告平台、推荐算法系统以及机器学习平台Barista（百亿级数据）, 并负责AI Camera的技术及产品研发。

产品经理，产品经理网站

图源：X（原推特）

他认为：“视频翻译对于YouTube用户和教育部门来说有着关键作用。试想一下：打破语言障碍能让全世界的人都可以访问视频内容，而不仅仅是那10%的英语用户……但如果有这样一个平台，每段视频都可以用任何语言观看，而且像母语一样流畅呢？这不仅仅是一个翻译功能，而是一种新的内容消费模式。语言人工智能只是一个起点。一旦我们做到了这一点，个性化和增强用户体验的可能性几乎是无穷无尽的。这不仅能重新定义内容消费方式，还能重新定义内容的创建和盈利方式。”

在HeyGen平台，宣称可以提供一键式视频生成AI工具，以低成本的方式（不用昂贵的拍摄设备、演员、复杂的剪辑工具和第三方剪辑团队）仅需通过三个步骤即可生成一条数字人视频。

陀螺君也尝试用HeyGen平台生成数字人视频。（以下HeyGen平台截图为免费试用版界面）

第一步，从平台中134个AI形象进行选择或上传自己的照片形象。

图源：HeyGen

第二步，从40多种语言中根据性别和视频场景（包括产品/内容营销、培训学习等）选择不同声线的语音，也可以选择上传自己的一段录音进行克隆。

图源：HeyGen

第三步，通过内置GPT4脚本编写器修改文本或翻译内容，最终导出AI数字人视频（在几分钟不到的时间内即可生成一条十几秒的视频）。

图源：HeyGen

通过官方提供的素材模板和AI形象陀螺君导出了一条视频，AI数字人的口型动作都非常自然，HeyGen平台也支持GPT4接入，一定程度上节约了构想文案的时间。

然而GPT4脚本编写器的翻译成中文容易出现“重复的废话”，缩写后也不够流畅，需要人工校对，也正如上文小红书的博主所述，要让AI完全摒弃“人工”这一环节，实现“自动化”产出视频目前不大可能，每一个环节都还需要在细节上进行调整。

HeyGen用到的AI技术（图源：X）

即便如此，这样的AI数字人视频生成工具将生活记录、课堂记录、演讲片段等视频转化成各种语言的版本，实现无语言障碍的流畅观看，已经能够满足人们在日常生活中的使用。

二、社恐福音，AI数字人开始成为外语学习“陪练”

生成式AI的流行带火了AI数字人，其以迅雷不及掩耳之势，袭卷业务助手、直播带货、教育培训、虚拟陪伴等各个领域。相关阅读：《30天揽金5千万，AI数字人能否成为普通人的「财富密码」？》

无论是应试、留学、去外企工作还是提高个人能力，通常情况下，倘若要学习一门外语，日常生活中需要保证一定程度的“听说读写”训练。

网络上也有不少的经验总结分享，例如学习英语：配合外语学习APP，多看感兴趣的全英文外语视频，最好不看字幕；用自己的语言翻译自己看到或听到的内容，也包括书籍/新闻；只有输入没有输出还不行，最重要的口语练习不能忽视。

产品经理，产品经理网站

图源：小红书

然而不少人对使用外语进行对话感到害怕，既难以开口怕说错话，也不敢表达出自己的意思……久而久之，使用线上聊天的社交应用或在小红书找口语“搭子”成为了新的练习口语方式。

如今，AI数字人也开始在口语教学领域占得一席地位。这些AI数字人形象各异，全天候在线，打开聊天窗口就能开始交流。基于对话式AI和LLM大语言模型的能力再结合语音识别和生动的虚拟图像不仅能提供口语表达反馈，纠正语法错误，不同类型的AI数字人还能在不同领域带来有趣的讨论。

从左到右分别是《Call Annie》《Call Ella》和《Hi Echo》（图源：网络）

其中最受关注的AI数字人之一是《Call Annie》，该应用由Animato.Ai开发，目前仅适用于iOS 16及以上版本进行视频聊天（除了能直接拨号进行虚拟电话聊天，还可在网页进行网络语音聊天），其背后的技术模型为ChatGPT，相当于将ChatGPT拟人化，更像是在进行真人视频对话。

另外两款AI数字人应用《Call Ella》和《Hi Echo》均是国内“类《Call Annie》”的AI智能外教程序。《Call Ella》由K12英语智能教育服务品牌“去上学”提供，而《Hi Echo》则由网易有道推出，搭载其教育大模型“子曰”。两款AI数字人应用同样拥有实时互动、语法纠错、评分和话题切换等功能。

体验下来，要实现正常的交流并不困难，如果要解锁定制化服务则需要付费，只是还做不到能像《Call Annie》那样侃侃而谈的程度，面部表情和语音口型的变化速度稍慢一些，比起《Call Annie》，在英语学习方面，《Call Ella》和《Hi Echo》的定位更加清晰。

这种形式的教学方式也可以更好地模拟真实的教学过程，感觉像是和真实的老师进行交流，如此一来，口语练习的对话环境问题能够得到解决，学生也不会再有太多顾虑。

三、改变教育模式，AI数字人+大模型再上新台阶

AI技术的普及也在改变传统的教育模式，而AI大模型正在成为教育类智能终端以及软件应用的一项重要标配。

IDC预计，到2027年中国教育学习市场将超1500亿美元，AI成为重要竞争力。

图源：IDC

此前AI功能仅作为教育软硬件的亮点辅助功能，为学生提供AI拍照搜题、AI翻译以及AI作业批改等支持，而AI大模型与教育有着高度适配的能力，具有了多语言理解、文本生成、智能问答、等功能后，此前的AI能力不仅得到提升，还让教学模式更加生动和智能化。

今年5月以来，多家公司公布了教育领域的AI大模型及教育产品，包括上文提到的网易有道AI外教，科大讯飞在今年5月推出了星火认知大模型+AI学习机，作业帮于9月发布自研银河大模型，将应用到旗下APP在内的多项业务场景。

10月，读书郎也发布了读书郎教育大模型及其AI学习机，另一边，2023百度世界大会上，百度发布了基于文心一言4.0技术的小度青禾学习一体机。

在不到半年的时间内，搭载AI大模型的学习机教育产品就已经十分“内卷”。而AI数字人，又能对未来的教育带来怎样的影响？

图源：央视网

10月31日，2023杭州云栖大会在杭州市西湖区云栖小镇开幕。据悉现场展示了多项AI大模型领域研究成果和行业模型应用。无论是阿里通义实验室的大语言模型“通义千问”，杭州亚运会开幕式上出现的“数字火炬手”，还是展会现场能够与观众吟诗作对的“少年李白”数字人，都进一步证明了以AI大模型为支撑的AI数字人，正在改变知识文化的交流方式。

就像学音乐，有条件的最好跟从名师，但名师也十分稀缺，在同时面对多数学生的情况下，无法做到一对一教学，而AI大模型的加持降低了优秀教学资源的使用门槛，让普通学生也能得到进一步的练习。

但现阶段的AI大模型受限于训练数据的量级和一些错误性信息的影响，可能仍会输出不准确的回答，而教育对内容信息有着非常严谨且科学的高要求，这对所有的AI大模型来说，都是巨大的考验。带有AI大模型的教育产品能否让家长接受，让学生用得好，还需要市场的进一步验证。

作为一项新兴的技术，AI的潜力得以放大，搭配日益成熟的数字人技术，在未来或能带起新的一轮教育行业的变革。

作者：豌豆

来源公众号：VR陀螺（ID：vrtuoluo），XR行业垂直媒体，关注VR/AR的头部产业服务平台。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！