智能剪辑功能调研报告：详解抖音的音乐卡点模式

岳小鱼 2023-07-24 10:23:33

01 调研背景

1. 什么是智能剪辑？

传统的视频剪辑，需要人工进行大量后期处理工作，包括手动剪辑、拼接、选择音乐、增加转场、调色、字幕等，门槛较高，且耗时费力。

而智能剪辑则使得整个剪辑过程更加智能化、标准化、简单化，可显著降低创作门槛，提升普通创作者的创作意愿和创作能力。

市面上主流短视频产品已经普遍开发了智能剪辑功能，其中核心优化了以下三个关键环节：

（1）判断素材的类型，智能组合剪辑；

（2）智能匹配音乐，结合智能剪辑，可生成音乐卡点视频；

（3）智能增加动效，包括转场、特效、滤镜等丰富效果。

2. 为什么要做智能剪辑？

先上结论：智能剪辑功能可以有效降低普通用户的生产门槛，帮助用户进行低成本地剪辑。

首先，说一下为什么主流的短视频产品中有智能剪辑功能，而制作长视频的专业剪辑软件基本没有这个功能。

一是因为用户的正向选择，使用专业剪辑软件的用户整体上有一定的制作能力，而日常使用短视频APP用户的制作能力普遍偏低，更适合使用轻量的智能剪辑功能。

二是载体本身的原因，长视频更多是叙事结构，适合讲故事，前后逻辑关系紧密，需要结合人的思考和创意，而机器智能暂时无法通过声音、文字、图像等素材理解其逻辑。

但是短视频则要自由得多，偏个人向主题的也较多，比如自拍、旅游、美食等等，不需要复杂的剪辑。

其次，再看一下智能剪辑功能对短视频产品本身的收益。

对短视频产品来说，绝大部分用户是消费者，只有少部分用户是生产者，消费者们会去消费生产者们创作的内容，消费者们虽然有一定的创作意愿，但创作能力较弱，消费者转变为生产者的成本也较高。

即便是UGC生态的短视频产品，也会逐渐从UGC发展为PGC，中间态就是所谓的UPGC。

在这个过程中，大量普通用户生产的低质量、低价值内容会被筛选掉，而专业用户生产的高质量、高价值内容会获得更多曝光，到最后，我们在短视频产品中看到的就基本是专业用户生产的内容了。

那为什么还要做针对普通消费者或者说尾部生产者的智能剪辑呢？

因为普通用户依旧存在生产需求，有一定的生产意愿，会拍摄旅游、美食或者记录重要的生活事件等等，而制作视频后常常会发布在朋友圈、微博、抖音、快手等社交网络中，或者直接分享给自己的家人朋友。

也就是说生产视频需求的背后，本质是社交需求。

这和消费视频完全是两个逻辑，帮助头部创作者进行生产，是为了普通消费者有内容可看，但激励并帮助普通用户生产内容，则是促进用户使用产品的一个重要手段，同时可以丰富UGC生态，最终涌现出专业生产者。

总结一下：

（1）目标用户：尾部生产者，典型特征是低粉、无固定创作主题、作品偏个人向。

（2）使用场景：拍摄旅游、美食或者记录重要的生活事件后，想要做一个短视频分享到自己的社交网络，但是专业的视频剪辑软件太复杂，不太会用，也没有时间去琢磨。

（3）满足需求：表面满足了小白化制作短视频的需求，本质是满足了社交需求、炫耀心理。

02 调研目标

了解市面竞品智能剪辑功能的优劣，并结合实际的业务场景与技术能力，输出可落地的产品方案。

03 调研详情

1. 竞品速览

头部竞品：抖音、快手

腰部竞品：微视、VUE、美拍、小影

跨域竞品：大疆、Quik

产品经理，产品经理网站

根据上表的概览，会发现【智能剪辑】功能的核心要素有三个：剪裁、音乐和视觉。

首先，算法会对素材内容进行分析，识别素材的场景，然后匹配对应的音乐和动效。

每个音乐都会有相应的节拍点，根据节拍点，会对每段素材剪裁为一定的播放长度，然后拼接在一起。

这里会出现另一个问题，就是怎么找到每段素材中的高质量精彩片段？

因此也需要借助算法，识别和筛选素材中的精彩片段进行合理剪裁。

而视觉效果包括转场特效、画面装饰、滤镜、贴纸等，也需要识别素材的对应场景进行匹配。

通过上述的分析会发现，根据剪裁、音乐、动效三者之间的关系，市面上主流的【智能剪裁】功能的模式有三种：

（1）【音乐可选+无动效】：音乐根据素材进行匹配和推荐，可手动切换，素材会根据音乐再次剪裁，无转场、页面装饰等视觉效果，典型代表是抖音；

（2）【音乐固定+动效固定】：音乐和动效绑定，两者都是固定的，不能组合，也就是集成为“模板”，每个模板的剪裁也是固定的，此时需要用户自己手动选择模板，典型代表是微视；

（3）【音乐可选+动效可选】：音乐根据素材进行匹配和推荐，可手动切换，素材会根据音乐再次剪裁，同时转场、页面装饰等视觉效果集成为统一风格的“主题”，可进行切换，典型代表是快手和VUE。

2. 核心竞品详述

根据以上分析，音乐智能匹配和视频精彩片段智能选取，这两个关键环节主要依靠算法解决，对于用户而言相当于黑盒。

而另一个关键点，怎么依靠音乐节拍点划分素材的长度，则有规律可循，因此，下文将针对抖音的音乐卡点模式进行简单实验，推测其智能剪裁规则。

产品经理，产品经理网站

整体分为三个环节：导入素材、制作流程、发布。

导入素材：可同时导入图片和视频，素材总数的上限是35。

制作流程：默认音乐卡点模式，会根据匹配的音乐，对素材进行裁剪，也可以手动调整素材片段的顺序，但是因为每个音乐的卡点位置是固定的，因此每个素材片段剪裁的长度也是固定的，只能调整每段素材剪裁的位置。

举个例子，我上传了4段视频，基于匹配的音乐自动剪裁后，4段素材分别的长度为：5.6s、4.4s、4.4s、5.6s。

现在我将第4段素材（有人像）的位置从第4个位置移动到第2个位置，然后第4段视频（有人像）的长度从5.6s转变为4.4s，也就是说根据素材的数量会计算音乐卡点的位置，分配相同数量的位置，每个位置的长度是固定的。

产品经理，产品经理网站

接下来，将通过简单实验，归纳总结其裁剪规则。

产品经理，产品经理网站

在此次简单实验中，通过将素材总时长逐渐增加，从3秒到890秒，我们可以看到以下规律：

（1）素材数量>=2时，才能进入【音乐卡点】模式；

（2）素材总时长30秒左右是临界点

总时长在30秒以下的素材，裁剪后保留的比例为55%~60%；
总时长在30秒以上、50秒以下的素材，裁剪后保留的时长逐渐贴近20秒，保留的时长不再有大幅的增加；
总时长在50秒以下的素材，裁剪后保留的时长稳定在20秒左右，因此保留的比例会迅速下跌；

（3）抖音导入素材的限制是，每段素材必须大于1秒，且素材的总数量不能超过35个；

通过实验可以看到，剪裁后的总时长上限为20秒，在最多35段素材的情况下，平均每段素材剪裁后的长度为0.57秒，因此可见”35“基本接近了维持视频最终效果的极限，素材数量再增多，将会影响视频效果；
随着素材数量和素材时长的增加，每段素材剪裁后的时长将逐渐接近1秒，直至1秒以下，因此需要限制每段素材必须大于1秒。