「AI写网文」哪家强？测评结果居然是……

不知 2024-03-18 14:09:30

前面的文章里面我分享了一些运用AI辅助网文创作的思路，回答都是采用GPT4和文心一言两款大语言模型。其实现在市面上的大语言模型很多，对国内的网文作者来说，方便获取的产品除了文心一言，还有腾讯混元助手、阿里通义千问、讯飞星火等。

那么问题来了，面对这么多产品，哪一款在辅助网文创作方面的表现更好？今天我们就来测一测。我选择了5款产品对比，分别是GPT4、文心一言3.5、腾讯混元、通义千问、讯飞星火，其中国内产品的地址如下：

文心一言3.5：https://yiyan.baidu.com/
混元助手：https://hunyuan.tencent.com/bot/chat
通义千问：https://tongyi.aliyun.com/qianwen/
讯飞星火：https://xinghuo.xfyun.cn/

一、测评说明

既然要测评写网文的效果，首先我们就需要明确，评价效果的维度和标准是什么？此次测评的思路如下：

写网文大致可以分为创意、大纲、人物、行文四个方面，所以会从这四个方面来出题。同一类型的题目可能会变换不同题材多次提问，避免过于片面。
问题选取上，会更多围绕情节和人物展开，没有放太多背景和设定相关的内容。
评价的维度包括新颖性、吸引力、与网文风格的契合情况等，不同问题的考察维度不同，有些评价标准难以用语言描述，评价的方法是采用相同的提问，然后对五款产品的回答排序，按顺序给1~5分，答案排名越靠前，得分越高。
以上方法测评的结果有一定主观性，仅供参考。

接下来我们就看看几款产品的表现吧。

二、测评情况

以下是测评问题及各款产品得分情况，为了方便阅读，本文中没有贴完整的问答，只给到得分。

1. 创意类

创意类问题主要测试AI提供小说创意的能力，这里准备了6个问题，其中问题1~3用于测试AI基于特定类型（历史、科幻、玄幻）生成创意的能力，问题4~6用于测试AI基于特定情节主题（重生、娱乐圈、规则怪谈）生成创意的能力。

5款产品得分如下：

「AI写网文」哪家强？测评结果居然是……

2. 大纲类

大纲类问题暂不考虑设定方面的生成，而是以情节主线设计为主，这里准备了6个问题，用于测试AI面向不同主题（复仇、探险、爱情、权谋、悬疑、升级）编排情节的能力。

5款产品得分如下：

「AI写网文」哪家强？测评结果居然是……

3. 人物类

人物类问题主要测试AI进行人物设定、以人物为中心的故事创作能力，这里准备了5个问题，用于测试不同类型人物（主角、反派、恋人、伙伴、竞争者）生成能力。

5款产品得分如下：

「AI写网文」哪家强？测评结果居然是……

4. 行文类

行文类问题主要测试AI进行小说正文创作的能力，这里准备了7个问题，其中问题18~21用于测试AI的描写（环境、物品、人物、动作）内容生成能力，问题22~24用于测试AI情节（冲突、惊悚、仪式）扩写能力。

5款产品得分如下：

「AI写网文」哪家强？测评结果居然是……

三、测评总结

再次声明：针对AI写作的测评缺少绝对客观的量化标准，测评过程中不可避免会有一定的主观性和随机性，所以以上结果仅供参考，大家也可以结合详细的回答来重新评估。

以上即是对5款产品测评的详细情况，按照排名，5款产品的总分情况如下：

「AI写网文」哪家强？测评结果居然是……

按照24个问题的得分分布，这5款产品的雷达图分别如下：

「AI写网文」哪家强？测评结果居然是……

「AI写网文」哪家强？测评结果居然是……

「AI写网文」哪家强？测评结果居然是……

「AI写网文」哪家强？测评结果居然是……

「AI写网文」哪家强？测评结果居然是……

由于每个分类下的问题数量不同，这里我也按照类别重新计算了一下，计算方法是取每个类别得分的平均值，以便于查看每款产品在不同维度的辅助创作能力如何。如此计算出来的得分分布如下：

「AI写网文」哪家强？测评结果居然是……

「AI写网文」哪家强？测评结果居然是……

「AI写网文」哪家强？测评结果居然是……

「AI写网文」哪家强？测评结果居然是……

「AI写网文」哪家强？测评结果居然是……

「AI写网文」哪家强？测评结果居然是……

从此次测评情况来看，可以得出如下结论：

排名得分主要基于5款产品的相对表现，如果细查回答内容可以发现，现有生成式AI在辅助网文创作上还存在比较大的提升空间，表现并不非常如人意。
GPT4各项得分多处于中游水平，导致不管按照问题还是按问题类别计算，总计得分都垫底。从这些回答内容来看，GPT4对网文创作的理解、文化倾向都不是很契合。
讯飞星火在行文上，相较于其他产品来说表现较为突出。浮夸和虚无是AI写作的两大典型特征，个人认为目前讯飞星火在及格线之上。

除此以外，文心一言3.5、混元助手、通义千问的表现其实差不太多，没有太多可圈可点的地方。

以上打分与排名主要基于我的判断，有一定主观性。不同作者在创作网文的时候，会有自己的创作偏好和习惯，评价思路或许会和我不同。大家不妨亲自动手试一试，或是拿完整的测评内容自行排序打分，说不定结果会有所差异。

如今，网文已经历了二十多年的发展，早已与传统小说渐行渐远，在构思、行文上都有其独特的方法。针对特定的题材，网文也已经形成一些固有的框架。

生成式AI想要胜任辅助网文创作的工作，还需要更懂网文一些。

版权声明

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：分析评测 AI应用产品测评文心一言讯飞星火通义千问

上一篇 > 抖音的汽水音乐，如何实现弯道超车？
下一篇 > 医疗数据新革命：ChatGPT与大数据、AI共塑医疗数据治理的未来

相关文章

AIGC 对于文案自媒体的影响

第一批被AI气到崩溃的人出现了

AI产品观察：雇一个免费的AI助理帮你整理文件—Riffo

利用AI大模型打造客服机器人，传统智能客服可以靠边站了

什么是职场人的“AI敏锐度”

“AI捏捏”成解压神器，连甄嬛都被捏扁了，你还不会捏吗？

太好了是AI搜索引擎，我们有救了！

AI经验总结丨如何用好AI来赋能个人和企业（万字篇）

对AI大模型应用场景的深入思考（下篇）

月收入暴涨150%，秒生会议纪要，AI融入办公解放“打工人”

杂谈 | 如果未来还想写网文，这些变化不可不知

想要更公平的AI面试，不想选拔做题家

AI落地现状：没有mission、业务零碎、连2B还是2C都在摇摆

B端产品经理，如何抓住数字化转型下的AI爆发机遇？

传统AI和生成式AI

AI产品观察：以后不需要实习生做数据看板了—Graphy

Claude接管人类电脑编程，程序员沸腾！OpenAI反击，智能体大战一触即发

人工智能AI泡沫：何时会破灭？

关于PMF，以及机器人赛道短期落地的坑

大变局，AI医学影像赛道如何突围

AI代替“李佳琦们”，已经开始掏女人的钱包了

25岁“高龄”的QQ，能靠AI再火？

借助AIⁿ，只需三步，轻松搞定活动主视觉

被AI“颠覆”一年多后，我们被淘汰了吗？

霸榜13天的AI应用月收入暴增151%，AI商业化在美国照进现实了

未来AI一定会改变教育

AI时代，如何不FOMO地高效获取AI行业信息

中国AI内容创作类应用生态研究2024

竞品分析｜AI炒股软件：蚂小财 VS i问财 VS 妙想app

这届年轻人爱上了“AI雷军”

以价换量，豆包血拼AI的商业考量

【实操指南】如何在网约车业务中使用AI进行多模态判责

微信公众账号

微信扫一扫加关注