「AI写网文」哪家强?测评结果居然是……

前面的文章里面我分享了一些运用AI辅助网文创作的思路,回答都是采用GPT4和文心一言两款大语言模型。其实现在市面上的大语言模型很多,对国内的网文作者来说,方便获取的产品除了文心一言,还有腾讯混元助手、阿里通义千问、讯飞星火等。

那么问题来了,面对这么多产品,哪一款在辅助网文创作方面的表现更好?今天我们就来测一测。我选择了5款产品对比,分别是GPT4、文心一言3.5、腾讯混元、通义千问、讯飞星火,其中国内产品的地址如下:

  • 文心一言3.5:https://yiyan.baidu.com/
  • 混元助手:https://hunyuan.tencent.com/bot/chat
  • 通义千问:https://tongyi.aliyun.com/qianwen/
  • 讯飞星火:https://xinghuo.xfyun.cn/

一、测评说明

既然要测评写网文的效果,首先我们就需要明确,评价效果的维度和标准是什么?此次测评的思路如下:

  • 写网文大致可以分为创意、大纲、人物、行文四个方面,所以会从这四个方面来出题。同一类型的题目可能会变换不同题材多次提问,避免过于片面。
  • 问题选取上,会更多围绕情节和人物展开,没有放太多背景和设定相关的内容。
  • 评价的维度包括新颖性、吸引力、与网文风格的契合情况等,不同问题的考察维度不同,有些评价标准难以用语言描述,评价的方法是采用相同的提问,然后对五款产品的回答排序,按顺序给1~5分,答案排名越靠前,得分越高。
  • 以上方法测评的结果有一定主观性,仅供参考。

接下来我们就看看几款产品的表现吧。

二、测评情况

以下是测评问题及各款产品得分情况,为了方便阅读,本文中没有贴完整的问答,只给到得分。

1. 创意类

创意类问题主要测试AI提供小说创意的能力,这里准备了6个问题,其中问题1~3用于测试AI基于特定类型(历史、科幻、玄幻)生成创意的能力,问题4~6用于测试AI基于特定情节主题(重生、娱乐圈、规则怪谈)生成创意的能力。

5款产品得分如下:

「AI写网文」哪家强?测评结果居然是……

2. 大纲类

大纲类问题暂不考虑设定方面的生成,而是以情节主线设计为主,这里准备了6个问题,用于测试AI面向不同主题(复仇、探险、爱情、权谋、悬疑、升级)编排情节的能力。

5款产品得分如下:

「AI写网文」哪家强?测评结果居然是……

3. 人物类

人物类问题主要测试AI进行人物设定、以人物为中心的故事创作能力,这里准备了5个问题,用于测试不同类型人物(主角、反派、恋人、伙伴、竞争者)生成能力。

5款产品得分如下:

「AI写网文」哪家强?测评结果居然是……

4. 行文类

行文类问题主要测试AI进行小说正文创作的能力,这里准备了7个问题,其中问题18~21用于测试AI的描写(环境、物品、人物、动作)内容生成能力,问题22~24用于测试AI情节(冲突、惊悚、仪式)扩写能力。

5款产品得分如下:

「AI写网文」哪家强?测评结果居然是……

三、测评总结

再次声明:针对AI写作的测评缺少绝对客观的量化标准,测评过程中不可避免会有一定的主观性和随机性,所以以上结果仅供参考,大家也可以结合详细的回答来重新评估。

以上即是对5款产品测评的详细情况,按照排名,5款产品的总分情况如下:

「AI写网文」哪家强?测评结果居然是……

按照24个问题的得分分布,这5款产品的雷达图分别如下:

「AI写网文」哪家强?测评结果居然是……

「AI写网文」哪家强?测评结果居然是……

「AI写网文」哪家强?测评结果居然是……

「AI写网文」哪家强?测评结果居然是……

「AI写网文」哪家强?测评结果居然是……

由于每个分类下的问题数量不同,这里我也按照类别重新计算了一下,计算方法是取每个类别得分的平均值,以便于查看每款产品在不同维度的辅助创作能力如何。如此计算出来的得分分布如下:

「AI写网文」哪家强?测评结果居然是……

「AI写网文」哪家强?测评结果居然是……

「AI写网文」哪家强?测评结果居然是……

「AI写网文」哪家强?测评结果居然是……

「AI写网文」哪家强?测评结果居然是……

「AI写网文」哪家强?测评结果居然是……

从此次测评情况来看,可以得出如下结论:

  1. 排名得分主要基于5款产品的相对表现,如果细查回答内容可以发现,现有生成式AI在辅助网文创作上还存在比较大的提升空间,表现并不非常如人意。
  2. GPT4各项得分多处于中游水平,导致不管按照问题还是按问题类别计算,总计得分都垫底。从这些回答内容来看,GPT4对网文创作的理解、文化倾向都不是很契合。
  3. 讯飞星火在行文上,相较于其他产品来说表现较为突出。浮夸和虚无是AI写作的两大典型特征,个人认为目前讯飞星火在及格线之上。

除此以外,文心一言3.5、混元助手、通义千问的表现其实差不太多,没有太多可圈可点的地方。

以上打分与排名主要基于我的判断,有一定主观性。不同作者在创作网文的时候,会有自己的创作偏好和习惯,评价思路或许会和我不同。大家不妨亲自动手试一试,或是拿完整的测评内容自行排序打分,说不定结果会有所差异。

如今,网文已经历了二十多年的发展,早已与传统小说渐行渐远,在构思、行文上都有其独特的方法。针对特定的题材,网文也已经形成一些固有的框架。

生成式AI想要胜任辅助网文创作的工作,还需要更懂网文一些。


本文来自互联网用户投稿,文章观点仅代表作者本人,不代表本站立场,不承担相关法律责任。如若转载,请注明出处。 如若内容造成侵权/违法违规/事实不符,请点击【内容举报】进行投诉反馈!

相关文章

立即
投稿

微信公众账号

微信扫一扫加关注

返回
顶部