国内10款大语言模型测评-竞品分析

贝琳_belin 2024-06-14 09:24:53

一、竞品分析目的与意义

AI 大模型的英文含义是：Large AI Models。他的的定义通常指的是具有大量参数和复杂结构的人工智能模型，这些模型利用深度学习技术，通过大规模的数据训练，能够在多个任务上表现出优越的性能。

由于市面上涌现了各种各样的大模型，对于我们用户来说，并不知道哪种大模型比较适合我们，或者说哪种比较好用，这次我用六个维度来测评一下国内十款大模型，让大家可以根据自己的需求，来选择适合自己的模型来使用。

二、在研究大模型之前，让我们来简单了解一下这些大模型里面的一些基本的定义

1）大语言模型（Large Language Model, LLM）是一种专门用于处理和生成自然语言文本的人工智能模型，它有大量参数和复杂结构，能够理解、生成和翻译自然语言。大语言模型通常通过在大规模文本数据上进行训练，学习语言的各种模式和特征。

2）多模态大模型（Multimodal Models）是指能够处理和理解多种类型数据（如文本、图像、音频、视频等）的人工智能模型。这些模型通过集成不同模态的数据，能够更全面地理解和生成复杂信息。这种能力使多模态大模型在各种应用场景中表现出色，例如自然语言处理、图像识别、语音识别和生成、以及多模态交互等。

3）通用语言模型（General Language Models）是一个广泛的术语，通常用来描述能够处理多种语言任务的模型，而不论其规模大小。GLM可以包含从小型到大型的各种模型，关键在于它们具备处理自然语言的通用能力。这些模型可能专注于特定类型的任务，如问答系统、文本分类或语言生成，但它们通常设计得足够灵活，以适应多种不同的应用场景。

三、竞品分析

1、模型选择

本次主要分析国内使用率比较高的通义千问、文心一言、kimi等10个左右的大模型，通过日常生活、工作流程等方式做对比和总结说明，分析出几款相对比较好用的大模型。

国内10款大语言模型测评-竞品分析

2、调研维度

为了更直观测试这些模型在实际场景下的表现，我们收集整理一套场景数据集，主要包括：

是否能够联网获取信息、知识理解、上传文本分析、文生图、逻辑推理、休闲问答（多伦对话能力）等六个方向进行调研

3、调研过程

给每个分析角度一个规则，分析这些模型的回答是否能按照这些规则输出相对稳定的回答，并对这些回答给出一个相对合理的分数。

基本的规则为：

由于已经上线的大模型已经属于相对完善的模型，所以我根据模型的回答，分析回答后得出：回答是否“不满足预期”、“符合预期”和“高于预期”

不满足预期的标准为：需求不满足（包括：部分满足和部分不满足）、内容质量相关（包括：内容不全面、语句前后不通、信息前后不一致、有危害性的信息、还有一些不太符合要求的格式）
高于预期的标准为：语意正确、格式美观、没有那些危险有害偏激的信息、有提炼的总结、有一些推理的过程等等。

评分标准：（满分10分）

不满足预期：需求不满足的比如回答与问题无关的直接0分、有高危害信息内容：0分、内容不全面：-1分、语句前后不通顺：-1分、信息前后不一致：-1分、有偏见性的行为：-1分、格式不符合：-1分
高于预期：语意正确： 1分、格式分段/分点合理美观： 1分、有提炼总结： 1分、有推理过程等： 1分

1）是否能够联网获取信息

国内10款大语言模型测评-竞品分析