OpenAI英伟达Hugging Face同期推出小模型，AI开卷新方向？

数字前站 2024-07-26 12:12:37

过去一周，人工智能领域的三家先锋公司HuggingFace、OpenAI、Mistral AI联手英伟达相继推出小型语言模型（SLM），新发布的三款小模型SmolLM、GPT-4omini和Mistral Nemo都有一个共同目标：以更低的价格，为更广泛的设备和应用程序带来强大的语言处理能力，预示着人工智能行业的重大转变。

01 小模型什么样？能做到什么？

小模型相比于大模型，价格更低、效率提升、更环保、可访问性更高，但无法在所有任务中与大模型的原始功能相匹配。

近期推出的三个小模型能力如何呢？分别来看看。

1. SmolLM：直接在移动设备上运行

Hugging Face的 SmolLM 可能是三者中最激进的。SmolLM 被设计用于直接在移动设备上运行，有三种大小：1.35 亿、3.6 亿和 17 亿参数。该系列将 AI 处理推向边缘，解决了数据隐私和延迟的关键问题。

SmolLM 的影响远远超出了单纯的效率提升。通过将 AI 功能直接引入边缘设备，它为新一代应用程序铺平了道路，让这些应用程序以最小的延迟和最大的隐私运行。这可能会从根本上改变移动计算的格局，以前由于连接问题或隐私限制而不能实现的复杂的AI驱动功能，因为SmolLM成为可能。

2. GPT-4omini：超高性价比的高能力小模型

OpenAI的GPT-4omini主打一个高性价比，被很多评论认为是市场上最具成本效益的小模型。

GPT-4o Mini 的输入价格仅为每百万token 15 美分，输出价格为每百万token 60 美分。GPT-4omini的定价比GPT-3.5 Turbo便宜60%以上，也比其它小模型更便宜，如谷歌的谷歌的Gemini 1.5 Flash（0.35美元/ 0.70美元）和Anthropic的Claude 3 Haiku（0.25美元/ 1.25美元），大大降低了AI集成的财务障碍。

不仅是节省成本，GPT-4o mini 非常聪明。它在数学、编码和多模态推理方面优于其他小型模型。在 MMLU 基准测试（通用智能）上，它的得分为 82%，超过了 GPT-3.5 和一些更大的模型。

GPT-4omini小模型可以处理一个巨大的 128K 令牌上下文窗口并输出 16k 令牌，开辟了大量新的可能性。像 Ramp 和 Superhuman 这样的公司已经在实际任务中使用它取得了巨大成功。

此外，它是多模态的，就像它更大的兄弟 GPT-4o 一样，支持文本和视觉输入，还有更多内容即将推出。

安全也得到了照顾。OpenAI 已经融入了“指令层次结构”等新技术，以保持模型的安全性并抵御越狱。

但GPT-4omini无法在手机或游戏机等移动设备上运行，它必须像 OpenAI 的所有其他模型一样在云中的服务器上运行。

3. Mistral-NeMo：瞄准大规模云模型和超紧凑移动 AI 之间的中间地带

Nvidia 和 Mistral AI 合作推出Mistral NeMo，这是一个 120 亿参数模型，具有令人印象深刻的 128,000 个token上下文窗口，意味着与窗口较小的模型相比，它可以读取和处理更长的文本块。

例如，具有小上下文窗口的模型，可能难以准确总结冗长的新闻文章，因为它一次只能处理几个句子。然而，Mistral NeMo 可能会将整篇文章作为一个整体来理解，从而得出更连贯和准确的总结。

Mistral Nemo 在 Apache 2.0 许可下发布，以台式计算机为目标，将自己定位为大规模云模型和超紧凑移动 AI 之间的中间地带。

多语言能力同样让人印象深刻。Mistral NeMo 不仅限于一种语言;它在包含 100 多种语言的海量数据集上进行训练，在英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语方面特别出色，能在语言之间进行翻译、构建可以与世界各地用户交谈的聊天机器人，以及分析多种语言的文档以提取全球见解。

例如跨国企业可以使用 Mistral NeMo 来分析来自不同国家/地区的客户评论，即使这些评论是用不同的语言编写的，以全面了解全球的客户反馈。

此外，Mistral NeMo 使用一种名为 Tekken 的新分词器，该分词器专为速度和效率而设计。Mistral NeMo 使用 FP8 推理，FP8 是一种低精度数字格式，与传统格式相比，它需要更少的内存和处理能力，这使得 Mistral NeMo 能够在更广泛的设备上运行得更快，单个英伟达L40S就能跑起来Mistral NeMo。