苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

新智元 2024-04-28 10:25:58

从Llama 3到Phi-3，蹭着开源热乎劲儿，苹果也来搞事情了。

近日，苹果团队发布了OpenELM，包含了2.7亿、4.5亿、11亿和30亿四个参数版本。

与微软刚刚开源的Phi-3相同，OpenELM是一款专为终端设备而设计的小模型。

论文地址：https://arxiv.org/abs/2404.14619

论文称，OpenELM使用了「分层缩放」策略，来有效分配Transformer模型每一层参数，从而提升准确率。

如下这张图，一目了然。

在约10亿参数规模下，OpenELM与OLMo相比，准确率提高了2.36%，同时需要的预训练token减少了2倍。

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

抱抱脸创始人表示，苹果加入了AI开源大战，一口气在HF中心发布了四款模型。

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

一、OpenELM有多强？

OpenELM的诞生，显然瞄准了谷歌、三星、微软这类的竞争对手。

近几天，微软开源的Phi-3，在AI社区引起了不小的反响。

因为，小模型的运行成本更低，而且针对手机和笔记本电脑等设备进行了优化。

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

根据论文介绍，苹果这款模型不仅能在笔记本（配备英特尔i9-13900KF CPU、RTX 4090 GPU，24GB内存），还可以在M2 MacBook Pro（64GiB内存）运行。

而OpenELM具体性能表现如何？

在零样本和少样本设置中，OpenELM的结果如下图表3所示。

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

通过与开源的大模型比较，OpenELM的变体比12亿参数OLMo的准确率提高了1.28%（表4a）、2.36%（表4b）和 1.72%（表4c）。

值得注意的是，OpenELM使用了OLMo少2倍的预训练数据的情况下，达到了这一水平。

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

再来看模型指令微调的结果。

如下表5所示，在不同的评估框架中，指令微调都能将OpenELM的平均准确率提高1-2%。

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

表6展示了参数高效微调的结果。PEFT方法可以应用于OpenELM，LoRA和DoRA在给定的CommonSense推理数据集中，提供了相似的平均准确度。

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

下表7a和7b分别显示了GPU和MacBook Pro上的基准测试结果。

尽管OpenELM对于相似的参数数量具有更高的精度，但研究人员观察到OpenELM要比OLMo慢。

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

虽然本研究的主要重点是可重复性而非推理性能，但研究人员还是进行了全面分析，以了解瓶颈所在。

分析结果表明，OpenELM处理时间的很大一部分，归因于研究者对RMSNorm的简单实现。

具体来说，简单的RMSNorm实现会导致许多单独的内核启动，每个内核处理一个小输入，而不是像LayerNorm那样启动一个融合的内核。

用Apex的RMSNorm替换简单的RMSNorm，结果发现OpenELM的吞吐量有了显著提高。

然而，与使用优化LayerNorm的模型相比，性能差距仍然很大，部分原因是：

OpenELM有113个RMSNorm层，而OLMo只有33个LayerNorm层；
Apex的RMSNorm没有针对小输入进行优化。

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

二、作者贡献

有趣的是，论文最后一部分还列出了每位作者，在这项研究中的具体贡献。

从预训练数据收集和工具、架构设计、模型训练，到评估套件和工具、HF集成、指令微调、参数高效微调，再到性能分析和MLX转换、代码审查，bug修改和维护全程都分工明确。

具体每人参与的内容，如下图所示。

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

参考资料：

https://arxiv.org/abs/2404.14619

编辑：桃子

来源公众号：新智元（ID：AI_era），“智能 ”中国主平台，致力于推动中国从“互联网 ”迈向“智能 ”。

本文来自互联网用户投稿，文章观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处。如若内容有涉嫌抄袭侵权/违法违规/事实不符，请点击举报进行投诉反馈！

标签：产品经理 OpenELM 小模型开源苹果

微信和苹果「二选一」背后的真相

AI手机，AIPC，是伪命题吗？

OpenAI英伟达Hugging Face同期推出小模型，AI开卷新方向？

Open AI开卷小模型，价格战杀手锏来了

苹果卷入大模型，手机行业借AGI「吃掉」软件层？

必须了解的8大AI术语

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

微软推出iPhone能跑的ChatGPT级模型，网友：OpenAI得把GPT-3.5淘汰了

开源模型越来越落后？Meta甩出全新Llama 3应战

苹果 Ferret-UI，会颠覆交互设计么？

搞AI的是真没钱了

AI浏览器，干翻Safari？

万里背回Vision Pro ，中国买家这两个月经历了什么？

苹果搭载大模型的 Siri，可能和你想的不太一样

苹果AI困局：搭上百度快车，能否破局重生？

苹果 Vision Pro 首批评测来了！一文看完这些亮点和槽点

OpenAI向左，Meta往右

Vision Pro 马上到手，但还有一些大公司在“拆台”

苹果XR难“上头”

苹果官网罕见大降价！商家优惠活动的有关解读

华为“纯血鸿蒙”，机会和挑战都是成为苹果

苹果微软各执王牌，XR和AI的较量才刚开始

苹果为什么要推出这个「反 iPhone」的功能

特斯拉与SolarCity的创新联盟：点燃跨界合作的火花

开源才是大模型的未来？

实力强的大模型都有哪些超能力？

异军突起的小模型，有多大想象空间？

苹果加入开源大战，官宣端侧小模型OpenELM！参数2.7亿到30亿一台M2 Mac可跑

一、OpenELM有多强？

二、作者贡献

相关文章