Sora“满月”了，但不止一个AI在新生

甲子光年 2024-03-18 14:05:59

前几天，距离Sora发布刚好一个月。这一个月时间可能是科技史上最密集的AI动态发布月。

在AI算力层，英伟达独孤求败，市值突破了2.2万亿美元，一跃成为全球市值第三大科技公司，仅次于微软与苹果。

但仍然有源源不断的挑战者出现，Groq、Cerebras都在近期发布了最新的AI芯片。他们会对英伟达构成威胁吗？

在AI生成视频领域，Sora开启了AI视频的“Midjourney时刻”，多模态模型元年开启，比人们预期的时刻提前了至少半年。

在大语言模型层，除了OpenAI没有发布大的产品更新之外，它的一众竞争对手，从大厂的谷歌、苹果，到AI独角兽Anthropic、Mistral、Inflection，都发布了最新代的大模型。

在AI应用层，人们期待的AI原生“super app”似乎还没有出现。A16z近期刚刚公布AI应用Top 100，ChatGPT仍然牢牢占据首位。

而且，A16z发现，与2023年9月发布的报告相比，榜单上超过40%的公司都是新公司。

具身智能是过去一个月最热门的AI落地方向，英伟达成立了具身智能实验室，并且投资了Figure AI。Figure AI的首款人形机器人产品，在演示Demo中已经可以实现端到端的自然语言交互。

今天也刚好是GPT-4发布一周年。但与去年GPT-4发布所带来的一整年的热度相比，人们对Sora的热情似乎消退的更快。

一方面是因为Sora没有公测，一切讨论都仅限于官方的几十个视频与没有技术细节的技术报告，另一方面是因为大家对于AI冲击的感受阈值在变高，变得更加理性。

大模型改变了很多，但目前为止没有改变的更多。对待大模型的态度，人们也被分成了技术信仰派与市场信仰派。

没有人能准确预测行业的变化，但通过记录与了解行业正在发生的信息，可以帮助我们更好地做出判断。

以下是「甲子光年」汇总的Sora发布一个月以来发生的重要AI事件。

Sora“满月”了，但不止一个AI在新生

一、AI算力

1. Lambda完成3.2亿美元C轮融资

2月16日，人工智能云服务提供商Lambda获得了3.2亿美元的C轮融资，用于构建基于GPU的服务，提供由数千个英伟达加速器组成的人工智能训练集群。

该轮融资由多家风险投资基金领投，包括B Capital、SK Telecom、T. Rowe Price Associates, Inc.，以及现有投资者Crescent Cove、Mercato Partners、1517 Fund、Bloomberg Beta和Gradient Ventures等。

Lambda正准备部署“数以万计”的英伟达GPU，包括目前最顶级的H100 Hopper加速器以及英伟达即将推出的G200 GPU加速器，后者的性能将是H100的两倍。Lambda还希望部署英伟达的混合GH200 CPU/GPU超级芯片。

2. 英伟达首次公开目前最快AI超算：搭载4608个H100GPU

2月18日，英伟达首次向外界公布了其最新的面向企业的AI超级计算机Eos，同时也是英伟达目前速度最快的AI超级计算机。

Eos共配备了4608个英伟达H100 GPU，同时还配备了1152个英特尔Xeon Platinum 8480C处理器（每个CPU有56个内核）。Eos还采用了英伟达Mellanox Quantum-2 InfiniBand技术，数据传输速度高达400 Gb/s，对训练大型AI模型和系统扩展至关重要。

英伟达公布数据显示，在最新的全球Top500超级计算机当中，Eos位居全球第九，其峰值性能更是达到了188.65 Peta FLOPS。

3. 三星电子在硅谷成立新团队，开发通用人工智能芯片

2月20日消息，知情人士透露，三星电子已在硅谷成立新团队，开发通用人工智能芯片。据悉，谷歌前开发人员Woo Dong-hyuk将领导该团队。

4. Groq发布LPU，推理速度较英伟达GPU提高十倍

2月23日，Groq推出了一款全新的AI芯片LPU，宣称做到了“地表最强推理”——在Groq上运行大模型的推理速度，较英伟达GPU提高10倍，而成本只有其十分之一。

Groq的芯片采用成熟的14nm制程，搭载了230MB的SRAM来保证内存带宽，片上内存带宽达到了80TB/s。在算力层面，Gorq芯片的整型（8位）运算速度为750TOPs，浮点（16位）运算速度则为188TFLOPs。

Groq成立于2016年，由前谷歌员工Jonathan Ross创立。他曾发明了驱动谷歌机器学习软件的张量处理单元（TPU），这两项技术当时为AlphaGo提供了重要的技术支撑。

5. 字节跳动发布万卡集群系统MegaScale论文

2月23日，字节跳动发布万卡集群论文，展示了构建和部署 MegaScale 的设计、实施和工程经验，这是一个用于训练超过1万个GPU规模的大型语言模型生产系统。

在12288个GPU上训练175B LLM模型时，MegaScale实现了55.2%的模型FLOP利用率 (MFU)，与Megatron-LM相比，MFU提高了1.34倍。

6. 中国为人工智能初创企业提供14万至28万美元的“算力券”

为了支持蓬勃发展的人工智能行业，中国向初创企业提供“算力券”，来降低企业数据中心运营相关的成本。至少有17个中国城市政府承诺提供这些补贴，代金券价值从14万美元到28万美元不等。

7. Meta 推出2个24K GPU集群

3月13日，Meta披露了有关万卡集群的硬件、网络、存储、设计、性能和软件的详细信息，并声称到2024年底将完成350000个英伟达H100 GPU集群的构建。届时，其整个资源池计算能力将相当于近600000个H100。

8. Cerebras发布了世界上最快的芯片，拥有4万亿个晶体管

3月14日，Cerebras发布了大尺寸芯片WSE-3，包含4万亿个晶体管，在相同的功耗和价格下，WSE-3的性能是之前记录保持者WSE-2的两倍。

相比H100 GPU ，WSE-3大了57倍，内核数量增加了52倍，芯片内存增加了800倍，内存带宽增加了7000倍，结构带宽增加了3700倍以上。这些都是芯片实现高性能的基础。

WSE-3是专为训练业界最大的AI模型而打造的，基于5纳米制程、将为Cerebras CS-3人工智能超级计算机提供动力，通过90万个人工智能优化的计算核心，提供每秒125 petaflops峰值AI性能（1 petaflops是指每秒1万亿次浮点运算）。

二、AI模型

1. 大语言模型

谷歌发布多模态模型Gemini 1.5 Pro，支持100万token上下文

2月16日，谷歌发布多模态大模型Gemini 1.5 Pro，建立在谷歌Transformer和MoE架构的领先研究之上。

通过一系列机器学习创新，谷歌增加了Gemini 1.5 Pro的上下文窗口容量，并实现在生产中运行高达100万个Token，远超32k的Gemini 1.0、128k的GPT-4 Turbo、200k的Claude 2.1。

Gemini 1.5 Pro可以一次性处理大量信息——包括1小时的视频、11小时的音频、超过30000行代码的代码库或超过700000个单词。

谷歌发布开源大模型Gemma

2月22日，谷歌推出了“开源”大模型Gemma。Gemma采用了与Gemini相同的技术，由谷歌DeepMind与谷歌其他团队共同合作开发，在拉丁文中意为 “宝石”。

Gemma包括两种权重规模的模型：Gemma 2B 与Gemma 7B，每种规模都有预训练与指令微调版本。同时，谷歌还推出了一系列工具，旨在支持开发者创新，促进合作，并指导如何负责任地使用Gemma模型。

Mistral获微软投资，发布旗舰模型Mistral Large

2月27日，Mistral AI发布Mistral Large旗舰模型，并且推出对标ChatGPT的对话产品：Le Chat。

Mistral Large达到了顶级的推理能力。它可以用于复杂的多语言推理任务，包括文本理解、转换和代码生成。

据Mistral AI CEO Arthur Mensch透露，开发这款新模型的成本不到2000万欧元（约合2200万美元）。

同时，微软宣布与Mistral AI达成深度合作，并对其进行了投资。未来，Mistral AI直接将模型资源放在微软云当中售卖，成为OpenAI之后第二家在微软Azure云平台上提供商业AI模型的公司。

Anthropic发布Claude 3模型，全面超越GPT-4

3月4日，Anthropic推出了最新的Claude 3大模型。

Claude 3模型家族包括三种最先进的型号：Claude 3 Haiku、Claude 3 Sonnet 和 Claude 3 Opus。Haiku、Sonnet和Opus分别指“俳句、十四行诗、音乐艺术大作”。

Opus和Sonnet现已可在claude.ai中使用，而 Claude API现已在159个国家/地区广泛使用。Haiku在3月15日正式推出。

Anthropic由OpenAI前高管创立，投资者包括谷歌、Salesforce、亚马逊、高通等科技巨头，估值超过150亿美元。

零一万物发布并开源 Yi-9B，代码数学综合能力全面增强

3月6日，零一万物开源了Yi-9B模型，是目前 Yi 系列模型中代码和数学能力最强的模型。

Yi-9B的实际参数为8.8B，与Yi系列其他模型一样，默认上下文长度是4K tokens。Yi-9B是在 Yi-6B （使用了3.1T tokens训练）的基础上，使用了0.8T tokens进行继续训练，使用截止至2023年6月的数据。

Inflection.ai发布 Inflection-2.5，升级对话模型Pi

3月7日，Inflection.ai推出Inflection-2.5，这是升级后的内部模型，它将原始能力与标志性个性和独特的同理心微调结合在一起。Inflection-2.5现已向所有Pi用户开放，可通过网页、iOS、Android或桌面应用程序使用。

Inflection-2.5接近GPT-4的性能，但仅使用了40%的计算量用于训练。每天有100万活跃用户和每月600万活跃用户与Pi交换了超过40亿条消息。

Inflection.ai的大模型通过微软Azure、CoreWeave上对用户提供服务。

马斯克宣布xAI本周开源Grok

马斯克在去年成立了大模型公司xAI，并与去年11月发布AI聊天机器人Grok。

Grok基于Grok-1大模型，开发大约花了四个月的时间（包括2个月的训练），上下文长度为8192，训练数据截至2023年第三季度。Grok可以提供生成文本、代码、邮件、信息检索等功能。Grok对所有X Premium 订阅用户开放，每月费用为16美元。

3月11日，马斯克宣布本周开源Grok。在这一帖子下面，有网友回复“OpenAI也应该这么做”。马斯克则回复该评论称：“OpenAI是个谎言。”

苹果发布300亿参数大语言模型MM1

3月14日，苹果发布了一个300亿参数的多模态大模型MM1。

通过细致的消融研究，作者们发现，对于大规模多模态预训练，混合使用图像标题、交错的图像-文本数据和纯文本数据对于在多个基准测试中实现最先进的少次学习结果至关重要。此外，图像编码器、图像分辨率和图像标记数量对性能有显著影响，而视觉-语言连接器的设计相对不那么重要。

研究结果表明，通过扩大模型规模，构建的MM1模型系列在预训练指标上达到了最先进的水平，并在一系列多模态基准测试中的监督微调后取得了有竞争力的性能。大规模预训练使得MM1具备了上下文学习、多图像推理等吸引人的特性，能够进行少次链式思维提示。

2. 多模态模型

Meta发布非生成路线视频模型V-JEPA

2月15日，Meta公开发布视频联合嵌入预测架构 (V-JEPA) 模型。Meta的副总裁兼首席人工智能科学家Yann LeCun表示：“V-JEPA 是朝着更深入地理解世界迈出的一步，因此机器可以实现更通用的推理和规划。”

他于2022年提出了最初的联合嵌入预测架构 (JEPA)。 “我们的目标是建立先进的机器智能，它可以像人类一样学习，形成周围世界的内部模型，以便有效地学习、适应和制定计划，以完成复杂的任务。”

Stability AI发布Stable Diffusion 3，与Sora同源技术

2月22日，Stability AI在早期预览版中发布了 Stable Diffusion 3，这是Stability AI最强大的文本到图像模型，在多主题提示、图像质量和拼写能力方面的性能得到了极大提高。Stable Diffusion 3模型套件目前的参数范围为800M 到8B。

3月5日，Stability AI公布了Stable Diffusion 3的技术论文，采用了一种新的多模态DiT（MMDiT，Multimodal Diffusion Transformer）模型架构，对图像与语言表示使用单独的权重集。

谷歌Gemini文生图功能紧急关闭

2月22日，谷歌宣布将暂停Gemini的人物图像生成，努力解决与Gemini图像生成功能相关的最新问题；将很快重新发布改进版本。

此前，Gemini在图片中生成了各种性别、种族的人群，即使生成的结果与史实不符，例如以“美国开国元勋华盛顿”为主题的图片中，出现了妇女和有色人种。

3月2日，50岁的谷歌联合创始人谢尔盖·布林在加州的“AGI之家”与企业家们进行了交谈，谈及此事时评价道：“我们在图像生成方面搞砸得很彻底，我认为这主要由于没有进行彻底的测试。出发点是好的，但结果却让很多人感到沮丧。”

谷歌发布基础世界模型Genie

2月27日，谷歌发布了生成式AI的全新范式——生成式交互环境（Genie，Generative Interactive Environments）。

Genie是一个110亿参数的基础世界模型，可以通过单张图像提示生成可玩的交互式环境。GenieAI是一个利用互联网视频训练的基础世界模型，可以从合成图像、照片甚至素描中生成无限多的可玩（可控制动作的）世界。它的使用范围广泛，可以用于从图像或文本生成整个互动世界，是训练未来通用AI代理的有利工具。

蚂蚁集团推出百灵大模型

2月28日，蚂蚁集团推出20亿参数多模态遥感基础模型SkySense，其论文已被世界计算机视觉顶会CVPR 2024接收。

数据显示，SkySense在17项测试场景中指标均超过国际同类产品，这也是迄今为止国际上参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。SkySense可用于地貌、农作物观测和解译等，有效辅助农业生产和经营。

潞晨科技复现Sora并开源

3月4日，国内著名开源团队Colossal-AI（潞晨科技旗下）根据Sora技术报告、VideoGPT、扩散Transformers等资料，复现了Sora模型架构方案并将其开源——Open-Sora。

值得一提的是，Colossal-AI还将复现成本降低了46%，同时将模型训练输入序列长度扩充至819K patches。目前，Open-Sora在Github超过1200颗星。

Midjourney封禁StabilityAI：恶意爬取数据，致服务器瘫痪24小时

3月7日，Midjourney封禁Stability AI引发了一场关于数据安全和道德责任的争议。事件起因于Stability AI的数据收集工程师对Midjourney服务器发起了恶意攻击，导致其服务中断24小时。尽管Stability AI CEO Emad声称公司并未授权此行为，但Midjourney决定暂时封禁其员工使用其软件。

华为诺亚发布0.6B文生图模型PixArt-Σ，可直出4K图像

3月10日，华为诺亚方舟实验室联合多个研究机构共同开发的项目，推出了一款名为PixArt-Σ的扩散变换器模型（DiT）。

PixArt-Σ 的进步有两个方面。一是高质量训练数据，引入了更高质量的图像数据，配合更精确和详细的图像标题；二是高效的token压缩：在DiT框架内提出了一个新的注意力模块，能够压缩键和值，显著提高效率，从而支持超高分辨率图像的生成。

这些改进使得PixArt-Σ在模型大小（0.6B参数）上远小于现有的文本到图像扩散模型，如SDXL（2.6B参数）和SD Cascade（5.1B参数），同时在图像质量和用户提示遵循能力上都有了显著提升。此外，PixArt-Σ生成4K图像的能力，为电影和游戏等行业的高质量视觉内容制作提供了强大支持。

Pika推出自动生成音效功能Sound Effects

3月11日，Pika 发布了全新的功能Sound Effects，实现了视频和音效的无缝生成。用户可以通过简单的操作，通过描述prompt或让 AI 自动生成音效，为视频增添更多氛围。

Sound Effects的操作十分简单，用户只需一个 prompt或简单的描述就能生成音效，使视频更加生动。通过选择不同的音效，用户可以为视频增添各种声音，从车鸣声到烟花声，音效都与视频画面高度匹配。此外，用户还可以在生成视频后，针对单个视频添加音效，提升视频质量和趣味性。

Midjourney发布角色一致性新功能

3月12日，Midjourney推出了一项新功能，使得在生成多张图片时，能够保持同一人物的一致性。通过使用“-cref”（角色参考）标签，可以保留输入图片中的角色特征，使得在不同场景中的脸部特征、体型和服装保持一致。

此外，Midjourney还提供了“-cw”标签，用户可以通过这个标签来调整与指定图片的相似程度，从而微调角色的样貌。

腾讯联合清华、港科大推出图生视频大模型“Follow Your Click”

3月15日，腾讯和清华大学、香港科技大学联合推出全新图生视频模型“Follow-Your-Click“，基于输入模型的图片，只需点击对应区域，加上少量提示词，就可以让图片中原本静态的区域动起来，一键转换成视频。

据了解，本联合项目组中的腾讯混元大模型团队，正在持续研究和探索多模态技术，拥有行业领先的视频生成能力。此前，腾讯混元大模型作为技术合作伙伴，支持《人民日报》打造原创视频《江山如此多娇》，生成中国大美河山的精美视频片段，展示出了较强的内容理解、逻辑推理和画面生成能力。

3. 生物模型

前Google DeepMind科学家联手创建Biooptimus，构建首个通用生物学大模型

2月20日，总部位于巴黎的Biooptimus在获得3500万美元的种子轮融资，其使命是建立第一个用于生物学的通用人工智能基础模型。这一新的开放科学模型将把不同规模的生物学与生成人工智能连接起来——从分子到细胞、组织和整个生物体。

Bioptimus联合了一个由Google DeepMind alumni和Owkin科学家组成的团队，其中AI生物技术初创公司Owkin本身就是一家法国独角兽，他们将利用AWS计算和Owkin的数据生成功能，并访问来自全球领先学术医院的多模态患者数据。

三、AI应用

1. 具身智能

英伟达成立具身智能实验室GEAR

2月24日，英伟达宣布成立通用具身智能体研究实验室GEAR，标志着英伟达正式入局具身智能领域的研究，加速人工智能具身化进程。

机英伟达GEAR实验室的联合创始人Jim Fan博士在X平台上表示：“我们相信，在未来，每一台移动的机器都将是自主的，机器人和模拟智能体将像iPhone一样无处不在。我们正在构建基础智能体：一个具有通用能力的AI，可以在许多虚拟和现实的世界中学习如何熟练地行动。2024年将是属于机器人、游戏AI和模拟的一年。”

Jim Fan还补充道：“我们有足够的资金一次性解决机器人基础模型、游戏基础模型和生成式模拟。我们团队可能是全球最有钱的具身智能实验室。”

特斯拉人形机器人更新，步态达到最快

2月25日，特斯拉人形机器人Optimus发布更新，达到了有史以来最快的步态，速度约为 0.6m/s，比去年12月速度提升了30%以上。

Optimus改善了前庭系统、足部轨迹和地面接触逻辑，升级了运动规划器，并减少了机器人的循环延迟。Optimus整体上更加稳定、更加自信——即使在转弯时也是如此。此外，还添加了轻微的躯干和手臂摆动。

Figure AI宣布获得6.75亿美元融资，估值达到26亿美元

2月29日，具身智能公司Figure宣布获得6.75亿美元融资，估值达到26亿美元。投资方包括微软、OpenAI创业基金、英伟达、杰夫·贝索斯（通过Bezos Expeditions）、Parkway Venture Capital、英特尔、Align Ventures。

Figure AI还与OpenAI签署了合作协议，为人形机器人开发下一代人工智能模型。Figure将利用Microsoft Azure进行人工智能基础设施、培训和存储。

3月13日，Figure AI的第一款产品Figure 01发布Demo视频，能够实现端到端的机器人指令操作。其中，OpenAI模型提供高级视觉和语言智能，图形神经网络提供快速、低级、灵巧的机器人动作。

伯克利团队发布具身智能论文，用训练GPT的方法训练人形机器人

3月3日，伯克利团队发布论文，名为《Humanoid Locomotion as Next Token Prediction》，论文的核心思想，就是把OpenAI训练ChatGPT时所用到的“预测下一个token”的思路，用在人形机器人的运动控制中。

该模型是一个通过自回归预测训练的causal transformer（因果转换器）。

该模型即使只在27小时的行走数据上训练，也能转移到现实世界，并且能够泛化到训练期间未见过的命令，比如向后行走。这些发现为通过生成模型学习具有挑战性的现实世界控制任务提供了一个有希望的路径。

谷歌发布具身智能机器人RT-H

3月4日，谷歌DeepMind团队发布论文，发布了最新版的 RT 机器人——RT-H，它能通过将复杂任务分解成简单的语言指令，再将这些指令转化为机器人行动，来提高任务执行的准确性和学习效率。

举例来说，给定一项任务，如「盖上开心果罐的盖子」和场景图像，RT-H会利用视觉语言模型（VLM）预测语言动作（motion），如「向前移动手臂」和「向右旋转手臂」，然后根据这些语言动作，预测机器人的行动（action）。

这个行动层级（action hierarchy）对于提高机器人完成任务的准确性和学习效率非常有帮助，使得RT-H在一系列机器人任务中的表现都优于RT-2。

2. AI 应用

Perplexity接近敲定新融资，估值或翻番至10亿美元

3月5日消息，知情人士透露，旨在挑战谷歌网络搜索主导地位的AI初创公司Perplexity即将敲定一笔新的融资交易，公司估值有望达到近10亿美元，较几个月前的最新融资估值大约翻番。

Perplexity利用先进的AI模型为搜索查询提供直接答案，而不是提供网站链接列表，这也是谷歌正在研究的。知情人士称，Perplexity最近的年收入超过1000万美元。根据数据服务公司Similarweb的初步估计，该公司移动和桌面应用程序的访问量在2月增长8.6%，达到约5000万用户。

两个月前，Perplexity刚刚宣布已筹集到7400万美元资金，得到亚马逊前CEO贝索斯和风险投资公司Institutional Venture Partners的支持。这笔交易对这家初创公司的估值为5.2亿美元。

华人团队打造第一个AI软件工程师Devin

3月13日，Cognition AI在X上推出了全球首个AI软件工程师Devin。

Devin是一个自主代理（Autonomous Agent），掌握全栈技能，能自主学习不熟悉的技术，端到端地构建和部署应用程序，自己改bug，甚至还能训练和微调自己的AI模型。

在SWE-bench基准测试中，它无需人类帮助，可解决13.86%的问题。相比之下，GPT-4只能处理1.74%的问题，且都需要人类提示告知处理哪些文件。据介绍，Devin已经成功通过一家AI公司的面试，并在Upwork上完成了实际工作。

此前，CognitionAI已经获得了彼得·蒂尔的Founders Fund基金领投的2100万美元A轮融资。另外根据彭博社记者报道，前Twitter高管Elad Gil也参与了对Cognition AI的投资。

DeepMind发布3D通用智能体SIMA

3月13日，Google DeepMind发布了适用于3D虚拟环境的通用智能体（A generalist AI agent for 3D virtual environments），名字命名为“SIMA”。

SIMA是一个针对游戏和3D虚拟环境的通用智能体。这标志着首次有一个智能体能够证明它可以遵循自然语言指令，在大量游戏世界中执行广泛任务，类似于人类的游玩方式。

SIMA仅依赖于3D环境提供的图像和用户给出的自然语言指令。通过鼠标和键盘的输出，它在600项技能上进行评估，这些技能涵盖了导航和对象交互等领域——例如“向左转”或“砍倒树”。

A16z发布消费级AI应用Top 100

3月13日，A16z发布了最新的全球AI产品的 Top100 榜单，分为网络产品与移动产品。16z发现，与2023年9月发布的报告相比，榜单上超过40%的公司都是新公司。

Sora“满月”了，但不止一个AI在新生

四、AI融资

1. 传月之暗面获得8亿美元融资

据知情人士对外透露，月之暗面近期获得了8亿美元新融资，其中阿里投资了7.9亿美元，砺思资本投资1000万美元。

小红书、美团原计划战略投资，但阿里将月之暗面估值提高了50%，并且重仓持股40%，所以后者主动退出了。

本轮融资后，月之暗面估值已达约23亿美元，为国内大模型领域的头部企业之一。

2. 宇树科技完成近10亿元B2轮融资

2月23日，智能机器人公司宇树科技Unitree宣布完成近10亿元B2轮融资，本轮投资方包括美团、金石投资、源码，老股东深创投、中网投、容亿、敦鸿和米达钧石跟投。宇树科技Unitree表示，资金将主要用于产品研发，业务拓展以及团队搭建等方面。

宇树科技创立于2016年8月。宇树科技创始人王兴兴2013年开始硕士在读期间，通过改造无人机使用的盘式无刷电机，并针对其自研了小尺寸电机驱动器，并基于此，自研整机机械结构和控制算法等等，独自设计开发了他的第一款产品——XDog。不同于当时波士顿动力机器人的高成本液压驱动技术路线，XDog采用了高性能纯电驱动，开创了全球低成本高性能足式机器人技术方案的先河。

3. 香港大模型公司WeituAI完成天使轮融资，估值一亿美元

2月25日，多模态大模型初创公司香港Weitu AI 公司完成了天使轮融资，估值一亿美金。天使轮投资人为拥有全球数亿月活的互联网科技公司和著名天使投资人。

据了解，该公司目前刚刚成立，超过半数成员来自北美名校毕业并拥有海外大厂的工作经验。同时，目前的团队成员中也包括了数位长期活跃在人工智能多模态领域的研究专家，以及去年初曾率队研发国内首批中文大语言模型代表之一的技术负责人。

4. 多模态大模型企业联汇科技宣布完成新一轮数亿元战略融资

3月1日，杭州联汇科技股份有限公司（以下简称 “联汇科技”）宣布完成新一轮数亿元战略融资，投资方由中国移动产业链发展基金中移和创投资、前海方舟（前海母基金管理机构）旗下中原前海基金和齐鲁前海基金等多家头部国资与市场化机构组成。

据悉，本轮融资将主要用于多模态大模型及自主智能体的技术研发、产品创新及市场拓展，扩大其在运营商、能源电力、媒体等国家基础行业与重点细分市场的领先优势。

5. 新旦智能完成了千万级别的天使轮融资

3月4日，总部位于深圳的AI初创公司新旦智能完成了千万级别的天使轮融资，由全球化人工智能企业APUS与AI行业资深投资人周弘扬联合投资。

相比国内其他大模型公司，新旦智能略显年轻，但创始团队阵容却颇为豪华：这是一支由清华、伯克利、腾讯、Meta等顶尖学术与工程界精英组成的团队，成员包括全球顶尖的开源AI社区知名开发者、资深腾讯云架构师等。

6. 传阿里领投Minimax新一轮融资

3月5日，《科创板日报》报道称通用大模型初创项目MiniMax正在进行新一轮大规模融资，阿里为其中的核心领投方。

7. 五源资本投资了一家华人AI视频团队

3月6日，两位Deepmind的校友Yishu Miao和Ziyu Wang公开发布了他们的视频生成工具Haiper，其底层有自己的AI模型。

Haiper在由Octopus Ventures领投、5Y Capital参与的种子轮融资中筹集了1380万美元。在此之前，像Geoffrey Hinton和Nando de Freitas这样的天使投资者帮助该公司在2022年4月筹集了540万美元的前种子轮融资。

8. 爱诗科技完成亿级人民币A1轮融资，发布视频大模型

3月11日，爱诗科技完成亿级人民币A1轮融资，本轮融资由国内一线投资机构达晨财智领投，光源资本担任独家财务顾问。

爱诗科技创立于2023年4月，专注解决AI视频大模型及应用，海外版产品PixVerse于2024年1月正式上线，目前已是全球用户量最大的国产AI视频生成产品，并搭建了稳定的创作者生态，目前已处于全球视频生成产品第一梯队，国内版（爱诗视频大模型）也于今日上线内测。本轮融资将用于人才建设和资源储备，进一步巩固爱诗科技产品技术护城河。