【AI系统设计目标】揭秘AI系统设计的未来蓝图

章鱼AI小丸子 2024-10-26 15:51:45

深度学习系统的设计目标可以总结为以下几个部分。

一、高效编程语言、开发框架和工具链

设计更具表达能力和简洁的神经网络计算原语以及高级编程语言。让用户能够提升 AI 应用程序的开发效率，屏蔽底层硬件计算的细节，更灵活的原语支持。当前神经网络模型除了特定领域模型的算子和流程可以复用（如大语言模型 Transformer 架构在自然语言处理 NLP 领域被广泛作为基础结构），其新结构新算子的设计与开发仍遵循试错（Trial And Error）的方式进行。那么如何灵活表达新的计算算子，算子间的组合以及融合形式，屏蔽经典熟知的算子与基础模型，是算法工程师所需要语言、库与 AI 开发框架层所提供的功能支持。

更直观的编辑、调试和实验工具。让用户可以完整的进行神经网络模型的开发、测试、调整诊断与修复和优化程序，提升所开发 AI 应用程序的性能与鲁棒性。训练过程不是一蹴而就，其中伴随着损失函数 LOSS 曲线不收敛、Loss 值出现 NaN 无效值、内存溢出等算法问题与算法设计缺陷（Bug）。AI 工具链与 AI 系统本身如何在设计之初就考虑到这点，提供良好的可观测性、可调试性、允许用户注册自定义扩展等支持，是需要工具链与 AI 系统的设计者，所需要在 AI 系统的设计之初就需要提上日程的，否则之后更多是缝缝补补造成不好的开发体验与不能满足的需求，对用户来说就像使用一个黑盒且单片的工具。

支持 AI 生命周期中的各个环节：数据处理、模型开发与训练、模型压缩与推理、安全和隐私保护等。不仅能构建 AI 模型，能够支持全生命周期的 AI 程序开发，并在 AI 系统内对全生命周期进行分析与优化。当前的 AI 工程化场景，已经不是灵感一现和单一的优化就能迅速取得领先优势，更多的是能否有完善的 AI 基础设施，快速复现开源社区工作，批量验证新的想法进行试错，所以一套好的完善的全流程的生命周期管理能够大幅度提升 AI 算法层面的生产力。

二、AI 任务系统级支持

除了对深度学习训练与推理的支持，还能支持强化学习、自动化机器学习等新的训练范式。例如，需要不断和环境或模拟器交互以获取新数据的强化学习方式，批量大规模提交搜索空间的自动化机器学习方式等，这些新的范式造成对之前单一支持单模型之外，在多模型层面，训练与推理任务层面产生了新的系统抽象与资源，作业管理需求。

提供更强大和可扩展的计算能力

让用户的 AI 程序可扩展并部署于可以并行计算的节点或者集群，应对大数据和大模型的挑战。因为当前 AI 模型不断通过大模型，多模态大模型以产生更好的算法效果，促使 AI 系统需要支持更大的模型、更多模态的输入。同时由于企业 IT 基础设施不断完善，能够不断沉淀新的数据，也会伴随着大数据而衍生的问题。大模型与大数据促使存储与计算层面的系统，在摩尔定律失效的大背景下，迫切需要通过并行与分布式计算的方式，扩展算力与存储的支持。

自动编译优化算法

1）对计算图自动推导：尽可能的通过符号执行或即时编译 JIT 技术，获取更多的计算图信息，让 AI 开发框架或者 AI 编译器自动执行定制化的计算优化。

2）根据不同体系结构自动并行化：面对部署场景的多样化体系结构，训练阶段异构硬件的趋势，AI 开发框架让用户透明的进行任务配置和并行化，以期以最为优化的方式在 AI 集群配置下，并行化、减少 I/O、充分利用通信带宽，逼近硬件提供的极限性能上限。

云原生自动分布式化

自动分布式并行扩展到多个计算节点，面对云与集群场景，自动将 AI 任务扩展与部署，进而支撑分布式计算、弹性计算，让用户按需使用资源，也是云原生背景下，AI 系统所需要考虑和支持的。