2月24日,DeepSeek启动“开源周”,开源了首个代码库FlashMLA。
据介绍,这是DeepSeek针对Hopper GPU优化的高效MLA解码内核,专为处理可变长度序列而设计,现在已经投入生产使用。“在H800上能实现3000 GB/s的内存带宽&580 TFLOPS的计算性能。”DeepSeek说。简单来说,**FlashMLA 是一个能让大语言模型在 H800这样的GPU上跑得更快、更高效的优化方案,尤其适用于高性能AI任务。**这一代码能够加速大语言模型的解码过程,从而提高模型的响应速度和吞吐量,这****对于实时生成任务(如聊天机器人、文本生成等)尤为重要。
MLA (Multi-Layer Attention,多层注意力机制)是一种改进的注意力机制,旨在提高Transformer模型在处理长序列时的效率和性能。MLA通过多个头(head)的并行计算,让模型能够同时关注文本中不同位置和不同语义层面的信息,从而更全面、更深入地捕捉长距离依赖关系和复杂语义结构。此前,有从业者解析DeepSeek架构时提到,MLA的本质是对KV(Key-Value,一种缓存机制)的有损压缩,提高存储信息,“该技术首次在DeepSeek-V2中引入,MLA是目前开源模型里显著减小KV 缓存大小的最佳方法。”DeepSeek开源这一代码有何影响?媒体用这一问题询问了DeepSeek,它回答称:这一代码就像给AI推理引擎装上了一台“涡轮增压器”,让大模型在处理复杂任务时更快、更省资源,同时降低了技术门槛。FlashMLA的意义不单是技术优化,更是打破算力垄断、加速AI普惠的关键一步。具体来说,**FlashMLA可以突破GPU算力瓶颈,降低成本。**传统解码方法在处理不同长度的序列(如翻译不同长度的句子)时,GPU的并行计算能力会被浪费,就像用卡车运小包裹,大部分空间闲置。而FlashMLA的改进是:通过动态调度和内存优化,让Hopper GPU(如H100)的算力被“榨干”,相同硬件下吞吐量显著提升。这意味着企业可以用更少的GPU服务器完成同样的任务,直接降低推理成本。**另一方面,FlashMLA可以推动大模型落地应用。**可变长度序列是现实场景中的常态(如聊天对话、文档生成),但传统方法需要填充(Padding)到固定长度,导致计算冗余。FlashMLA支持动态处理变长输入,让AI应用(如客服机器人、代码生成)响应更快、更流畅,用户体验提升,加速商业化落地。此前高效解码内核多由科技巨头闭源垄断(如CUDA优化库),中小企业和研究者难以复现。FlashMLA开源后,开发者可免费获得“工业级优化方案”,降低技术门槛,促进更多创新应用(如垂直领域小模型)的诞生。"the whale is making waves!(鲸鱼正在掀起波浪!)”有网友在DeepSeek的帖子下留言称(注:鲸鱼是DeepSeek的企业LOGO)。也有网友希望DeepSeek开源网页搜索(Web Search)相关的代码,并提到,“DeepSeek 是真正的OpenAI(开放人工智能)。”这仅仅是开始,上周DeepSeek宣布,这周会陆续开源5个代码库,“以完全透明的方式分享我们微小但真诚的进展”。DeepSeek表示,这些在线服务中的基础构建模块已经经过文档化、部署,并在生产环境中经过实战检验。无独有偶,在世界互联网大会人工智能专业委员会(以下简称“专委会”)近日主办的“人工智能赋能科学研究”研讨会上,专委会首席主任委员、中国工程院院士、之江实验室主任王坚表示,在开放科学领域,互联网发挥着重要作用,他认为AI for Science(AI用于科研)将帮助更多人加入创新阵列。开放科学并非简单地将原有科学成果开放,而是对原有科学体系的重新审视。谈及开放科学,王坚认为,开放科学不是简单地把科学开放出来,而是要考虑怎么做科学研究,怎么做交流。**在开放科学领域,互联网发挥着重要作用,也影响着人工智能的发展。**如今,数据、计算和人工智能都无法脱离互联网。互联网作为基础设施,将所有问题向前推进。人工智能简单来说是数据、模型和计算的结合,与互联网一样具有规模效应。**开源的概念也在不断演变。**王坚提及,在人工智能和数据时代,开源不能仅用Open Source Code表达,创新的特点应是Open Resource(开放资源)。“开源是对社会的贡献,是对全世界的贡献。”
谈及DeepSeek对于开源概念的拓展和开放资源,对于科学技术领域的巨大价值,会上,王坚表示,“我自己也觉得,这次DeepSeek给大家的感受,给我在过去两年一直讲的开源一次非常好的验证。”他提及,DeepSeek基于MIT许可协议开源,当DeepSeek出来的时候,《自然》杂志在一个星期以内发表了五篇文章讲这件事情。其中有一篇,很认真地探讨了DeepSeek等对科学的研究有没有推动作用。当数学、人工智能与基础设施相结合,将形成面向全球的公共产品,促进科研资源公平分配,激发个人创造力,推动科技创新,实现开放资源整合,避免科技创新资源被少数人垄断。“所以我相信,如果我们能够把这样一个技术用好,再也没有人可以把真正的科技创新资源放在一个非常小的圈子,这可能也是这件事情的意义以及它的价值所在。”王坚说。(来源:第一财经、之江实验室)
来源: 浙江省科学技术协会