沐曦股份携手FlagOS、上海人工智能实验室,完成DeepSeek-V4 Day 0适配

2026-04-26 09:24:16
来源: 时代在线

4月24日,沐曦股份携手FlagOS,已完成对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day 0适配。同日,沐曦股份还联合上海人工智能实验室KernelSwift智能算子迁移系统,率先完成DeepSeek-V4核心算子的Day 0适配。

截至目前,沐曦股份已完成针对国内19款主流开源模型的极速适配,全面覆盖DeepSeek、MiniMax、智谱、阿里巴巴、腾讯、阶跃星辰、百度等头部厂商最新旗舰模型,种类涵盖语言、多模态、OCR、3D生成等全领域,效率领跑行业。

能够取得这一成果,既得益于沐曦股份在GPU硬件设计与自研软件栈MXMACA上的长期技术积累,也与上海人工智能实验室、FlagOS合作伙伴的深度协同密不可分。

FlagOS三大核心技术支持,沐曦芯片完成全量适配

在沐曦股份与FlagOS的合作中,背后有三大关键技术提供支持:

高性能通用大模型算子库FlagGems。据FlagOS介绍,FlagGems 提供支持8种以上芯片的全算子替代。此次DeepSeek V4在注意力机制和量化策略上引入了5个新算子,FlagGems针对全部5个算子进行了重新实现,以支持国产多芯片适配。\

FlagOS采用独立并行策略,解除张量并行最多单机8卡限制,将可运行芯片范围从“仅限单机80GB以上显存的个别高端卡”扩展到“多机64GB/32GB的更多主流国产芯片”。

FlagOS支持从“FP4+FP8混合精度” 到 BF16的精度转换。此次 DeepSeek-V4-Flash模型发布时首次采用 FP4+FP8混合精度,FlagOS 完成了从 FP4 到 BF16 的完整精度转换,使得模型可部署在 FP8 及 BF16 生态的主流国产芯片上。

目前,FlagOS已经完成针对DeepSeek-V4开源模型的多芯全量适配与推理部署,开发者可直接获取对应芯片的开箱即用方案。

沐曦适配版本链接

魔搭:

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

HuggingFace

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

KernelSwift加速,沐曦芯片实现核心算子高效迁移

算子迁移效率与性能优化是解锁国产算力的关键。

沐曦股份在与上海人工智能实验室的合作中,借助实验室研发的智能算子迁移系统KernelSwift,沐曦芯片率先完成了DeepSeek-V4核心算子的Day 0适配, 算子平均通过率约80%。

在DeepSeek-V4模型发布后,KernelSwift启动全自动流程生成核心算子并适配多元国产芯片,全程无人工干预。DeepSeek-V4模型共计21个核心算子中,KernelSwift采用融合策略,核心算子相比‌TileLang‌达到1.2倍以上性能加速,国产芯片平均实现75%+正确性,平均加速比达3.4倍。自动生成的算子经人工修改后,国产芯片平均实现100%正确性,大大提高了算子开发和迁移效率。

依托“自研GPU硬件+MXMACA软件栈”软硬一体计算平台的核心优势,沐曦股份快速响应大模型迭代节奏,高效完成了多款主流模型的适配工作,以全栈技术实力为大模型快速落地筑牢算力支撑。

未来,沐曦股份将继续与上海人工智能实验室、FlagOS深度合作,以Day 0适配为标准,实现大模型“发布即落地”,共同打造从底层算力到上层应用的无缝衔接生态,加速AI技术在千行百业的规模化部署,共建自主可控的智能计算新底座。

本网站上的内容(包括但不限于文字、图片及音视频),除转载外,均为时代在线版权所有,未经书面协议授权,禁止转载、链接、转贴或以其他 方式使用。违反上述声明者,本网将追究其相关法律责任。如其他媒体、网站或个人转载使用,请联系本网站丁先生:news@time-weekly.com

扫码分享