又一清华系AI公司获数亿元融资！面壁智能李大海：只有极少数千亿模型能突围

申谨睿

2024-04-11 22:34:29

来源: 时代周报

以小搏大的端侧大模型。

图源：Unsplash

继今年2月发布开源模型MiniCPM之后，短短70多天，清华系AI公司“面壁智能”又在4月11日下午推出了MiniCPM 2系列端侧模型。

新品主要包括：MiniCPM-V 2.0多模态模型，20亿参数的MiniCPM-2B-128k长文本模型，MiniCPM-MoE-8x2B MoE（混合专家）模型，以及12亿参数规模的MiniCPM-1.2B模型——比上一代推理速度提升38%，成本下降60%。

同日，面壁智能向时代周报透露，公司已完成新一轮数亿元融资，由春华创投、华为哈勃领投，北京市人工智能产业投资基金等跟投，知乎作为战略股东持续跟投支持。本轮融资将用于人才引入，大模型底层算力与数据基础构建，和大模型落地三个方向。光源资本担任独家财务顾问。

面壁智能成立于2022年8月，专注大模型技术创新与应用转化。其创始团队主要来自于清华大学自然语言处理实验室（THUNLP），公司CEO李大海兼任知乎CTO（首席技术官）；另一位公司联合创始人刘知远，则是清华大学计算机系副教授、博士生导师，研究方向为计算机自然语言处理。

据李大海介绍，面壁智能科研团队有100多人，清华、北大毕业的员工数量占比高达80%，平均年龄为28岁。其中工程团队还有来自阿里、字节、百度等国内外知名公司的 AI 人才。

将“高效”视作产品关键词

面壁智能CEO李大海向时代周报表示：“高效大模型是通向 AGI 的更现实的路径。”他称，面壁智能将打造更高效的Scaling Law增长曲线，实现同等参数性能更优、同等性能参数更小效果。

Scaling Law增长曲线即模型的最终性能主要与训练计算量、模型参数量和数据大小三者相关，而与模型的具体结构（层数、深度、宽度）基本无关。研发人员可以通过它在固定资源预算中，如额定的GPU数量、训练数据量或是训练时长下，匹配模型的最佳大小，且无需经历昂贵的试错。

面壁智能的思路就是，在遵循scaling law的情况下，对模型的细节进行更好的优化，使其在同等成本下达到更好的效果。

面壁智能团队曾于2020年12月发布国内首个中文大模型CPM-1。截至目前，公司正规划构建Al Agent智能体协作平台，推出基于群体智能的“大模型+Agent”应用——ChatDev智能软件开发平台。同时，To C消费端，面壁智能的基座模型产品“面壁露卡Luca”已获审批并对外开放。

过去一年，瞄准AGI这一方向，面壁智能将“高效”视作产品关键词，推进大模型技术发展和市场落地。

在2024年2月1日的发布会上，面壁智能对标Mistral发布了训练数据规模近1T、参数规模仅2B的模型——聚焦于适配端侧硬件的端侧大模型MiniCPM-2B。目前，MiniCPM-2B在比GPU计算吞吐量低的CPU上可实现运行，有效降低了推理成本。同时，即便将大小压缩75%，MiniCPM的性能也能做到基本无损耗。

面壁智能向时代周报透露，此次发布的国内MiniCPM 2四款模型，整体对标的是谷歌Gemma-7B、OpenAI GPT-4V、Mistral-7B、Llama2等国外开源模型。MiniCPM 2模型在同等性能参数更小、同等参数性能更强，超越Mistral-7B、谷歌Gemma、Llama2-13B、 ChatGLM3-6B等，并且170万tokens的推理成本仅需1元。

从商业化层面来看，面壁当下更侧重企业端的产品验证。目前，面壁已与招商银行、数科网维、知乎等合作伙伴，将大模型与Agent技术部署落地于金融、教育、政务、智能终端等应用场景。

李大海称，尽管很难预测未来行业发展，但随着时间推移，公司会出现“分层”，大模型应用可能会百花齐放，然而通用千亿大模型不会太多，可能只有极少数的几家公司最终能突出重围。

硬件厂商争夺端侧大模型

诞生不满一年，“端侧大模型”概念已被一众硬件厂商视作竞争的新筹码。

今年2月，OPPO 创始人兼CEO陈明永在内部信中开宗明义地指出：未来五年，Al对手机行业的影响完全可以比肩当年智能手机。从行业发展阶段来看，AI手机也将成为继功能机、智能手机之后，手机行业的第三阶段。

于过去十余年都未享受到技术创新红利的PC厂商而言，AI被放在了更加重要的位置。

联想、华为、荣耀、苹果、微软等纷纷布局AI PC生态，扎堆亮相国际消费电子盛会CES 2024。此外，芯片厂商也闻风而动，高通、联发科、英特尔和AMD相继发布了能够支持在手机端运行百亿参数大模型的手机芯片。

“从消费者角度来看，端侧大模型避开了云端、网络速度的限制，可独当一面地提升手机、电脑的运行体验，并且能保证用户数据安全可控。”科技分析师李影向时代周报称。

从国内大模型企业发展角度来看，李影认为，通用大模型往往需要暴力地消耗算力，端侧大模型的出现或将消解国外“算力制裁”的风险，不失为国内企业实现弯道超车的机会点。

但一个无法避开的挑战是，手机与PC若支持本地化AI模型，意味着其需要更快的传输速度、更大的储存容量和带宽。因此，解决“算”和“存”的压力，将模型做“小”做“高效”，成为“百模大战”卷向千亿参数后的又一难题。

李影表示，把大模型落在端侧并进行后续市场推广，需要考虑到大模型的形态是不是足够小，成本是不是足够低，性能是不是足够强。

她称：“目前的通用大模型很大一部分无法打破这些掣肘。130亿参数规模的Llama 2跑在手机端非常吃力，但10亿参数量Stable Diffusion可以在搭载骁龙芯片的手机上正常运行。”

“当1.2B规模的模型应用于手机和PC端，意味着大模型离用户更近，从而能出现更广泛的落地场景。”李影告诉时代周报。