又一清华系AI公司获数亿元融资!面壁智能李大海:只有极少数千亿模型能突围

申谨睿
2024-04-11 22:34:29
来源: 时代周报
以小搏大的端侧大模型。

图源:Unsplash

继今年2月发布开源模型MiniCPM之后,短短70多天,清华系AI公司“面壁智能”又在4月11日下午推出了MiniCPM 2系列端侧模型。

新品主要包括:MiniCPM-V 2.0多模态模型,20亿参数的MiniCPM-2B-128k长文本模型,MiniCPM-MoE-8x2B MoE(混合专家)模型,以及12亿参数规模的MiniCPM-1.2B模型——比上一代推理速度提升38%,成本下降60%。

同日,面壁智能向时代周报透露,公司已完成新一轮数亿元融资,由春华创投、华为哈勃领投,北京市人工智能产业投资基金等跟投,知乎作为战略股东持续跟投支持。本轮融资将用于人才引入,大模型底层算力与数据基础构建,和大模型落地三个方向。光源资本担任独家财务顾问。

面壁智能成立于2022年8月,专注大模型技术创新与应用转化。其创始团队主要来自于清华大学自然语言处理实验室(THUNLP),公司CEO李大海兼任知乎CTO(首席技术官);另一位公司联合创始人刘知远,则是清华大学计算机系副教授、博士生导师,研究方向为计算机自然语言处理。

据李大海介绍,面壁智能科研团队有100多人,清华、北大毕业的员工数量占比高达80%,平均年龄为28岁。其中工程团队还有来自阿里、字节、百度等国内外知名公司的 AI 人才。

将“高效”视作产品关键词

面壁智能CEO李大海向时代周报表示:“高效大模型是通向 AGI 的更现实的路径。”他称,面壁智能将打造更高效的Scaling Law增长曲线,实现同等参数性能更优、同等性能参数更小效果。

Scaling Law增长曲线即模型的最终性能主要与训练计算量、模型参数量和数据大小三者相关,而与模型的具体结构(层数、深度、宽度)基本无关。研发人员可以通过它在固定资源预算中,如额定的GPU数量、训练数据量或是训练时长下,匹配模型的最佳大小,且无需经历昂贵的试错。

面壁智能的思路就是,在遵循scaling law的情况下,对模型的细节进行更好的优化,使其在同等成本下达到更好的效果。

面壁智能团队曾于2020年12月发布国内首个中文大模型CPM-1。截至目前,公司正规划构建Al Agent智能体协作平台,推出基于群体智能的“大模型+Agent”应用——ChatDev智能软件开发平台。同时,To C消费端,面壁智能的基座模型产品“面壁露卡Luca”已获审批并对外开放。

过去一年,瞄准AGI这一方向,面壁智能将“高效”视作产品关键词,推进大模型技术发展和市场落地。

在2024年2月1日的发布会上,面壁智能对标Mistral发布了训练数据规模近1T、参数规模仅2B的模型——聚焦于适配端侧硬件的端侧大模型MiniCPM-2B。目前,MiniCPM-2B在比GPU计算吞吐量低的CPU上可实现运行,有效降低了推理成本。同时,即便将大小压缩75%,MiniCPM的性能也能做到基本无损耗。

面壁智能向时代周报透露,此次发布的国内MiniCPM 2四款模型,整体对标的是谷歌Gemma-7B、OpenAI GPT-4V、Mistral-7B、Llama2等国外开源模型。MiniCPM 2模型在同等性能参数更小、同等参数性能更强,超越Mistral-7B、谷歌Gemma、Llama2-13B、 ChatGLM3-6B等,并且170万tokens的推理成本仅需1元。

从商业化层面来看,面壁当下更侧重企业端的产品验证。目前,面壁已与招商银行、数科网维、知乎等合作伙伴,将大模型与Agent技术部署落地于金融、教育、政务、智能终端等应用场景。

李大海称,尽管很难预测未来行业发展,但随着时间推移,公司会出现“分层”,大模型应用可能会百花齐放,然而通用千亿大模型不会太多,可能只有极少数的几家公司最终能突出重围。

硬件厂商争夺端侧大模型

诞生不满一年,“端侧大模型”概念已被一众硬件厂商视作竞争的新筹码。

今年2月,OPPO 创始人兼CEO陈明永在内部信中开宗明义地指出:未来五年,Al对手机行业的影响完全可以比肩当年智能手机。从行业发展阶段来看,AI手机也将成为继功能机、智能手机之后,手机行业的第三阶段。

于过去十余年都未享受到技术创新红利的PC厂商而言,AI被放在了更加重要的位置。

联想、华为、荣耀、苹果、微软等纷纷布局AI PC生态,扎堆亮相国际消费电子盛会CES 2024。此外,芯片厂商也闻风而动,高通、联发科、英特尔和AMD相继发布了能够支持在手机端运行百亿参数大模型的手机芯片。

“从消费者角度来看,端侧大模型避开了云端、网络速度的限制,可独当一面地提升手机、电脑的运行体验,并且能保证用户数据安全可控。”科技分析师李影向时代周报称。

从国内大模型企业发展角度来看,李影认为,通用大模型往往需要暴力地消耗算力,端侧大模型的出现或将消解国外“算力制裁”的风险,不失为国内企业实现弯道超车的机会点。

但一个无法避开的挑战是,手机与PC若支持本地化AI模型,意味着其需要更快的传输速度、更大的储存容量和带宽。因此,解决“算”和“存”的压力,将模型做“小”做“高效”,成为“百模大战”卷向千亿参数后的又一难题。

李影表示,把大模型落在端侧并进行后续市场推广,需要考虑到大模型的形态是不是足够小,成本是不是足够低,性能是不是足够强。

她称:“目前的通用大模型很大一部分无法打破这些掣肘。130亿参数规模的Llama 2跑在手机端非常吃力,但10亿参数量Stable Diffusion可以在搭载骁龙芯片的手机上正常运行。”

“当1.2B规模的模型应用于手机和PC端,意味着大模型离用户更近,从而能出现更广泛的落地场景。”李影告诉时代周报。

本网站上的内容(包括但不限于文字、图片及音视频),除转载外,均为时代在线版权所有,未经书面协议授权,禁止转载、链接、转贴或以其他 方式使用。违反上述声明者,本网将追究其相关法律责任。如其他媒体、网站或个人转载使用,请联系本网站丁先生:news@time-weekly.com

相关推荐
贵州茅台6年4次换帅,“技术派”回归,张德芹的挑战是什么?
领跑高端咖啡赛道,星巴克中国Q2利润率环比增长,上线27款新品“卷”研发
第五轮券商并购潮起:国联+民生冲击首单,规模有望跻身券业前二十
4月新势力放榜!小米汽车交付7058辆,埃安、理想今年累计销量均破10万
扫码分享