亚搏体育 端侧AI的大模子期间,从面壁智能初始



东谈主类历史上最横暴的压缩技巧,不是 ZIP 或 JPEG,而是翰墨。
一个"火"字,就能把舍弃、温度、形势、危机、能量等复杂的元素浓缩进一个秀雅。几笔写成,信息密度极高,解码本钱极低。
大模子压缩,骨子上在作念合并件事:想象一套更高遵循的"翰墨",用最少的笔画承载最多的常识。
然则,2026 年的半导体市集呈现出一种极致的扯破感。一边是高盛等机构握住调高预期,HBM(高带宽内存)供不应求,DDR5 价钱无间飙涨,"内存墙"成为算力发展的物理瓶颈;另一边,端侧 AI 开采受限于功耗与体积,内存规格无法无尽扩展,大模子在末端的落地似乎被一都无形的本钱天花板死死压住。
算力在涨,但末端装不下。"旧翰墨"太占所在了。传统大模子用 FP16 默示参数,相当于用复杂英翰墨母写文章,篇幅纷乱。产业界进犯需要一套笔画更少、信息密度更高的"新翰墨"。
5 月 23 日,BitCPM-CANN 于华为鲲鹏昇腾开发者大会(KADC 2026)初次亮相,由面壁智能 AI Infra 负责东谈主、清华大学筹算机系高性能所 · 水木学者博士后李宇轩进行技巧共享。

简便来讲,面壁智能环球初次在华为昇腾平台上完成端到端 1.58-bit(极致低比特)闇练栈,并将范畴推至 8B 级别,相较于交流尺寸的全精度模子,性能险些无着落。
它向外界开释了一个明笃信号:在国产算力底座上,相同能出生引颈天下的闇练范式。
那么,这套"新翰墨"是何如想象出来的?它将若何改写端侧 AI 的产业门径?

在探讨面壁智能这次技巧突破的意旨之前,咱们有必要先注释当下端侧 AI 产业所面对的的确窘境。2026 年的 AI 产业,名义上餍足无尽:大模子正不甘人后从云霄向手机、PC、汽车快速下千里,各式" AI Phone "" AI PC "想法比比皆是,仿佛东谈主东谈主都能遭受最强 AI。
然则,在这股飞腾之下,一场对于生计本钱的暗战正在打响。
U体育(中国)官网入口问题的根源要从咱们用来承载 AI 常识的"翰墨"提及。
传统大模子用的是一套相当毁坏的"翰墨系统"。每个参数用 FP16 默示,相当于每个笔画要占 16 个格子。一个 70 亿参数的模子,光"写下来"就需要约 14GB 内存。加上操作系统和其他运用,16GB 的旗舰手机一经写不下了。

这套"旧翰墨"不光占所在,书写本钱还在飙升。高盛的最新计议表露,受 AI 处事器需求拉动,存储芯片市集正在资历一轮超等周期。HBM 供不应求,DDR5 等主流内存价钱涨幅预期最高被调至 280%。对端侧开采厂商而言,这是一都紧张的收受题:要么收受上升的 BOM 本钱,压缩本就浅薄的利润空间;要么削减内存成立,让 AI 功能沦为"能装不可跑"的营销噱头。
固有的"内存墙"加深了这一窘境。冯 · 诺依曼架构下,筹算单位与存储单位在物理上别离,数据需要在两者之间时常搬运。即便端侧芯片的 TOPS 数值再高,要是内存带宽无法实时"喂饱"数据,大部分算力都将处于空转情状。
况且,国内 AI 大模子的闇练与部署持久高度依赖 NVIDIA CUDA 生态。很长一段时期里,许多国产大模子的闇练仍需在 NVIDIA 集群上完成中枢考证,再费时劳苦地迁徙至昇腾平台。这种"绕谈走"的模式,不仅拉长研发周期、提高试错本钱,也让国产算力平台持久难以开脱追逐者的位置,难以建造的确自主的技巧体系。

层层压力重叠下来,今天的端侧 AI,正被困在一个无法破解的不可能三角里:念念要更强的模子才智,就要付出更高的硬件本钱;念念要截至本钱、镌汰功耗,就不得不砍掉模子才智。三者之间险些莫得兼顾的余步。
传统措置决策如模子蒸馏、常识剪枝骨子上都是在丢精度换内存,代价是字变得叮咛。行业的确需要的是一种笔画更少、信息密度更高的翰墨系统。而在 KADC 2026 上亮相的 BitCPM-CANN,刚巧切中了这一核肉痛点。

2026 年 5 月 23 日,华为鲲鹏昇腾开发者大会上,面壁智能 AI Infra 负责东谈主李宇轩将稳当向业界展示 BitCPM-CANN ——悉数在国产算力上闇练的开源三值大模子。它是 1.58-bit 极致轻量化大模子。从底层算子到闇练框架,再到最终的模子输出,整条链路都在华为昇腾平台上原生完成。
好多东谈主会意思,1.58-bit 到底是什么?用最迫临生活的模式来意会,它就像是 AI 天下里一套绝顶精简的翰墨系统。
咱们熟悉的传统大模子,参数大多是 16 位浮点体式,能默示的数值范畴绝顶无边,看似精度很高,可执走运行中大宗精度都是过剩的,就像用字母华贵的拉丁文去写一句简便的日常用语,既占空间又没必要。BitCPM-CANN 把每个参数压缩到唯有三个取值:-1、0、+1。要是把传统参数比作一整套包含大小写、秀雅、特殊字体的完好意思英文系统,那 1.58-bit 就像是把一切简化为"点、横、竖"三种最基础的笔画,用最少的抒发,承载最中枢的信息。

虽然,除了"笔画少",BitCPM-CANN 还把这套新翰墨体系化了。
第一,它有一套完好意思可用的字库。在这之前,行业里不是莫得过低比特模子的商酌,但绝大多数恶果都仅仅展示某一个固定尺寸、某一项单一主义,更像是一个颓靡的演示 demo,厂商根蒂无法据此判断技巧是否自如、能不可的确用在居品里。BitCPM-CANN 悉数跳出了这种局限,一次性推 0.5B、1B、3B、8B 四档完好意思模子,况且和同尺寸的全精度模子作念一双一、全维度的对都评测。在技巧罢了上,它采取 STE 三值量化器,闇练时保留残差保证模子不错无间学习,导出时严格输出三值权重,把精度亏空截至在极小范畴。执行测试结尾很有劝服力:1B、3B、8B 这三档主力模子,才智保留率达 95.7% 到 97.2%,8B 模子在 ARC/cmmlu/gsm8k 等关键任务保留全精度 93%~99%,悉数达到可对外使用的水位;仅 0.5B 小模子保留率 90.1%,为后续优化明确标的。这种从袖珍到中型的全尺寸阴私,亚搏体育就像为 AI 产业准备好了从短句、随笔到长篇文章的完好意思翰墨体系,手机、汽车、末端开采厂商不错成功按需求选用,无谓再从零初始适配调试。
第二,它制定了熟习自如的排版模范。好多低比特技俩留步于"能跑通","模子能闇练、数值能着落"就宣告到手。但这么的代码常常是一次性的,换个尺寸、换个任务就要重新调参。BitCPM-CANN 则把低比特才智千里淀为 MindSpeed 闇练基础要领的一部分。基于 Megatron-LM 框架,镶嵌可插拔的 QAT 并行线性层,合股模子存储体式,还支柱 32K 长序列闇练。主决策采取 QAT 加后闇练蒸馏,闇练辩白仅着落 5%,险些不增多荒谬本钱。这意味着国产 NPU 第一次领有了属于我方的 1.58-bit 低比特闇练栈,无谓再先跑到国外 CUDA 生态上考证,再劳苦迁徙回顾,的确罢了了基础要领级别的技巧千里淀,后续扫数念念在昇腾上作念低比特闇练的团队,都不错站在这个底座上成功起步。

第三,它的智能密度极高。面壁智能与华为昇腾的协同优化表露,采取 1.58-bit 闇练范式,同等内存容量下可承载约 6 倍的模子参数目。这 6 倍的红利来自三个层面:一是权重从 16-bit 压缩到 1.58-bit 带来的存储省俭;二是整数筹算替代浮点筹算带来的算力开释;三是昇腾团队从教唆集到算子层的深度优化。
而 BitCPM-CANN 能达到这么的范畴和熟习度背后是几年无间参加的结尾。在行业对极低位宽 QAT 还持不雅望派头的时候,面壁智能就一经选用了小于就是 2-bit 的门路。
彼时,国内算力和好意思国差距很大,合座 AI 基础要领都相对过期,国产芯片用来闇练大模子不太够用。为了在有限资源下闇练大模子,面壁很早就自研了分散式闇练框架 BMTrain。这不仅是对标 DeepSpeed 或 Megatron 的工程罢了,更是"密度定律"的体现——仅用 32 张卡甚而更少的资源,就不错启动百亿级模子的闇练,极地面镌汰了大模子的准初学槛。
面壁智能与 DeepSeek 被业内称为两家"国内最会作念架构更正的公司",但两者的战场迥然相异:DeepSeek 紧抓云侧大算力场景,在万卡集群上榨干算力价值;面壁则聚焦单张端侧芯片,在功耗、散热、访存带宽的严苛拘谨下追求极致遵循。好多大模子企业,采取保守的传统架构,通过合并批数据闇练多个尺寸模子,面壁智能则针对端侧芯片特质,作念了大宗稀疏筹算、近存筹算等底层优化。在持久探索中,团队围绕学习率、蒸馏计谋、数据配比等中枢变量,少量点摸索、反复考证,最终千里淀出一套自如、可迁徙的超参方法论。
这些底层积聚最终成为 BitCPM-CANN 能在昇腾上"发明新翰墨"的因循。

要是说前两部分接头的是"旧翰墨的问题"和"新翰墨何如造",那么这一部分咱们不妨把视野拉高,注释 BitCPM-CANN 开源这套"新翰墨"之后的产业意旨。它不仅仅跑通了一个模子,而是把推理侧 6 倍显存红利造成可复用才智,把低比特闇练造成不错迁徙、不错扩展、不错陆续优化的昇腾才智底座。
先看技巧层面的填补,BitCPM-CANN 最初补上了国产 AI 芯片持久存在的一块空缺。持久以来,国产 AI 芯单方面对一个疼痛的场合:硬件参数可圈可点,可因循芯片运行的"翰墨体系"却持久攥在别东谈主手里。CUDA 生态就像一套熟习的拉丁字母系统,好用但受制于东谈主。国产算力念念要罢了悉数自主,毫不可只停留在"读懂、使用"别东谈主的体系,必须领有属于我方的"造字"才智,从底层算法到闇练框架都掌持在我方手中。
BitCPM-CANN 的发布阻挠了这一僵局。这是国产 NPU 平台上第一次公开、系统化的 1.58-bit 三值闇练适配,范畴一次推到 8B 量级,况且与面壁智能的全精度模子家眷作念了 1:1 对都评测。这意味着业界第一次不错在国产算力上看到一个低比特模子的完好意思才智图谱。

再把视野转向端侧 AI 产业,技巧最终要处事于场景,BitCPM-CANN 的价值毫不仅限于昇腾平台自身。
把眼光从技巧自身转向落地场景,BitCPM-CANN 的价值早已超出昇腾平台,的确触达了通盘端侧 AI 产业的中枢需求。技巧最终的归宿是服求执行场景,而 BitCPM-CANN 恰好踩中了手机、PC、汽车等末端开采最进犯的痛点。对末端厂商而言,将 1.58-bit 三值模子与 MoE 技巧相连,有望把 60B 级别的模子才智的确装开头机。更关键的是,比拟传统的 BF16 体式,执行显存收益能达到 6 倍,无谓荒谬增多物理内存,就能让开采承载更强的 AI 才智。在环球内存价钱无间上升、硬件本钱居高不下确当下,这早已不仅仅单纯的技巧上风,而是企业截至本钱、晋升居品竞争力的势必收受。
与此同期,行业里还存在一个昭彰的供需错位。高通的新一代芯片平台一经支柱 2-bit 原生推理,硬件准备好了,但市集上一直短缺的确可落地、自如可用的低比特权重。BitCPM-CANN 的开源恰好填补了这一空当,让芯片的硬件才智有了用武之地,让正常开发者也能零门槛体验国产算力在低比特场景的的确性能。这种模子与芯片的"双向奔赴"才是端侧 AI 走出实验室、大范畴落地的的确起跑线。

况且,行动环球首个悉数在国产算力上原生完成的三值模子,它阐明昇腾不仅能训大模子、更能训极低比特大模子,改写了外界对国产芯片"重推理、轻闇练"的固有剖析。它罢了了国产 NPU、国产 AI 模子、国产闇练框架三者的完好意思联动,阐明了在不依赖国外算力、不依附 CUDA 生态的前提下,中国团队依然能打造出天下级的 AI "新翰墨"。
把眼光收回到面壁智能自身,BitCPM-CANN 标志着面壁智能成长弧线上的一个明晰分水岭。
在这之前,面壁智能在行业中的定位是一家接力于于 AGI 的大模子公司。行业精深还在追逐参数范畴、云霄竞赛、榜单刷分的时候,面壁智能一经完成了从底层闇练框架到端侧压缩门路的积聚,早已成为中国端侧大模子技巧门路的界说者。
这次 BitCPM-CANN 开源不仅仅一次简便的恶果发布,它同期开释了一个明晰的技巧信号:端侧大模子的中枢矛盾在内存与遵循;措置旅途应该指向压缩范式自身的重构。面壁智能莫得收受奴婢国外门路作念一个适配者,而是收受在极低比特这条更难、更底层的门路上,成为门径的书写者。
这个分水岭的实质,是面壁智能完成了从模子提供者到技巧方法论界说者的身份跃迁。

虽然,说话权的建造,从来靠的不是单点突破,而是系统性输出。BitCPM-CANN 仅仅冰山浮出水面的那一角,水面之下是面壁智能从 BM-Train 到 MindSpeed、从低比特方法论到端侧落地闭环的完好意思体系。
回头看,BitCPM-CANN 的的确意旨在于,它为国产算力在极低比特闇练方进取提供了一个可考证的源泉。这套"新翰墨"一经写出来了,字典和范文都开源了。更多伟大的作品还要看产业界的后续致力,但至少,笔一经交到了每个东谈主手里。
亚搏体育
