TurboQuant 72小时极速实测：超聚变FusionOne AI首批落地实践

沄森™2026-03-31

　　 TurboQuant是啥：Google Research抛出的一个“极限压缩”思路，主打把LLM推理里的KV Cache压到3bit左右，显存降低≈6倍，在数据中心级高带宽加速器平台的测试中，注意力logits计算最高≈提速8倍，而且

　　 TurboQuant是啥：Google Research抛出的一个“极限压缩”思路，主打把LLM推理里的KV Cache压到3bit左右，显存降低≈6倍，在数据中心级高带宽加速器平台的测试中，注意力logits计算最高≈提速8倍，而且不需要再训练，理论与实验都相当硬核。

　　行业为什么沸腾：它正面击中了推理阶段的“内存墙”，而非只在权重量化上做小修小补；媒体持续关注、社交平台热议，相关市场情绪也随之起伏。

　　但Google没放代码：只有博客和论文。超聚变研发团队连夜啃完论文，自己把算法敲了出来，打通自研推理引擎和关键算子，搞到了第一批可用的推理数据。本文记录了全流程的工程要点与坑位。

　　背景：这波为什么值得“熬夜跟进”

　　3月24-25日，Google Research发了TurboQuant的技术博客，配套论文将分别在ICLR2026/AISTATS2026亮相。核心卖点很直接：KV Cache内存≥6倍压缩、注意力计算最高8倍提速、精度几乎无损，而且零训练/零校准，适合在线推理直接“插拔”。

　　 TurboQuant抓住了当前LLM推理的真瓶颈——KV Cache随上下文长度线性暴涨，吞噬HBM/显存与带宽，长上下文一上来，显存先满、带宽先卡。这也是为什么它能迅速刷屏的根本原因，而不是又一个“论文里好看、工程上难落地”的trick。

　　外部反响你大概也刷到过：媒体把它形容成现实版“Pied Piper”，甚至引申到“Google的DeepSeek时刻”；市场上，存储/内存板块当天明显波动。当然，也有冷静声音提醒——TurboQuant主要影响推理KV内存，不等于整个存储行业的需求瞬间蒸发。

　　 TurboQuant的“人话拆解”：

　　两步走、把额外开销干没

　　一句话版：TurboQuant是个两段式的量化管线

　　 PolarQuant先把向量做随机旋转/极坐标重排，用(b1)bit做主体压缩，核心是绕开传统量化里那些“每块都要存的归一化常数”；

　　 QJL(Quantized JL)再对残差做1-bit无偏校正，把注意力需要的内积精度拉回到安全线。

　　更严谨一点：论文证明这套做法在MSE/内积失真的率失真界附近，在3.5bit/channel可达质量中性、2.5bit/channel仍然可用。此外，它是数据无关(data-oblivious)、在线可用，不需校准集。

　　为什么这很关键？

　　传统4bit/3bit量化经常“名义上省很多、实际上又被scale/zero-point/归一化元数据吃回去1–2bit”，极限压缩时尤其明显。PolarQuant的巧妙之处就是把这部分“额外税”免了；QJL则保证内积不飘，适配注意力。

　　 Google没放代码？

　　社区“抬手就干”，我们也“开干了”

　　这次没有“拿来即用”的官方实现，属于“讲清楚数学、指标亮眼，但代码请自理”的路线。媒体也明确提示：这是研究，不是产品。

　　社区反应很快：已经有PyTorch参考实现、Apple MLX/Qwen的KV压缩demo，甚至有PyPI包用来快捷接入KV Cache压缩做A/B。说明工程上落地并不玄。

　　还有开发者面向工程师写的“怎么用、为什么重要”的实操指南，对我们迅速研读论文→搭骨架，也很有参考价值。

　　超聚变的72小时

　　从论文到产线的“打通记”

　　4.1架构｜我们把TurboQuant放进了哪里

　　推理引擎内核：TurboQuant被我们作为KV Cache后端的一个新profile(kv_backend=tq3b)接入到FusionOne AI平台的Wings推理加速引擎中。

　　4.2关键算子｜“三板斧”啃下来的

　　1.随机正交旋转/极坐标分解(PolarQuant核)

　　难点：旋转矩阵的生成与复用，避免per-token高开销；极坐标角度量化要无元数据开销。

　　解法：

　　旋转矩阵使用种子化Householder/QR生成+head复用；

　　半径/角度分治，角度用预计算Lloyd-Max codebook，常数驻留常量缓存，核内查表。

　　2.残差QJL(1-bit无偏校正)

　　难点：把残差投影+取符号做成完全并行、无临时元数据的核，同时提供内积无偏估计接口给注意力。

　　解法：

　　采用线性同态的投影矩阵(种子化生成)，残差在shared memory聚合后一次性符号化；

　　注意力侧给出dot(u,v_hat)+qjl_corr(u,sign(P.res))的封装算子。

　　3.KV生命周期与调度

　　难点：压缩/解压插入后，KV管理要么“抖动”要么引入额外copy。

　　解法：我们让prefill阶段直接产出压缩态KV，decode期间只对局部块做解码与校正，配合页式KV管理与多租户整形，把读放大压到最小。

　　4.3精度&资源实测：零精度损失、KV内存占用>60%下降、可容纳Token数↑3.76倍

　　为保证不同批次/同事复现实验结论一致，我们按既定验收口径(①内积偏差分布(query-key)；②注意力得分KL与Top-K稳定性；③端到端任务指标逐项评估TurboQuant接入效果。结果如下：

　　1.端到端任务指标｜精度无损

　　在长上下文基准(如Needle-in-a-Haystack、LongBench等)的实测中，TurboQuant版本与FP16基线的主要任务指标无显著差异(“精度无损”)，满足我们对对外口径的“质量中性”要求。

　　2.资源侧收益｜显存使用实测下降>60%

　　 KV Cache的显存占用在相同场景下实测下降超过60%，直接带来更高的并发承载与更平滑的尾延迟。

　　3.容量提升｜相同21.26GB预算下Token容量↑3.76倍

　　基线：在21.26GB KV预算下，可容纳Token数为154,768；

　　启用TurboQuant：同样21.26GB预算下，可容纳Token数提升至582,704；

　　提升倍数≈3.76倍(582,704/154,768)。

　　为便于对比，关键指标汇总如下：

　　我们踩过的坑：供后来者少走弯路

　　旋转矩阵的复用边界：复用粒度太粗会引入头间相关的小偏差，建议按head/层有节制地复用+随机种子管理(可复现实验)。

　　量化codebook的存取：别在核里搞“二分查找”那套，Lloyd-Max codebook直接LUT+向量化，对齐Google提倡的“加速器友好”。

　　解码路径的读放大：只做局部块恢复+残差校正，慎用“整页解压”，不然带宽又回去了。

　　这事对“算力经济学”的意义

　　把KV Cache从“最贵的内存消耗项”降到“可忽略级别”，意味着在相同硬件上能跑更长上下文/更高并发，或者在更便宜硬件上跑到“够用”的服务等级。媒体普遍认为：这类效率红利，会让AI服务的单位成本更可控，边缘/端侧也更具现实性。

　　同一时间，行业也在降噪：别把推理侧KV压缩等同于“内存产业不需要了”。训练/存储/数据侧的需求并没被TurboQuant触及。历史反复证明，当AI某个环节的成本大幅下降时，用量的增长往往远超成本的节省。DeepSeek的蒸馏和MoE当初也被认为会减少算力需求，结果呢？需求不减反增。降本在每一个环节都是确定性趋势，但它带来的不是需求萎缩，而是需求爆发。

　　下一步计划(Roadmap)

　　模型/框架适配：完善与vLLM/FusionXpark的对接适配，给到“一键切KV后端”的体验；跟踪社区MLX/llama.cpp方向的实现，维持互测自证。

　　位宽策略：场景化位宽混用(例如3.5bit默认、2.5bit触发在检索/辅助路径)，配合动态门控。

　　评测公开：等内测稳定后，我们会把端到端评测与可复现实验整理输出，口径与Google博客常用基准对齐。

　　给工程师的“快用指南”

　　(伪代码示例)

　　仅展示接入思路，便于开发同学一眼看懂，不代表最终代码形态。

　　#1)构建TurboQuant KV后端(极简示意)

　　 rot=make_random_orthogonal(seed=layer_id*131+head_id)

　　 codebook=load_lloyd_max_codebook(bits=b-1)

　　 proj=make_jl_projection(seed=layer_id*13131+head_id)

　　 def tq_encode(k_or_v):

　　 z=rotate(k_or_v,rot)#随机旋转

　　 r,theta=to_polar(z)#极坐标分解

　　 theta_q=quantize(theta,codebook)#(b-1)bit res=z-from_polar(r,dequant(theta_q,codebook))

　　 sgn=jl_sign(res,proj)#1-bit残差校正

　　 return(theta_q,r,sgn)

　　 def tq_attn_dot(query,key_hat,sgn,proj):

　　 return dot(query,key_hat)+qjl_corr(query,sgn,proj)

　　#2)Prefill：直接产出压缩态KV；Decode：局部块解压+QJL校正

　　(对照论文和Google博客里的描述就能对上号：PolarQuant负责主体压缩，QJL负责1-bit校正；“加速器友好”重点就是向量化、查表、无元数据。)

　　结语：把“论文里的好点子”

　　变成“机房里的好生意”

　　老实讲，TurboQuant不是一个“看一眼就会的花活”，但也绝不是“只能在论文里发光”的高冷数学。真正的壁垒在工程接入、算子优化、系统调度，而非“有没有一个reference”。我们已经把自研推理栈的接口与调度和TurboQuant深度贴合，在缺少官方实现的前提下，依据论文细节与统一验收口径完成算法复现与加速器级优化——这就是我们性能团队这几天的工作日常。把内存墙凿出一道缝，单卡能跑的上下文更长、并发更稳，这就是业务侧能感知到的真实优化。

所有文章未经授权禁止转载、摘编、复制或建立镜像，违规转载法律必究。

举报邮箱：1002263188@qq.com

TurboQuant 72小时极速实测：超聚变FusionOne AI首批落地实践

买锂电池发现商家“强卖点、弱提示”构成欺诈，法院：商家三倍赔偿

一飞冲天！朱雀二号改进型火箭究竟进化了什么？

价格前线|河南平顶山主焦煤出厂价价格近一个月无异动

出资额10亿，工银投资工银资本泰达联袂入局？