F5发布Token级负载均衡方案TBLB,破局AI算力低效困局

AI算力的军备竞赛正进入深水区,但一个逐渐清晰的共识是:堆算力不等于提生产力。

从英伟达的产品推出节奏就不难看出,GPU迭代周期已从过去的3-5年压缩至12-15个月,算力硬件的更新节奏远超企业资产折旧周期。企业面临的真正挑战,不再是“有没有算力”,而是“如何将算力高效转化为实际生产力”。

5月25日,F5在北京举办媒体发布会,在公司成立30周年之际,集中展示了应用交付与安全平台(ADSP)的全面进化、本地化基于词元(Token)的负载均衡解决方案(TBLB),并宣布正式成立F5 AI应用工程部。围绕AI时代的算力效率与经济转化,F5给出了系统性破局路径。

“AI工厂”

F5亚太区首席技术官Mohan Veloo在主题演讲中提出一个直观模型:将AI基础设施类比为“AI工厂”——以电力为输入,以算力为输出,而算力的“产出”可统一用Token来量化和衡量。

F5亚太区首席技术官Mohan Veloo

例如,一句典型用户提问经系统处理后,通常拆分为约13个输入Token、生成约27个输出Token。Token已不仅是技术单位,更成为衡量AI服务成本、性能与商业价值的核心经济指标。随着全球每日Token生成量突破百万亿量级,其经济属性日益凸显。

围绕Token的精细化治理,F5提炼出五大关键优化维度:

  • Token吞吐量(Tokens per Second):反映系统整体处理能力与并发效率;
  • 首Token响应时间(Time to First Token):直接影响终端用户体验流畅度;
  • 单Token成本(Cost per Token):决定AI服务的可持续盈利空间;
  • 端到端延迟(End-to-End Latency):体现全链路推理响应质量;
  • 每瓦Token数(Tokens per Watt):表征能源利用效率,是绿色AI落地的关键约束。

Mohan Veloo强调,能源正迅速跃升为AI规模化部署的首要瓶颈。若缺乏深度优化,不仅造成算力闲置与电力浪费,更将直接侵蚀企业利润底线。

企业困局

F5中国区产品及解决方案总经理陈亮在演讲中指出,当前中国企业面临三大结构性挑战:“异构算力、模型错配、调度粗放”。

一是算力高度异构。企业采购的GPU跨品牌、跨代际、跨国产/国际芯片,性能差异显著,底层能力不均衡,导致集群难以统一调度与协同利用。

二是模型与硬件适配不足。不同大模型对计算架构(如Tensor Core、NPU、昇腾AI Core)的指令集、内存带宽、显存拓扑依赖各异,在非原生平台上部署常引发推理延迟上升、吞吐下降等隐性损耗。

三是传统负载均衡机制严重滞后。现有方案仅按请求数量或连接数做静态分发,无法感知后端GPU实时利用率、显存压力、温度状态及Token级资源消耗特征。面对代码生成、视频渲染、图文理解等差异巨大的推理任务,粗粒度调度极易引发“部分节点过载、其余空转”的资源失衡,最终导致用户体验降级与算力浪费并存。

破局路径

针对上述痛点,F5中国在Solution Day上正式推出基于词元(Token)的负载均衡解决方案(TBLB)。

TBLB的核心范式是从“按请求分发”升级为“按Token成本智能调度”。系统在请求接入时即完成语义解析与资源影响预测,结合实时GPU压力感知(含显存占用、计算单元饱和度、温度、功耗等多维指标),动态调整后续请求的分配策略,实现毫秒级精细化调度。

该方案全面兼容AMD、英伟达及主流国产GPU(如昇腾910B、平头哥PPU、寒武纪MLU等)的多品牌、多版本硬件环境,有效盘活企业存量算力资产。实测数据验证其显著成效:

  • 某汽车行业客户:6块NVIDIA A40 + 8块L20混合集群,在零新增硬件投入前提下,Token生成速度提升30.3%,端到端响应速度提升48%;
  • 某运营商客户:采用华为Ascend 910B集群,引入TBLB后,并发用户承载能力提升至少75%,Token生成速度提升达99%;
  • 某金融行业客户:阿里平头哥PPU与NVIDIA H20混合集群,优化后Token生成速度提升42%,数据传输流畅度提升7.1%。

F5北亚区区域副总裁张振伦表示:“TBLB支持跨品牌、跨代际GPU的统一纳管与协同调度,在保障高可用与低延迟的同时,实测可将GPU平均利用率提升60%。对于单卡采购成本动辄数十万元的高端GPU而言,这相当于大幅延长资产生命周期、降低TCO。”

安全:构建AI时代的动态防御闭环

“无安全,则无可持续的AI落地。”F5北亚区总裁黄彦文在发布会上强调。

AI原生攻击正快速演进:数字人直播中,恶意提示词可诱导模型持续输出无关内容;文档解析环节,隐形嵌入的语义指令可能绕过传统过滤机制,触发敏感数据外泄。这类攻击不再依赖固定签名,而是基于上下文动态生成,使传统基于规则或特征码的安全方案失效。

F5采用“以AI对抗AI”的主动防御体系:通过AI红队持续挖掘模型漏洞,结合AI护栏对输入/输出进行实时语义分析与风险拦截;每月自动生成约1万个新型AI攻击特征码,并构建全球规模领先的AI攻防数据集之一。安全策略由此形成“发现—防护—修复”全自动闭环,无需人工干预即可随威胁演进动态更新。

此外,针对“量子末日”风险——即当前被截获的加密数据待量子计算机成熟后批量解密,F5已建成专用加密参数管理体系,可在加密算法受冲击时分钟级完成密钥与参数轮换。

Mohan Veloo特别指出:“漏洞修复节奏已发生质变——过去企业每周处理百余项漏洞,如今已达上万项级别。快速修复不再是加分项,而是生存刚需。”这意味着企业必须从静态边界防御,转向运行时动态防护,并在漏洞曝光前就部署前置拦截策略。

结语

Token经济的本质,不是算力数量的比拼,而是效率治理能力的竞争。

Mohan Veloo将AI生产流程凝练为三大控制点:统一入口网关、智能编排调度、可信模型推理。企业对软件定义基础设施的精细化运营能力,将直接决定其在智能经济中的竞争位势。

从算力投入走向Token产出,从粗放分发迈向精准治理——AI推理时代的经济学命题,答案不在更多硬件里,而在对每一个控制点的毫秒级掌控之中。