F5发布Token级负载均衡方案TBLB，破局AI算力低效困局

“AI工厂”

F5亚太区首席技术官Mohan Veloo在主题演讲中提出一个直观模型：将AI基础设施类比为“AI工厂”——以电力为输入，以算力为输出，而算力的“产出”可统一用Token来量化和衡量。

F5亚太区首席技术官Mohan Veloo

例如，一句典型用户提问经系统处理后，通常拆分为约13个输入Token、生成约27个输出Token。Token已不仅是技术单位，更成为衡量AI服务成本、性能与商业价值的核心经济指标。随着全球每日Token生成量突破百万亿量级，其经济属性日益凸显。

围绕Token的精细化治理，F5提炼出五大关键优化维度：

Mohan Veloo强调，能源正迅速跃升为AI规模化部署的首要瓶颈。若缺乏深度优化，不仅造成算力闲置与电力浪费，更将直接侵蚀企业利润底线。

F5中国区产品及解决方案总经理陈亮在演讲中指出，当前中国企业面临三大结构性挑战：“异构算力、模型错配、调度粗放”。

一是算力高度异构。企业采购的GPU跨品牌、跨代际、跨国产/国际芯片，性能差异显著，底层能力不均衡，导致集群难以统一调度与协同利用。

二是模型与硬件适配不足。不同大模型对计算架构（如Tensor Core、NPU、昇腾AI Core）的指令集、内存带宽、显存拓扑依赖各异，在非原生平台上部署常引发推理延迟上升、吞吐下降等隐性损耗。

三是传统负载均衡机制严重滞后。现有方案仅按请求数量或连接数做静态分发，无法感知后端GPU实时利用率、显存压力、温度状态及Token级资源消耗特征。面对代码生成、视频渲染、图文理解等差异巨大的推理任务，粗粒度调度极易引发“部分节点过载、其余空转”的资源失衡，最终导致用户体验降级与算力浪费并存。

针对上述痛点，F5中国在Solution Day上正式推出基于词元（Token）的负载均衡解决方案（TBLB）。

TBLB的核心范式是从“按请求分发”升级为“按Token成本智能调度”。系统在请求接入时即完成语义解析与资源影响预测，结合实时GPU压力感知（含显存占用、计算单元饱和度、温度、功耗等多维指标），动态调整后续请求的分配策略，实现毫秒级精细化调度。

该方案全面兼容AMD、英伟达及主流国产GPU（如昇腾910B、平头哥PPU、寒武纪MLU等）的多品牌、多版本硬件环境，有效盘活企业存量算力资产。实测数据验证其显著成效：

F5北亚区区域副总裁张振伦表示：“TBLB支持跨品牌、跨代际GPU的统一纳管与协同调度，在保障高可用与低延迟的同时，实测可将GPU平均利用率提升60%。对于单卡采购成本动辄数十万元的高端GPU而言，这相当于大幅延长资产生命周期、降低TCO。”

“无安全，则无可持续的AI落地。”F5北亚区总裁黄彦文在发布会上强调。

AI原生攻击正快速演进：数字人直播中，恶意提示词可诱导模型持续输出无关内容；文档解析环节，隐形嵌入的语义指令可能绕过传统过滤机制，触发敏感数据外泄。这类攻击不再依赖固定签名，而是基于上下文动态生成，使传统基于规则或特征码的安全方案失效。

F5采用“以AI对抗AI”的主动防御体系：通过AI红队持续挖掘模型漏洞，结合AI护栏对输入/输出进行实时语义分析与风险拦截；每月自动生成约1万个新型AI攻击特征码，并构建全球规模领先的AI攻防数据集之一。安全策略由此形成“发现—防护—修复”全自动闭环，无需人工干预即可随威胁演进动态更新。

此外，针对“量子末日”风险——即当前被截获的加密数据待量子计算机成熟后批量解密，F5已建成专用加密参数管理体系，可在加密算法受冲击时分钟级完成密钥与参数轮换。

Mohan Veloo特别指出：“漏洞修复节奏已发生质变——过去企业每周处理百余项漏洞，如今已达上万项级别。快速修复不再是加分项，而是生存刚需。”这意味着企业必须从静态边界防御，转向运行时动态防护，并在漏洞曝光前就部署前置拦截策略。

Token经济的本质，不是算力数量的比拼，而是效率治理能力的竞争。

Mohan Veloo将AI生产流程凝练为三大控制点：统一入口网关、智能编排调度、可信模型推理。企业对软件定义基础设施的精细化运营能力，将直接决定其在智能经济中的竞争位势。

从算力投入走向Token产出，从粗放分发迈向精准治理——AI推理时代的经济学命题，答案不在更多硬件里，而在对每一个控制点的毫秒级掌控之中。