从算子到算法发现,智子芯元KernelCAT正在重新定义“算力释放”这件事

互联网 2026-06-26 11:00:48 9051
A+ A-

人类科学和工业的发展史,本质上是一部计算效率不断跃迁的历史。从手算、算盘到通用计算机和芯片,计算加速经历了工具迭代;从CPU到GPU、从串行到并行,又走过了硬件架构跃迁的阶段。但今天,新的瓶颈出现了。

买到一块芯片,并不等于拿到了它的全部算力。大模型、智能体、具身智能、科学计算把计算需求推向新的数量级,但硬件制程、功耗和成本约束越来越明显,单纯靠硬件扩张很难持续换来线性的效率提升。同样一批芯片,跑不同的模型、框架与业务负载,实际表现可能完全不同。理论峰值和有效算力之间的差距,正在成为制约产业发展的核心矛盾。

更棘手的是,软硬件体系的高速更迭让问题雪上加霜。芯片架构、编译器、推理框架与通信网络都在变化,任何一侧更新都会带来新的适配和调优问题。而真正能同时理解算法、系统、硬件并把优化结果交付到生产环境的人极度稀缺。靠少数专家的反复排查、调参和验证,已经接近效率上限。计算任务本身也在变复杂——AI应用从对话式交互走向智能体执行,模型推理从单次问答延伸到长链路任务,计算负载变得更加动态和碎片化。

计算加速需要进入新的阶段:用AI来自动优化计算本身。

AI for Computing:让智能体全面接管计算系统的复杂度

正是在这样的背景下,智子芯元选择了AI for Computing(人工智能驱动的计算)赛道。这家成立于2025年8月的初创公司,通过首个「大模型+运筹优化+算法自动发现」的技术范式,打造能够全面掌控复杂计算系统的智能体。

这套技术路线的核心目标很清晰:把横跨软硬件各层级的复杂度从人类工程师手中全面接管,让计算芯片参数表上的理论峰值转化为使用场景中真实有效的实际算力。

具体怎么实现?可以拆解为三步:

第一步,看清计算任务。 一个计算任务进入系统后,首先要被拆解成可分析、可优化、可评测的对象——时延、吞吐量、功耗。性能瓶颈可能藏在内存访问、并行调度、算子实现、编译路径、推理框架与硬件适配等任何一个环节。AI必须先透彻理解计算任务与系统本身,否则后面的优化就是盲试。

第二步,自动搜索与算法发现。 计算加速的难点在于优化空间极其庞大——同一个计算任务往往有大量可能的实现方式。AI提供通用理解和生成能力,负责理解任务、生成候选方案、补齐不同场景下的实现思路。运筹优化则负责在复杂约束条件下进行数学建模和优化搜索——可以理解为工厂排产:每道工序用哪台设备、什么时候开始、资源冲突如何避免。放到计算系统里,排产管理对应的就是算子、计算路径、编译策略和硬件资源之间的协同关系。大模型负责理解任务、给出候选方案,运筹优化负责在硬件的硬约束里搜最优的参数和调度。

第三步,硬件验证。 一个算法是否真有效,必须回到真实芯片、真实框架和真实业务负载中验证。硬件反馈让优化过程从经验工程走向自动化工程。

KernelCAT:把计算加速跑成自动闭环

遵循这套技术范式,智子芯元打造了核心产品——KernelCAT自动化计算加速平台。

KernelCAT并非传统的编程工具或简单的代码生成器,而是一个基于大模型构建、具备深度领域知识的智能体框架。它的核心能力是把用户的自然语言需求,转化为可执行、验证与交付的优化流程。当模型、算子、计算图、业务负载、目标硬件和性能目标接入后,它会先分析计算依赖、资源约束、硬件特征和潜在优化空间,再结合AI生成、运筹优化、强化学习和硬件反馈搜索候选方案,最后在真实硬件上验证结果。

这套流程可以概括为四步:「分析—编码—上板调优—交付」 ,将计算加速中的复杂环节串成一个自动闭环。

KernelCAT面向的是一整类计算加速任务。过去,一次模型迁移或硬件适配可能需要工程师反复查文档、写代码、编译、跑测试、看profiling、调参——每换一个模型、框架或硬件,很多工作又得重来一遍。KernelCAT让系统自动接管底层复杂流程,快速完成POC、跑通框架适配,并根据真实业务负载优化。

基于KernelCAT这一底座,智子芯元推出了两款核心应用产品:Kerminal和KerWork。前者解决算力生态的系统性问题,后者是KernelCAT在端侧和高价值场景应用侧的能力体现。

不止工程排列组合:系统能用“数学思维”自主探索新解法

Kerminal是一套智能体系统,把模型能力、工具调用、代码执行、硬件反馈和任务流程组织在一起。它的能力不只是工程排列组合。

在评估AI加速GPU内核优化的基准KernelBench中,Kerminal取得了SOTA成绩,正确率、平均加速比与几何平均加速比三项核心指标均位居榜首。在CANN-Bench中,Kerminal在总计53个任务中的50个完成profiling,35个完全通过,41个通过率超过95%,仅有1个任务报错。

更关键的是,Kerminal凭借其底层的通用能力和深度优化能力,在多个主流benchmark中均取得了领先表现。这种跨榜单的泛化能力,恰恰说明它具备的是底层通用能力,而非为单一榜单定制的“应试技巧”。

在测试任务中,如果目标硬件上的常规实现方式在大值域和特殊值场景(如NaN)下精度不达标,Kerminal可以在没有人工提示的情况下,自主放弃原有实现,改用多项式逼近重新实现目标,并通过反复测试和迭代让精度达标。这说明Kerminal有能力用数学思维自主探索新的实现路径。

这种能力经受住了不同芯片平台的考验。KernelCAT生成和优化的tile算子已合并至昇腾官方CANN算子库ops-math。reshape_and_cache_kernel_flash算子从vLLM CUDA版本迁移到昇腾后,性能从14us优化到2.58us,提升5.4倍。

从“算得更快”到“能算以前算不了的事”

AI for Computing的价值,远不止“算得更快更便宜”。

计算能力的跃迁将重构底层生产力。从科学研究到工业生产,高价值产业正在被计算能力重新定义。蛋白结构预测、新药筛选、工业仿真、机器人策略迭代——这些事过去难以推进,并不是理论上不可能,而是计算跟不上。计算能力大幅提升之后,产业变化不只体现在效率层面。

一方面,这些高价值场景从“不可计算”变为“可被计算” ——转化为数学建模、算法搜索和系统优化问题。另一方面,计算变得更快、更便宜、更稳定,使这些能力能够真正进入业务流程。

智子芯元所处赛道的长期价值正在这里:持续提升计算效率,才是释放下一代生产力的关键。

责任编辑:ITCN
点击查看全文(剩余0%)

相关推荐