Aaa

moe_scatter_dynamic_quant 最接近项moe_gather 最接近项是否直接含通信是否直接含量化 xpu-perf 的主要差异
Megatrontoken dispatcher / permutecombine_postprocess / unpermute文档未把这一步单独公开成同边界接口更偏完整 EP 路径,算子边界被系统优化重构
DeepSpeedMoE layer 内部 dispatchMoE layer 内部combine未见同颗粒度公开接口框架层级更高,难与微核一一对齐
vLLMprepare() / moe_permute()moe_unpermute() / finalize()语义最接近,但更偏模块化系统接口
flash-attention无直接对应无直接对应不适用不适用优化对象是attention,不是MoE dispatch/combine
SGLangdispatch + pre-permutepost-permute + combine取决于后端取决于后端是可插拔流水线,不是固定微核
FlashInferfused MoE 内部route/pack/reorderfused MoE 内部unpermute/reduce依后端依后端/实现更高层融合,不直接暴露这两个裸核
TensorRT-LLMdispatch kernelcombine kernel低精度强,但不是同名同边界接口最接近真实推理系统路径
verl无直接公开对应无直接公开对应依后端依后端更像上层编排框架
Colossal-AIrouter  dispatch maskrouter  combine weight未在公开接口中拆到该粒度未见更靠路由语义,不是完整重排/回填核
Triton可自实现可自实现可自实现是实现工具,不是现成算子库
Apex无直接对应无直接对应不适用不适用产品重点不在这里
Transformer Enginepermute + grouped linearunpermute低精度强,但前半段非同边界moe_gather 对位很近,前半段只部分对应
xFormers无直接对应无直接对应不适用不适用产品重点不在这里
TorchInductor可编译实现可编译实现可融合但非固定接口是编译器后端,不是公开 MoE 微核库