| 库 | moe_scatter_dynamic_quant 最接近项 | moe_gather 最接近项 | 是否直接含通信 | 是否直接含量化 | 与 xpu-perf 的主要差异 |
| Megatron | token dispatcher / permute | combine_postprocess / unpermute | 是 | 文档未把这一步单独公开成同边界接口 | 更偏完整 EP 路径,算子边界被系统优化重构 |
| DeepSpeed | MoE layer 内部 dispatch | MoE layer 内部combine | 是 | 未见同颗粒度公开接口 | 框架层级更高,难与微核一一对齐 |
| vLLM | prepare() / moe_permute() | moe_unpermute() / finalize() | 是 | 是 | 语义最接近,但更偏模块化系统接口 |
| flash-attention | 无直接对应 | 无直接对应 | 不适用 | 不适用 | 优化对象是attention,不是MoE dispatch/combine |
| SGLang | dispatch + pre-permute | post-permute + combine | 取决于后端 | 取决于后端 | 是可插拔流水线,不是固定微核 |
| FlashInfer | fused MoE 内部route/pack/reorder | fused MoE 内部unpermute/reduce | 依后端 | 依后端/实现 | 更高层融合,不直接暴露这两个裸核 |
| TensorRT-LLM | dispatch kernel | combine kernel | 是 | 低精度强,但不是同名同边界接口 | 最接近真实推理系统路径 |
| verl | 无直接公开对应 | 无直接公开对应 | 依后端 | 依后端 | 更像上层编排框架 |
| Colossal-AI | router 的 dispatch mask | router 的 combine weight | 未在公开接口中拆到该粒度 | 未见 | 更靠路由语义,不是完整重排/回填核 |
| Triton | 可自实现 | 可自实现 | 否 | 可自实现 | 是实现工具,不是现成算子库 |
| Apex | 无直接对应 | 无直接对应 | 不适用 | 不适用 | 产品重点不在这里 |
| Transformer Engine | permute + grouped linear | unpermute | 否 | 低精度强,但前半段非同边界 | moe_gather 对位很近,前半段只部分对应 |
| xFormers | 无直接对应 | 无直接对应 | 不适用 | 不适用 | 产品重点不在这里 |
| TorchInductor | 可编译实现 | 可编译实现 | 否 | 可融合但非固定接口 | 是编译器后端,不是公开 MoE 微核库 |