Aaa

vscode-cpptools-1.23.2 下载

pytorch-main 下载

ml-engineering-master 下载

库	moe_scatter_dynamic_quant 最接近项	moe_gather 最接近项	是否直接含通信	是否直接含量化	与 xpu-perf 的主要差异
Megatron	token dispatcher / permute	combine_postprocess / unpermute	是	文档未把这一步单独公开成同边界接口	更偏完整 EP 路径，算子边界被系统优化重构
DeepSpeed	MoE layer 内部 dispatch	MoE layer 内部combine	是	未见同颗粒度公开接口	框架层级更高，难与微核一一对齐
vLLM	prepare() / moe_permute()	moe_unpermute() / finalize()	是	是	语义最接近，但更偏模块化系统接口
flash-attention	无直接对应	无直接对应	不适用	不适用	优化对象是attention，不是MoE dispatch/combine
SGLang	dispatch + pre-permute	post-permute + combine	取决于后端	取决于后端	是可插拔流水线，不是固定微核
FlashInfer	fused MoE 内部route/pack/reorder	fused MoE 内部unpermute/reduce	依后端	依后端/实现	更高层融合，不直接暴露这两个裸核
TensorRT-LLM	dispatch kernel	combine kernel	是	低精度强，但不是同名同边界接口	最接近真实推理系统路径
verl	无直接公开对应	无直接公开对应	依后端	依后端	更像上层编排框架
Colossal-AI	router 的 dispatch mask	router 的 combine weight	未在公开接口中拆到该粒度	未见	更靠路由语义，不是完整重排/回填核
Triton	可自实现	可自实现	否	可自实现	是实现工具，不是现成算子库
Apex	无直接对应	无直接对应	不适用	不适用	产品重点不在这里
Transformer Engine	permute + grouped linear	unpermute	否	低精度强，但前半段非同边界	moe_gather 对位很近，前半段只部分对应
xFormers	无直接对应	无直接对应	不适用	不适用	产品重点不在这里
TorchInductor	可编译实现	可编译实现	否	可融合但非固定接口	是编译器后端，不是公开 MoE 微核库

Published: 2025年2月27日

Categories: 未分类

Next Post: torrent share →