AI Accelerators

WaferLLM: Large Language Model Inference at Wafer Scale

WaferLLM introduces the first wafer-scale Large Language Model inference system, achieving up to 200× higher accelerator utilization and 10-20× speedups over GPU clusters. The system leverages a novel PLMR model and introduces MeshGEMM/MeshGEMV operations optimized for wafer-scale architectures with hundreds of thousands of AI cores.

Congjie He, Yeqi Huang, Pei Mu, Ziming Miao, Jilong Xue, Lingxiao Ma, Fan Yang, Luo Mai

WaferLLM: Large Language Model Inference at Wafer Scale