Zhangzhe's Blog

The projection of my life.

0%

2025.02 DeepSeek 开源周第三弹 —— DeepGEMM

URL

TL;DR

  • DeepGEMM 是一个简单但功能强大的 Hopper GPU (H100/H800) 矩阵计算加速库
  • 包含大约 300 行核心代码,可以做到在绝大多数大小的矩阵乘法均优于专家调优的内核,hopper GPU 上最高可达 1350+ FP8 TFLOPS
  • 完全即时编译,没有过多依赖,就像教程一样简洁,支持 densemoe 架构

Algorithm

  • HPC 相关的内容对于我确实超纲了,CPU 快给我干烧了
  • 还是看大佬的讲解吧,传送门走你

Thought

  • deepseek 牛逼,为 LLM 平权做了不可磨灭的贡献
  • 而且如此技术信仰,是算法工程师应有的样子,打 call