URL
TL;DR
DeepGEMM
是一个简单但功能强大的Hopper GPU (H100/H800)
矩阵计算加速库- 包含大约
300
行核心代码,可以做到在绝大多数大小的矩阵乘法均优于专家调优的内核,hopper GPU
上最高可达1350+ FP8 TFLOPS
- 完全即时编译,没有过多依赖,就像教程一样简洁,支持
dense
和moe
架构
Algorithm
- 这
HPC
相关的内容对于我确实超纲了,CPU
快给我干烧了 - 还是看大佬的讲解吧,传送门走你
Thought
deepseek
牛逼,为LLM
平权做了不可磨灭的贡献- 而且如此技术信仰,是算法工程师应有的样子,打 call