资讯热度排行榜

CUDA之通用矩阵乘法：从入门到熟练！

来源:CTO 日期:2024/3/25 9:40:31 阅读量:(0)

本文经自动驾驶之心公众号授权转载，转载请联系出处。

通用矩阵乘法 (General Matrix Multiplication，GEMM) 是各种模型和计算中的核心部分，同时也是评估计算硬件性能 (FLOPS) 的标准技术。本文将通过对 GEMM 的实现和优化，来试图理解高性能计算和软硬件系统。

一、GEMM的基本特征

1.1 GEMM计算过程及复杂度

GEMM 的定义为：

矩阵乘法的计算示意

1.2 简单实现及过程分析

下面是按照原始定义实现的 CPU 上实现的代码，之后用以作为精度的对照

#define OFFSET(row, col, ld) ((row) * (ld) + (col))

void cpuSgemm(
    float *a, float *b, float *c, const int M, const int N, const int K) {

    for (int m = 0; m < M; m++) {
        for (int n = 0; n < N; n++) {
            float psum = 0.0;
            for (int k = 0; k < K; k++) {
                psum += a[OFFSET(m, k, K)] * b[OFFSET(k, n, N)];
            }
            c[OFFSET(m, n, N)] = psum;
        }
    }
}

关键字：

声明：我公司网站部分信息和资讯来自于网络，若涉及版权相关问题请致电（63937922）或在线提交留言告知，我们会第一时间屏蔽删除。

有价值

0% (0)

无价值

0% (10)

上一篇：何恺明新作：消除数据集偏差的十年之战

下一篇：能玩3D游戏的AI玩家！谷歌新智能体SIMA发布，但水平还在“新手村”

分享转发：

发表评论请先登录后发表评论。愿您的每句评论，都能给大家的生活添色彩，带来共鸣，带来思索，带来快乐。