网站地图官方微信:
网站首页 义乌市 嵊山镇 汭丰乡 井沟乡 伊吾镇 zh

当前位置: 首页 >

写CUDA到底难在哪?

对GPU进行性能优化时,cudagraph是绕不开的话题。

不仅是GPU,大部分的xpu都会提供类似graph mode的优化,相比于每次分别由CPU进行kernel launch的eager mode,graph mode通常都会有较大性能提升,然而也经常容易出现各种各样的奇怪问题。

NVIDIA有一个简单的 博客 介绍,其中只使用了stream capture的形式来构造cudagraph,而且本质上就是多个kernel前后提交,根本无法展示cudagraph的复杂性。

本文尝试从底层原理出发,根据文档 和 …。

写CUDA到底难在哪?

  • | 超级喜欢穿短裙正常吗? |

    我也不知道我的短不短,从以前的 45cm 左右到了现在 40...

    查看详情>>
  • | 汉语是牺牲了什么,才成为世界最紧凑、最高效的语言? |

  • | 中国的歼35A可以吊打十架韩国的KF21吗? |

  • | 你卡过最厉害的bug是什么? |

  • | Node.js 性能为什么这么差? |

  • | HTTP/3 解决了什么问题,又引入了什么新问题? |

  • | 鱼缸过滤全天开着太耗电,关掉半天又容易水浑,有什么好办法? |

  • | 张伟丽可以打败什么级别的普通男性? |

  • | 网传厦门某国企研发部门要求每日考察后端 400 行,前端 1000 行代码量,如属实,这个考核合理吗? |

  • | 如何看待CCTV13批评“L2.999智驾”等误导性宣传,若导致事故车企可能需要担责? |

  • | 入职第一天有什么瞬间让你马上想离职的? |

  • 0.5b 这种才是最有用的,因为它可以万能地微调成单一小任务...

    2025-06-21
  • 咋了,你想看F-35I给F-14老爷爷踩踩背? 更新:好了,...

    2025-06-21
  • 感谢大家的关注和支持!收到这么多鼓励的私信,真的让我受宠若惊...

    2025-06-21
  • 新出的烤鱼,有个异物。 拍了个照。 晚上九点四十提交的客服,...

    2025-06-22

关注我们

添加微信好友,关注最新动态