simd:用上intel intrinsic实现一次完成1x4个C元素的乘加操作;; 矩阵分块:设置分块参数,优化L2 cache的使用;; 对kernel中参与计算的部分A和部分B打包: ...
確定! 回上一頁