昇腾910FlashAttention适配alibi问题

huan666 · 2025 年10 月 7 日 17:36

问题现象

昇腾910上不开FA和开FA后loss对不齐。如下图中的两个曲线，前几个step loss相差较大。

问题分析

1.没有开启alibi参数
2.开启了alibi参数，但是因为海思的pse定义跟mindspore的不同，所以在送到海思前要先把scale除掉。
海思实现方法：

score = (k * v + pse) * scale

mindspore实现方法：

score = k * v * scale + pse

解决方法

目前除以scale的操作已经封装在nn.FlashAttention算子中，可以直接使用。(ms whl包中的路径mindspore/nn/layer/flash_attention.py)
如果使用的mindspore版本比较旧，还没有封装nn.FlashAttention算子，可用下面方法规避，只针对mindformers：

方法1. 修改类mindformers.modules.layers.AlibiTensorV2的init方法

# self.slopes = Tensor(slopes[None, :, None, None],mstype.float32) # (num_heads, 1)  
self.slopes = Tensor(slopes[None, :, None, None] * math.sqrt(head_dim), mstype.float32) # (num_heads, 1)

方法2.修改mindformers.modules.layers.build_alibi_tensor_v2方法

# slopes = np.expand_dims(np.expand_dims(slopes, 1), 1)  
slopes = np.expand_dims(np.expand_dims(slopes, 1), 1) * math.sqrt(head_dim)

话题		回复	浏览量
qwen2_vl使用mindspore.ops.flash_attention_score算子代替常规attention时，attention的输出attn_output和原始的版本不一致问题求助 Help	4	87	2025 年10 月 29 日
MindSpore2.2.10使用Flash attention特性报错AttributeError: module 'mindspore.nn'has no attribute 'FlashAttention' 安装经验-Installation Experience	0	25	2025 年10 月 2 日
MindSpore2.2.10用Flash attention特性报错AttributeError: module 'mindspore.nn'has no attribute 'FlashAttention' 安装经验-Installation Experience	0	24	2025 年10 月 14 日
重磅干货！MindSpore大模型报错解决地图来啦（持续更新中）经验分享 Tech Blogs	1	87	2025 年11 月 17 日
baichaun2-13b 在Ascend910上持续溢出数据加载及处理-Data Loading&Processing	0	11	2025 年9 月 27 日