本文共 681 字,大约阅读时间需要 2 分钟。
代码摘取自:
code
"vld1.f32 {d16-d17}, [%1] \n" // vld1.f32, 从 %1 载入128bit // float *destptr1 = c + ldc;"vld1.f32 {d18-d19}, [%2] \n"// float *destptr2 = c + 2 * ldc;"vld1.f32 {d20-d21}, [%3] \n"// float *destptr3 = c + 3 * ldc;"vld1.f32 {d22-d23}, [%4] \n""pld [%5, #512] \n" // 预载入"pld [%6, #512] \n""vldr d8, [%6] \n" // 载入8字节/2个数 到 d8 寄存器, d8 中有2个数"vldr d0, [%5] \n" "vldr d1, [%5, #8] \n""vldr d9, [%6, #8] \n" // %6移动8个字节,再载入两个8字节/2个数到d9"vmla.f32 q8, q0, d8[0] \n" // q0表示4个数,q0=d0+d1, a[i] + (b[i] * c)"vldr d2, [%5, #16] \n"
转载地址:http://kuhws.baihongyu.com/