InnerProductSIMD16ExtAVX512 Efficient AVX512 instruction implementation consider the size of a Vector that is not divisible by 4

aurora327 · aurora327 · commit 92910204e8ea · 2023-06-20T03:30:29.000-04:00
diff --git a/hnswlib/space_ip.h b/hnswlib/space_ip.h
@@ -158,7 +158,8 @@ InnerProductSIMD16ExtAVX512(const void *pVect1v, const void *pVect2v, const void
     __m512 sum512 = _mm512_set1_ps(0);
 
     size_t loop = qty16 / 4;
-    for( int i = 0; i < loop; i++) {
+    
+    while (loop--) {
         __m512 v1 = _mm512_loadu_ps(pVect1);
         __m512 v2 = _mm512_loadu_ps(pVect2);
         pVect1 += 16;
@@ -185,6 +186,14 @@ InnerProductSIMD16ExtAVX512(const void *pVect1v, const void *pVect2v, const void
         sum512 = _mm512_fmadd_ps(v7, v8, sum512);
     }
 
+    while (pVect1 < pEnd1) {
+        __m512 v1 = _mm512_loadu_ps(pVect1);
+        __m512 v2 = _mm512_loadu_ps(pVect2);
+        pVect1 += 16;
+        pVect2 += 16;
+        sum512 = _mm512_fmadd_ps(v1, v2, sum512);
+    }
+
     float sum = _mm512_reduce_add_ps(sum512);
     return sum;
 }