From bfc67d8284f3d17c9d7ea15731082e74218bb0ef Mon Sep 17 00:00:00 2001
From: Seco1024 <deyenqiu@gmail.com>
Date: Tue, 18 Nov 2025 00:29:38 +0800
Subject: [PATCH 1/5] Implement profiling script

---
 .gitignore                 |   5 +-
 Makefile                   |  22 ++-
 benchmark/ivf_profiling.py | 322 +++++++++++++++++++++++++++++++++++++
 src/IVFFlatIndex.cpp       |  32 ++++
 4 files changed, 376 insertions(+), 5 deletions(-)
 create mode 100644 benchmark/ivf_profiling.py

diff --git a/.gitignore b/.gitignore
index eb45451..f47c2db 100644
--- a/.gitignore
+++ b/.gitignore
@@ -5,4 +5,7 @@
 /dist
 /zenann
 /build
-claude.md
\ No newline at end of file
+/index
+claude.md
+/.venv
+/benchmark_results
\ No newline at end of file
diff --git a/Makefile b/Makefile
index 60d14fe..1a06c6e 100644
--- a/Makefile
+++ b/Makefile
@@ -66,11 +66,15 @@ FULL_LDFLAGS := $(BASE_LDFLAGS) -fopenmp
 CUDA_CXXFLAGS := $(BASE_CXXFLAGS) -DENABLE_CUDA
 CUDA_LDFLAGS := $(BASE_LDFLAGS) -lcuda -lcudart
 
+# PROFILING: Full version with profiling enabled
+PROFILING_CXXFLAGS := $(BASE_CXXFLAGS) -march=native -fopenmp -DENABLE_OPENMP -DENABLE_SIMD -DENABLE_PROFILING
+PROFILING_LDFLAGS := $(BASE_LDFLAGS) -fopenmp
+
 # ============================================================================
 # Targets
 # ============================================================================
 
-.PHONY: all clean prepare naive openmp simd full cuda help
+.PHONY: all clean prepare naive openmp simd full cuda profiling help
 
 # Default target: build full version
 all: full
@@ -119,6 +123,15 @@ cuda: prepare
 	@echo "CUDA version not yet implemented"
 	@echo "Will output to: $(TARGET)"
 
+# Build profiling version (Full with profiling enabled)
+profiling: prepare
+	$(CXX) $(PROFILING_CXXFLAGS) $(ALL_INCLUDES) -shared -o $(TARGET) \
+	    $(SOURCES) \
+	    -L$(FAISS_ROOT)/lib -lfaiss \
+	    $(ALL_LIBS) \
+	    $(PROFILING_LDFLAGS)
+	@echo "✓ Built PROFILING version: $(TARGET)"
+
 # Clean all builds
 clean:
 	rm -rf build
@@ -131,9 +144,10 @@ help:
 	@echo "  make naive   - Build naive version (no parallelization)"
 	@echo "  make openmp  - Build OpenMP-only version"
 	@echo "  make simd    - Build SIMD-only version (AVX2)"
-	@echo "  make full    - Build fully optimized version (OpenMP + SIMD)"
-	@echo "  make cuda    - Build CUDA version (not yet implemented)"
-	@echo "  make all     - Build full version (default)"
+	@echo "  make full       - Build fully optimized version (OpenMP + SIMD)"
+	@echo "  make profiling  - Build profiling version (Full + detailed timing)"
+	@echo "  make cuda       - Build CUDA version (not yet implemented)"
+	@echo "  make all        - Build full version (default)"
 	@echo "  make clean   - Remove all built files"
 	@echo ""
 	@echo "Note: All versions output to build/zenann.so"
diff --git a/benchmark/ivf_profiling.py b/benchmark/ivf_profiling.py
new file mode 100644
index 0000000..d650271
--- /dev/null
+++ b/benchmark/ivf_profiling.py
@@ -0,0 +1,322 @@
+#!/usr/bin/env python3
+"""
+IVFFlat Search Profiling Tool
+==============================
+
+This tool analyzes the time breakdown of different stages in IVFFlat search.
+It runs multiple search queries and collects profiling data to identify bottlenecks.
+
+Usage:
+------
+1. Make sure the profiling version is built:
+   $ make profiling
+
+2. Set library path:
+   $ export LD_LIBRARY_PATH=extern/faiss/build/install/lib:$LD_LIBRARY_PATH
+
+3. Run with random test data (quick test):
+   $ python3 benchmark/ivf_profiling.py --random
+
+4. Run with custom parameters:
+   $ python3 benchmark/ivf_profiling.py --random --random_base 50000 --nlist 256 --nprobe 16
+
+5. Run with real dataset:
+   $ python3 benchmark/ivf_profiling.py --base data/sift/sift_base.fvecs --query data/sift/sift_query.fvecs
+
+Output:
+-------
+- Time breakdown for each search stage (centroid distance, list scanning, etc.)
+- Average, min, max values for each stage
+- Percentage of total time for each stage
+- Identification of bottleneck for CUDA optimization
+
+Notes:
+------
+- Index will be saved to ./index/ directory for reuse
+- Built index is shared between runs with same parameters
+"""
+
+import sys
+import os
+import argparse
+import numpy as np
+import re
+import subprocess
+import tempfile
+
+sys.path.append(os.path.abspath(os.path.join(__file__, '..', '..', 'build')))
+
+
+def load_fvecs(filename, max_vectors=None):
+    """Load float vectors from .fvecs format"""
+    fv = np.fromfile(filename, dtype=np.float32)
+    if fv.size == 0:
+        return np.zeros((0, 0))
+    dim = fv.view(np.int32)[0]
+    assert dim > 0
+    fv = fv.reshape(-1, 1 + dim)
+    if not all(fv.view(np.int32)[:, 0] == dim):
+        raise IOError("Non-uniform vector sizes in " + filename)
+    fv = fv[:, 1:]
+    if max_vectors:
+        fv = fv[:max_vectors]
+    return fv.copy()
+
+
+def parse_profile_line(line):
+    """Parse profiling output"""
+    match = re.search(
+        r'PROFILE: centroid_dist=([\d.]+)ms, centroid_select=([\d.]+)ms, '
+        r'list_scan=([\d.]+)ms, final_sort=([\d.]+)ms, total=([\d.]+)ms',
+        line
+    )
+    if match:
+        return {
+            'centroid_dist': float(match.group(1)),
+            'centroid_select': float(match.group(2)),
+            'list_scan': float(match.group(3)),
+            'final_sort': float(match.group(4)),
+            'total': float(match.group(5))
+        }
+    return None
+
+
+def run_profiling_searches(index_file, query_data, nprobe, k, num_queries):
+    """Run searches using subprocess to capture C++ stderr"""
+
+    # Create temporary files for data
+    with tempfile.NamedTemporaryFile(mode='w', suffix='.py', delete=False) as f:
+        script_path = f.name
+        f.write(f"""
+import sys
+import os
+import numpy as np
+
+sys.path.append('{os.path.abspath('build')}')
+from zenann import IVFFlatIndex
+
+# Load pre-built index
+index = IVFFlatIndex.read_index('{index_file}')
+
+# Load queries
+queries = np.load('{tempfile.gettempdir()}/prof_queries.npy')
+
+# Run searches
+for query in queries:
+    result = index.search(query.tolist(), {k}, {nprobe})
+""")
+
+    # Save queries only (index is already saved)
+    np.save(f'{tempfile.gettempdir()}/prof_queries.npy', query_data[:num_queries])
+
+    # Run subprocess and capture stderr
+    env = os.environ.copy()
+    env['LD_LIBRARY_PATH'] = 'extern/faiss/build/install/lib:' + env.get('LD_LIBRARY_PATH', '')
+
+    result = subprocess.run(
+        ['python3', script_path],
+        capture_output=True,
+        text=True,
+        env=env
+    )
+
+    # Clean up
+    os.unlink(script_path)
+
+    # Parse profiling data from stderr
+    profile_data = []
+    for line in result.stderr.split('\n'):
+        if 'PROFILE:' in line:
+            data = parse_profile_line(line)
+            if data:
+                profile_data.append(data)
+
+    return profile_data
+
+
+def main(args):
+    print("=" * 70)
+    print("IVFFlat Search Profiling Tool")
+    print("=" * 70)
+
+    # Load or generate dataset
+    if args.random:
+        print("\n1. Generating random test data...")
+        print(f"   Base: {args.random_base:,} vectors x {args.random_dim}D")
+        print(f"   Queries: {args.num_queries:,} vectors")
+        np.random.seed(42)
+        base = np.random.randn(args.random_base, args.random_dim).astype(np.float32)
+        queries = np.random.randn(args.num_queries, args.random_dim).astype(np.float32)
+    else:
+        print("\n1. Loading dataset...")
+        base = load_fvecs(args.base, max_vectors=args.max_base)
+        queries = load_fvecs(args.query, max_vectors=args.num_queries)
+        print(f"   Base vectors: {base.shape[0]:,} x {base.shape[1]}D")
+        print(f"   Query vectors: {queries.shape[0]:,} x {queries.shape[1]}D")
+
+    # Build index once
+    print(f"\n2. Building IVF index (nlist={args.nlist})...")
+    from zenann import IVFFlatIndex
+
+    # Create index directory if not exists
+    os.makedirs('index', exist_ok=True)
+
+    # Generate index filename based on parameters
+    if args.random:
+        index_file = f'index/prof_random_{args.random_base}_{args.random_dim}d_nlist{args.nlist}.bin'
+    else:
+        # Use base filename for real data
+        base_name = os.path.splitext(os.path.basename(args.base))[0]
+        index_file = f'index/prof_{base_name}_nlist{args.nlist}.bin'
+
+    # Check if index already exists
+    if os.path.exists(index_file):
+        print(f"   Loading existing index from {index_file}")
+        index = IVFFlatIndex.read_index(index_file)
+    else:
+        print(f"   Building new index...")
+        index = IVFFlatIndex(dim=base.shape[1], nlist=args.nlist, nprobe=args.nprobe)
+        index.build(base.tolist())
+        index.write_index(index_file)
+        print(f"   Index saved to {index_file}")
+
+    print(f"\n3. Running profiling (nprobe={args.nprobe}, k={args.k})...")
+    print(f"   Processing {args.num_queries} queries...")
+
+    # Run profiling with pre-built index
+    profile_data = run_profiling_searches(
+        index_file, queries, args.nprobe, args.k, args.num_queries
+    )
+
+    if not profile_data:
+        print("\n   ERROR: No profiling data collected!")
+        print("   Make sure the library was built with 'make profiling'")
+        return
+
+    print(f"   Collected {len(profile_data)} profiling samples")
+
+    # Analyze results
+    print(f"\n4. Profiling Results (averaged over {len(profile_data)} queries)")
+    print("=" * 70)
+
+    # Calculate statistics
+    keys = ['centroid_dist', 'centroid_select', 'list_scan', 'final_sort', 'total']
+    stats = {}
+
+    for key in keys:
+        values = [d[key] for d in profile_data]
+        stats[key] = {
+            'mean': np.mean(values),
+            'min': np.min(values),
+            'max': np.max(values),
+            'std': np.std(values)
+        }
+
+    # Print results
+    print("\nTime Breakdown (milliseconds per query):")
+    print("-" * 70)
+    print(f"{'Stage':<25} {'Mean':>10} {'Min':>10} {'Max':>10} {'% Total':>10}")
+    print("-" * 70)
+
+    total_mean = stats['total']['mean']
+    stage_names = {
+        'centroid_dist': 'Centroid Distance',
+        'centroid_select': 'Centroid Selection',
+        'list_scan': 'List Scanning',
+        'final_sort': 'Final Sorting'
+    }
+
+    for key in keys[:-1]:
+        name = stage_names[key]
+        mean = stats[key]['mean']
+        min_val = stats[key]['min']
+        max_val = stats[key]['max']
+        pct = (mean / total_mean * 100) if total_mean > 0 else 0
+        print(f"{name:<25} {mean:>10.4f} {min_val:>10.4f} {max_val:>10.4f} {pct:>9.1f}%")
+
+    print("-" * 70)
+    print(f"{'TOTAL':<25} {total_mean:>10.4f} {stats['total']['min']:>10.4f} "
+          f"{stats['total']['max']:>10.4f} {100.0:>9.1f}%")
+
+    # Performance metrics
+    qps = 1000.0 / total_mean
+    print(f"\nPerformance:")
+    print(f"  Average latency: {total_mean:.4f} ms/query")
+    print(f"  Throughput: {qps:.2f} QPS (single query)")
+
+    # Summary
+    print("\n" + "=" * 70)
+    print("SUMMARY")
+    print("=" * 70)
+
+    # Find the bottleneck
+    bottleneck = max(keys[:-1], key=lambda k: stats[k]['mean'])
+    bottleneck_pct = (stats[bottleneck]['mean'] / total_mean * 100)
+
+    print(f"\nBottleneck: {stage_names[bottleneck]}")
+    print(f"  - Time: {stats[bottleneck]['mean']:.4f} ms ({bottleneck_pct:.1f}% of total)")
+    print(f"  - This is the PRIMARY target for GPU acceleration")
+
+    # Recommendations
+    print(f"\nCUDA Optimization Targets:")
+    for key in keys[:-1]:
+        pct = (stats[key]['mean'] / total_mean * 100)
+        if pct > 10:  # Only show significant stages
+            print(f"  ✓ {stage_names[key]}: {stats[key]['mean']:.4f} ms ({pct:.1f}%)")
+            if key == 'centroid_dist':
+                print(f"    → Parallelize distance computation across {args.nlist} centroids")
+            elif key == 'list_scan':
+                print(f"    → Parallelize distance computation across candidates in lists")
+
+    print("\n" + "=" * 70)
+
+
+if __name__ == '__main__':
+    parser = argparse.ArgumentParser(
+        description="IVFFlat Search Profiling Tool",
+        formatter_class=argparse.RawDescriptionHelpFormatter,
+        epilog="""
+Examples:
+  # Quick test with random data
+  python3 benchmark/ivf_profiling_simple.py --random
+
+  # Larger test
+  python3 benchmark/ivf_profiling_simple.py --random --random_base 50000 --nlist 256 --nprobe 16
+
+  # With real dataset
+  python3 benchmark/ivf_profiling_simple.py --base data/sift/sift_base.fvecs --query data/sift/sift_query.fvecs
+        """
+    )
+
+    # Data source
+    parser.add_argument("--random", action="store_true",
+                        help="Use randomly generated data")
+    parser.add_argument("--base", help="Path to base.fvecs")
+    parser.add_argument("--query", help="Path to query.fvecs")
+
+    # Random data parameters
+    parser.add_argument("--random_base", type=int, default=10000,
+                        help="Number of base vectors (default: 10000)")
+    parser.add_argument("--random_dim", type=int, default=128,
+                        help="Dimension (default: 128)")
+
+    # Index parameters
+    parser.add_argument("--nlist", type=int, default=100,
+                        help="Number of clusters (default: 100)")
+    parser.add_argument("--nprobe", type=int, default=10,
+                        help="Clusters to probe (default: 10)")
+    parser.add_argument("--k", type=int, default=10,
+                        help="Nearest neighbors (default: 10)")
+
+    # Profiling parameters
+    parser.add_argument("--num_queries", type=int, default=100,
+                        help="Number of queries (default: 100)")
+    parser.add_argument("--max_base", type=int, default=None,
+                        help="Max base vectors from file")
+
+    args = parser.parse_args()
+
+    if not args.random and (not args.base or not args.query):
+        parser.error("--base and --query required unless --random specified")
+
+    main(args)
diff --git a/src/IVFFlatIndex.cpp b/src/IVFFlatIndex.cpp
index 37c7375..e36b2da 100644
--- a/src/IVFFlatIndex.cpp
+++ b/src/IVFFlatIndex.cpp
@@ -9,6 +9,15 @@
 #include <cmath>
 #include <iostream>
 #include <fstream>
+#include <chrono>
+
+#ifdef ENABLE_PROFILING
+#define PROFILE_START(name) auto name##_start = std::chrono::high_resolution_clock::now();
+#define PROFILE_END(name, var) var = std::chrono::duration<double, std::milli>(std::chrono::high_resolution_clock::now() - name##_start).count();
+#else
+#define PROFILE_START(name)
+#define PROFILE_END(name, var)
+#endif
 
 namespace zenann {
 
@@ -51,6 +60,7 @@ SearchResult IVFFlatIndex::search(const Vector& query, size_t k) const {
     std::vector<Pair> heap;
 
     // Calculate distance from query to all centroids
+    PROFILE_START(centroid_distance)
 #ifdef ENABLE_OPENMP
     #pragma omp parallel for schedule(static)
 #endif
@@ -58,18 +68,25 @@ SearchResult IVFFlatIndex::search(const Vector& query, size_t k) const {
         float d = l2_distance(query.data(), centroids_[c].data(), dimension_);
         cdist[c] = {d, c};
     }
+    double time_centroid_distance = 0;
+    PROFILE_END(centroid_distance, time_centroid_distance)
 
     // Select top-nprobe nearest centroids
+    PROFILE_START(centroid_selection)
     std::partial_sort(cdist.begin(), cdist.begin() + nprobe_, cdist.end(),
         [](auto& a, auto& b) {
             return a.first < b.first;
         }
     );
+    double time_centroid_selection = 0;
+    PROFILE_END(centroid_selection, time_centroid_selection)
 
     // Probe nprobe nearest lists
     heap.reserve(k);
     const auto& data = datastore_->getAll();
 
+    PROFILE_START(list_scanning)
+
 #ifdef ENABLE_OPENMP
     #pragma omp parallel for schedule(dynamic)
 #endif
@@ -130,9 +147,24 @@ SearchResult IVFFlatIndex::search(const Vector& query, size_t k) const {
         }
 #endif
     }
+    double time_list_scanning = 0;
+    PROFILE_END(list_scanning, time_list_scanning)
 
+    PROFILE_START(final_sorting)
     std::sort(heap.begin(), heap.end(),
               [](const Pair& a, const Pair& b) { return a.first < b.first; });
+    double time_final_sorting = 0;
+    PROFILE_END(final_sorting, time_final_sorting)
+
+#ifdef ENABLE_PROFILING
+    // Output profiling data to stderr
+    std::cerr << "PROFILE: centroid_dist=" << time_centroid_distance
+              << "ms, centroid_select=" << time_centroid_selection
+              << "ms, list_scan=" << time_list_scanning
+              << "ms, final_sort=" << time_final_sorting
+              << "ms, total=" << (time_centroid_distance + time_centroid_selection + time_list_scanning + time_final_sorting)
+              << "ms" << std::endl;
+#endif
 
     SearchResult res;
     res.distances.resize(heap.size());

From 4275f36cba01c322ee3a9e7081a9a3940ee56153 Mon Sep 17 00:00:00 2001
From: Seco1024 <deyenqiu@gmail.com>
Date: Tue, 25 Nov 2025 05:58:17 +0800
Subject: [PATCH 2/5] feat: cuda parallelization

---
 include/zenann/CudaUtils.h    | 264 ++++++++++
 include/zenann/IVFFlatIndex.h |  17 +-
 src/CudaUtils.cu              | 891 ++++++++++++++++++++++++++++++++++
 src/IVFFlatIndex.cpp          | 162 ++++++-
 4 files changed, 1323 insertions(+), 11 deletions(-)
 create mode 100644 include/zenann/CudaUtils.h
 create mode 100644 src/CudaUtils.cu

diff --git a/include/zenann/CudaUtils.h b/include/zenann/CudaUtils.h
new file mode 100644
index 0000000..e3e33ac
--- /dev/null
+++ b/include/zenann/CudaUtils.h
@@ -0,0 +1,264 @@
+#pragma once
+
+#include <cstddef>
+#include <vector>
+
+namespace zenann {
+namespace cuda {
+
+/**
+ * GPU Memory Manager for persistent centroid data
+ */
+class GpuCentroidsManager {
+public:
+    GpuCentroidsManager();
+    ~GpuCentroidsManager();
+
+    /**
+     * Upload centroids to GPU memory (call once after training)
+     * @param centroids_flat Flattened centroid vectors [num_centroids * dim]
+     * @param num_centroids  Number of centroids
+     * @param dim           Vector dimension
+     */
+    void upload_centroids(const float* centroids_flat, size_t num_centroids, size_t dim);
+
+    /**
+     * Get device pointer to centroids
+     */
+    const float* get_device_ptr() const { return d_centroids_; }
+
+    /**
+     * Check if centroids are uploaded
+     */
+    bool is_ready() const { return d_centroids_ != nullptr; }
+
+    /**
+     * Free GPU memory
+     */
+    void free();
+
+private:
+    float* d_centroids_;
+    size_t num_centroids_;
+    size_t dim_;
+};
+
+/**
+ * GPU Memory Manager for base vectors (all data points)
+ */
+class GpuDataManager {
+public:
+    GpuDataManager();
+    ~GpuDataManager();
+    void upload_data(const float* data_flat, size_t num_vectors, size_t dim);
+    const float* get_device_ptr() const { return d_data_; }
+    bool is_ready() const { return d_data_ != nullptr; }
+    void free();
+private:
+    float* d_data_;
+    size_t num_vectors_;
+    size_t dim_;
+};
+
+/**
+ * GPU Memory Manager for inverted lists structure
+ */
+class GpuInvertedListsManager {
+public:
+    GpuInvertedListsManager();
+    ~GpuInvertedListsManager();
+    void upload_lists(const std::vector<std::vector<size_t>>& lists, size_t nlist);
+    const size_t* get_list_data_ptr() const { return d_list_data_; }
+    const int* get_list_offsets_ptr() const { return d_list_offsets_; }
+    const int* get_list_sizes_ptr() const { return d_list_sizes_; }
+    bool is_ready() const { return d_list_data_ != nullptr; }
+    void free();
+private:
+    size_t* d_list_data_;      // Flattened list IDs
+    int* d_list_offsets_;      // Starting offset for each list
+    int* d_list_sizes_;        // Size of each list
+    size_t nlist_;
+    size_t total_size_;
+};
+
+/**
+ * Batch compute L2 distances from multiple queries to centroids on GPU
+ *
+ * This is the main optimized function that processes multiple queries in parallel.
+ *
+ * @param queries          Query vectors (host, [num_queries x dim])
+ * @param d_centroids      Centroid vectors (device, [num_centroids x dim])
+ * @param distances        Output distances (host, [num_queries x num_centroids])
+ * @param num_queries      Number of query vectors
+ * @param num_centroids    Number of centroid vectors
+ * @param dim              Vector dimension
+ */
+void batch_compute_centroid_distances(
+    const float* queries,
+    const float* d_centroids,
+    float* distances,
+    size_t num_queries,
+    size_t num_centroids,
+    size_t dim
+);
+
+/**
+ * Complete GPU pipeline for IVF search (OPTIMIZED for 100K+ QPS)
+ *
+ * All computation on GPU: centroid distances → select lists → scan lists
+ * Minimal CPU-GPU data transfer for maximum throughput.
+ *
+ * Pipeline:
+ *   1. GPU: Compute query-centroid distances
+ *   2. GPU: Select top-nprobe nearest centroids
+ *   3. GPU: Scan selected inverted lists
+ *
+ * @param queries          Query vectors (host, [num_queries x dim])
+ * @param d_centroids      Centroid vectors (device, [num_centroids x dim])
+ * @param d_base_data      All base vectors (device, [num_base x dim])
+ * @param d_list_data      Flattened list IDs (device)
+ * @param d_list_offsets   List starting offsets (device)
+ * @param d_list_sizes     List sizes (device)
+ * @param result_distances Output distances (host, [num_queries x k])
+ * @param result_indices   Output indices (host, [num_queries x k])
+ * @param num_queries      Number of queries
+ * @param num_centroids    Number of centroids
+ * @param nprobe           Number of lists to probe per query
+ * @param k                Number of nearest neighbors
+ * @param dim              Vector dimension
+ */
+void batch_search_gpu_pipeline(
+    const float* queries,
+    const float* d_centroids,
+    const float* d_base_data,
+    const size_t* d_list_data,
+    const int* d_list_offsets,
+    const int* d_list_sizes,
+    float* result_distances,
+    size_t* result_indices,
+    size_t num_queries,
+    size_t num_centroids,
+    size_t nprobe,
+    size_t k,
+    size_t dim
+);
+
+/**
+ * Complete GPU pipeline V2 for IVF search (CLEAN IMPLEMENTATION)
+ *
+ * 4-Kernel Architecture following cuda.md specification:
+ *   Kernel A: Compute queries × centroids distances
+ *   Kernel B: Select top-nprobe nearest centroids per query
+ *   Kernel C: Scan inverted lists with 2D grid (query, probe)
+ *   Kernel D: Merge partial top-k results
+ *
+ * @param queries          Query vectors (host, [num_queries x dim])
+ * @param d_centroids      Centroid vectors (device, [num_centroids x dim])
+ * @param d_base_data      All base vectors (device, [num_base x dim])
+ * @param d_list_data      Flattened list IDs (device)
+ * @param d_list_offsets   List starting offsets (device)
+ * @param result_distances Output distances (host, [num_queries x k])
+ * @param result_indices   Output indices (host, [num_queries x k])
+ * @param num_queries      Number of queries
+ * @param num_centroids    Number of centroids
+ * @param nprobe           Number of lists to probe per query
+ * @param k                Number of nearest neighbors
+ * @param dim              Vector dimension
+ */
+void batch_search_gpu_pipeline_v2(
+    const float* queries,
+    const float* d_centroids,
+    const float* d_base_data,
+    const size_t* d_list_data,
+    const int* d_list_offsets,
+    float* result_distances,
+    size_t* result_indices,
+    size_t num_queries,
+    size_t num_centroids,
+    size_t nprobe,
+    size_t k,
+    size_t dim
+);
+
+/**
+ * Scan selected lists on GPU (optimized version without shared memory issues)
+ *
+ * This version assumes CPU has already computed centroid distances and selected
+ * which lists to probe. GPU only does the heavy lifting: scanning list contents.
+ *
+ * @param queries          Query vectors (host, [num_queries x dim])
+ * @param selected_lists   List IDs to scan for each query (host, [num_queries x nprobe])
+ * @param d_base_data      All base vectors (device, [num_base x dim])
+ * @param d_list_data      Flattened list IDs (device)
+ * @param d_list_offsets   List starting offsets (device)
+ * @param d_list_sizes     List sizes (device)
+ * @param result_distances Output distances (host, [num_queries x k])
+ * @param result_indices   Output indices (host, [num_queries x k])
+ * @param num_queries      Number of queries
+ * @param nprobe           Number of lists to probe per query
+ * @param k                Number of nearest neighbors
+ * @param dim              Vector dimension
+ */
+void batch_scan_selected_lists(
+    const float* queries,
+    const size_t* selected_lists,
+    const float* d_base_data,
+    const size_t* d_list_data,
+    const int* d_list_offsets,
+    const int* d_list_sizes,
+    float* result_distances,
+    size_t* result_indices,
+    size_t num_queries,
+    size_t nprobe,
+    size_t k,
+    size_t dim
+);
+
+/**
+ * Complete GPU search with list scanning (coarse + fine-grained search)
+ *
+ * NOTE: This function has shared memory limitations and may fail for large nlist.
+ * Consider using batch_scan_selected_lists instead.
+ *
+ * @param queries          Query vectors (host, [num_queries x dim])
+ * @param d_centroids      Centroid vectors (device, [num_centroids x dim])
+ * @param d_base_data      All base vectors (device, [num_base x dim])
+ * @param d_list_data      Flattened list IDs (device)
+ * @param d_list_offsets   List starting offsets (device)
+ * @param d_list_sizes     List sizes (device)
+ * @param result_distances Output distances (host, [num_queries x k])
+ * @param result_indices   Output indices (host, [num_queries x k])
+ * @param num_queries      Number of queries
+ * @param num_centroids    Number of centroids
+ * @param nprobe           Number of lists to probe
+ * @param k                Number of nearest neighbors
+ * @param dim              Vector dimension
+ */
+void batch_search_with_lists(
+    const float* queries,
+    const float* d_centroids,
+    const float* d_base_data,
+    const size_t* d_list_data,
+    const int* d_list_offsets,
+    const int* d_list_sizes,
+    float* result_distances,
+    size_t* result_indices,
+    size_t num_queries,
+    size_t num_centroids,
+    size_t nprobe,
+    size_t k,
+    size_t dim
+);
+
+/**
+ * Check if CUDA is available
+ */
+bool is_cuda_available();
+
+/**
+ * Initialize CUDA (optional)
+ */
+void initialize_cuda();
+
+} // namespace cuda
+} // namespace zenann
diff --git a/include/zenann/IVFFlatIndex.h b/include/zenann/IVFFlatIndex.h
index d2b616a..154b744 100644
--- a/include/zenann/IVFFlatIndex.h
+++ b/include/zenann/IVFFlatIndex.h
@@ -2,6 +2,9 @@
 
 #include "IndexBase.h"
 #include <vector>
+#ifdef ENABLE_CUDA
+#include "CudaUtils.h"
+#endif
 
 namespace zenann {
 
@@ -17,10 +20,16 @@ class IVFFlatIndex : public IndexBase {
     void write_index(const std::string& filename) const;
     static std::shared_ptr<IVFFlatIndex> read_index(const std::string& filename);
 private:
-    size_t                     nlist_;     
-    size_t                     nprobe_;  
-    Dataset                    centroids_; 
-    std::vector<idList>        lists_;    
+    size_t                     nlist_;
+    size_t                     nprobe_;
+    Dataset                    centroids_;
+    std::vector<idList>        lists_;
+#ifdef ENABLE_CUDA
+    mutable std::vector<float>           centroids_flat_;         // Flattened centroids
+    mutable cuda::GpuCentroidsManager    gpu_centroids_manager_;  // GPU centroid manager
+    mutable cuda::GpuDataManager         gpu_data_manager_;       // GPU data manager
+    mutable cuda::GpuInvertedListsManager gpu_lists_manager_;     // GPU inverted lists manager
+#endif
     void kmeans(const Dataset& data, size_t iterations = 10);
 };
 
diff --git a/src/CudaUtils.cu b/src/CudaUtils.cu
new file mode 100644
index 0000000..a02f6a8
--- /dev/null
+++ b/src/CudaUtils.cu
@@ -0,0 +1,891 @@
+#include "CudaUtils.h"
+#include <cuda_runtime.h>
+#include <iostream>
+#include <cmath>
+#include <algorithm>
+
+// Error checking macro
+#define CUDA_CHECK(call) \
+    do { \
+        cudaError_t error = call; \
+        if (error != cudaSuccess) { \
+            std::cerr << "CUDA error at " << __FILE__ << ":" << __LINE__ \
+                      << " - " << cudaGetErrorString(error) << std::endl; \
+            exit(EXIT_FAILURE); \
+        } \
+    } while(0)
+
+namespace zenann {
+namespace cuda {
+
+// ============================================================================
+// Constants and Helper Structures
+// ============================================================================
+
+constexpr int WARP_SIZE = 32;
+constexpr int MAX_K = 128;  // Maximum k we support efficiently
+
+/**
+ * Pair structure for (distance, id) with device-side operators
+ */
+struct DistIdPair {
+    float dist;
+    int id;
+
+    __device__ DistIdPair() : dist(INFINITY), id(-1) {}
+    __device__ DistIdPair(float d, int i) : dist(d), id(i) {}
+
+    __device__ bool operator<(const DistIdPair& other) const {
+        return dist < other.dist || (dist == other.dist && id < other.id);
+    }
+};
+
+// ============================================================================
+// Kernel A: Compute queries × centroids distances
+// ============================================================================
+
+/**
+ * Kernel A: Batch compute L2 distances from queries to centroids
+ *
+ * Grid: (num_queries, 1, 1)
+ * Block: (256, 1, 1)
+ *
+ * Design (Section 3.1):
+ * - One block per query
+ * - Query loaded into shared memory (all threads share)
+ * - Each thread computes distances to multiple centroids
+ * - Uses L2 expansion: ||q||² + ||c||² - 2·q·c
+ *
+ * Memory access pattern: COALESCED
+ * - Threads stride through centroids with step = blockDim.x
+ */
+__global__ void kernel_a_compute_coarse_distances(
+    const float* __restrict__ queries,      // [Q x dim]
+    const float* __restrict__ centroids,    // [nlist x dim]
+    float* __restrict__ coarse_dists,       // [Q x nlist] OUTPUT
+    int num_queries,
+    int num_centroids,
+    int dim
+) {
+    int q = blockIdx.x;
+    if (q >= num_queries) return;
+
+    int tid = threadIdx.x;
+    int block_size = blockDim.x;
+
+    // Shared memory for query vector
+    extern __shared__ float shared_query[];
+
+    // Step 1: Cooperatively load query into shared memory
+    const float* query_ptr = queries + q * dim;
+    for (int d = tid; d < dim; d += block_size) {
+        shared_query[d] = query_ptr[d];
+    }
+    __syncthreads();
+
+    // Step 2: Each thread computes distances to multiple centroids
+    float* out_ptr = coarse_dists + q * num_centroids;
+
+    for (int c = tid; c < num_centroids; c += block_size) {
+        const float* centroid_ptr = centroids + c * dim;
+
+        // Compute L2 distance: ||q - c||² = Σ(q[i] - c[i])²
+        float sum = 0.0f;
+        #pragma unroll 4
+        for (int d = 0; d < dim; ++d) {
+            float diff = shared_query[d] - centroid_ptr[d];
+            sum += diff * diff;
+        }
+
+        out_ptr[c] = sum;
+    }
+}
+
+// ============================================================================
+// Kernel B: Select top-nprobe centroids for each query
+// ============================================================================
+
+/**
+ * Kernel B: Select top-nprobe nearest centroids using parallel selection
+ *
+ * Grid: (num_queries, 1, 1)
+ * Block: (256, 1, 1)
+ *
+ * Design (Section 3.2):
+ * - One block per query
+ * - Load coarse distances to shared memory
+ * - Parallel iterative min-finding (nprobe rounds)
+ * - Each round: all threads cooperate to find minimum, then mark as selected
+ *
+ * Complexity: O(nprobe × (nlist/threads + log(threads)))
+ */
+__global__ void kernel_b_select_top_nprobe(
+    const float* __restrict__ coarse_dists,  // [Q x nlist]
+    int* __restrict__ selected_lists,        // [Q x nprobe] OUTPUT
+    int num_queries,
+    int num_centroids,
+    int nprobe
+) {
+    int q = blockIdx.x;
+    if (q >= num_queries) return;
+
+    int tid = threadIdx.x;
+    int block_size = blockDim.x;
+
+    // Shared memory layout:
+    // [distances: nlist floats] [reduction_vals: 256 floats] [reduction_ids: 256 ints]
+    extern __shared__ char smem[];
+    float* shared_dists = (float*)smem;
+    float* reduction_vals = shared_dists + num_centroids;
+    int* reduction_ids = (int*)(reduction_vals + block_size);
+
+    // Load distances to shared memory
+    const float* in_ptr = coarse_dists + q * num_centroids;
+    for (int c = tid; c < num_centroids; c += block_size) {
+        shared_dists[c] = in_ptr[c];
+    }
+    __syncthreads();
+
+    int* out_ptr = selected_lists + q * nprobe;
+
+    // Perform nprobe rounds of parallel min-finding
+    for (int round = 0; round < nprobe; ++round) {
+        // Phase 1: Each thread finds local minimum
+        float local_min = INFINITY;
+        int local_min_id = -1;
+
+        for (int c = tid; c < num_centroids; c += block_size) {
+            if (shared_dists[c] < local_min) {
+                local_min = shared_dists[c];
+                local_min_id = c;
+            }
+        }
+
+        reduction_vals[tid] = local_min;
+        reduction_ids[tid] = local_min_id;
+        __syncthreads();
+
+        // Phase 2: Parallel reduction to find global minimum
+        for (int stride = block_size / 2; stride > 0; stride >>= 1) {
+            if (tid < stride) {
+                if (reduction_vals[tid + stride] < reduction_vals[tid]) {
+                    reduction_vals[tid] = reduction_vals[tid + stride];
+                    reduction_ids[tid] = reduction_ids[tid + stride];
+                }
+            }
+            __syncthreads();
+        }
+
+        // Phase 3: Thread 0 records result and marks as selected
+        if (tid == 0) {
+            int selected_id = reduction_ids[0];
+            if (selected_id >= 0) {
+                out_ptr[round] = selected_id;
+                shared_dists[selected_id] = INFINITY;  // Mark as used
+            }
+        }
+        __syncthreads();
+    }
+}
+
+// ============================================================================
+// Kernel C: Scan inverted lists with thread-local top-k
+// ============================================================================
+
+/**
+ * Device function: Insert into thread-local top-k heap
+ *
+ * Maintains a small sorted array (size k) in registers
+ * Uses insertion sort for small k (very efficient for k <= 32)
+ */
+__device__ inline void insert_to_local_topk(
+    DistIdPair* local_topk,
+    int& local_size,
+    int max_k,
+    float dist,
+    int id
+) {
+    // If not full, just append and sort
+    if (local_size < max_k) {
+        local_topk[local_size] = DistIdPair(dist, id);
+        local_size++;
+
+        // Bubble up (insertion sort style)
+        for (int i = local_size - 1; i > 0 && local_topk[i] < local_topk[i-1]; --i) {
+            DistIdPair tmp = local_topk[i];
+            local_topk[i] = local_topk[i-1];
+            local_topk[i-1] = tmp;
+        }
+    }
+    // If full and new element is better than worst
+    else if (dist < local_topk[max_k - 1].dist) {
+        // Insert in sorted position
+        int insert_pos = max_k - 1;
+        while (insert_pos > 0 && dist < local_topk[insert_pos - 1].dist) {
+            local_topk[insert_pos] = local_topk[insert_pos - 1];
+            insert_pos--;
+        }
+        local_topk[insert_pos] = DistIdPair(dist, id);
+    }
+}
+
+/**
+ * Device function: Merge thread-local top-k into block-level top-k
+ *
+ * All threads write their results to shared memory, then thread 0
+ * performs final selection to get block's top-k
+ */
+__device__ void merge_block_topk(
+    DistIdPair* local_topk,
+    int local_size,
+    DistIdPair* shared_candidates,
+    DistIdPair* block_topk,
+    int k,
+    int tid,
+    int block_size
+) {
+    // Write thread-local results to shared memory
+    // Each thread gets 'k' slots (not MAX_K) to save shared memory
+    int base = tid * k;
+    int write_count = min(local_size, k);
+
+    for (int i = 0; i < write_count; ++i) {
+        shared_candidates[base + i] = local_topk[i];
+    }
+    for (int i = write_count; i < k; ++i) {
+        shared_candidates[base + i] = DistIdPair();  // INFINITY
+    }
+    __syncthreads();
+
+    // Thread 0 performs merge
+    if (tid == 0) {
+        int total_candidates = block_size * k;
+
+        // Simple k-pass selection (good for small k)
+        for (int ki = 0; ki < k; ++ki) {
+            DistIdPair best = DistIdPair();
+            int best_idx = -1;
+
+            for (int i = 0; i < total_candidates; ++i) {
+                if (shared_candidates[i] < best) {
+                    best = shared_candidates[i];
+                    best_idx = i;
+                }
+            }
+
+            if (best_idx >= 0) {
+                block_topk[ki] = best;
+                shared_candidates[best_idx] = DistIdPair();  // Mark as used
+            } else {
+                block_topk[ki] = DistIdPair();
+            }
+        }
+    }
+    __syncthreads();
+}
+
+/**
+ * Kernel C: Scan inverted lists and compute partial top-k
+ *
+ * Grid: (num_queries, nprobe, 1) - 2D GRID!
+ * Block: (128, 1, 1)
+ *
+ * Design (Section 3.3):
+ * - Each block handles one (query, list) pair
+ * - Query loaded into shared memory
+ * - Each thread maintains thread-local top-k in registers
+ * - Threads stride through list vectors
+ * - Block-level merge at end
+ * - Output: partial top-k for this (query, list)
+ *
+ * This is the CORE of the search!
+ */
+__global__ void kernel_c_scan_lists(
+    const float* __restrict__ queries,        // [Q x dim]
+    const int* __restrict__ selected_lists,   // [Q x nprobe]
+    const float* __restrict__ vectors,        // [N_total x dim]
+    const int* __restrict__ list_offsets,     // [nlist + 1]
+    const size_t* __restrict__ ids,           // [N_total] - IMPORTANT: size_t, not int!
+    DistIdPair* __restrict__ partial_topk,    // [Q x nprobe x k] OUTPUT
+    int num_queries,
+    int nprobe,
+    int k,
+    int dim
+) {
+    int q = blockIdx.x;
+    int probe = blockIdx.y;
+
+    if (q >= num_queries || probe >= nprobe) return;
+
+    int tid = threadIdx.x;
+    int block_size = blockDim.x;
+
+    // Get actual list ID for this (query, probe) pair
+    int list_id = selected_lists[q * nprobe + probe];
+    int list_start = list_offsets[list_id];
+    int list_end = list_offsets[list_id + 1];
+    int list_size = list_end - list_start;
+
+    // Shared memory layout:
+    // [query: dim floats] [candidates: block_size * MAX_K pairs]
+    extern __shared__ char smem[];
+    float* shared_query = (float*)smem;
+    DistIdPair* shared_candidates = (DistIdPair*)(shared_query + dim);
+
+    // Load query into shared memory
+    const float* query_ptr = queries + q * dim;
+    for (int d = tid; d < dim; d += block_size) {
+        shared_query[d] = query_ptr[d];
+    }
+    __syncthreads();
+
+    // Thread-local top-k (in registers!)
+    DistIdPair local_topk[MAX_K];
+    int local_size = 0;
+    int max_local_k = min(k, MAX_K);
+
+    // Scan list vectors with stride
+    for (int idx = list_start + tid; idx < list_end; idx += block_size) {
+        // Get the actual vector ID from the inverted list (size_t!)
+        size_t vec_id = ids[idx];
+
+        // Access the vector using its ID
+        const float* vec_ptr = vectors + vec_id * dim;
+
+        // Compute L2 distance
+        float sum = 0.0f;
+        #pragma unroll 4
+        for (int d = 0; d < dim; ++d) {
+            float diff = shared_query[d] - vec_ptr[d];
+            sum += diff * diff;
+        }
+
+        // Insert into thread-local top-k
+        insert_to_local_topk(local_topk, local_size, max_local_k, sum, vec_id);
+    }
+    __syncthreads();
+
+    // Merge all thread-local top-k into block-level top-k
+    DistIdPair* block_result = (DistIdPair*)smem;  // Reuse shared memory
+    merge_block_topk(local_topk, local_size, shared_candidates, block_result, k, tid, block_size);
+
+    // Write block result to global memory
+    if (tid == 0) {
+        DistIdPair* out_ptr = partial_topk + (q * nprobe + probe) * k;
+        for (int i = 0; i < k; ++i) {
+            out_ptr[i] = block_result[i];
+        }
+    }
+}
+
+// ============================================================================
+// Kernel D: Merge partial top-k results
+// ============================================================================
+
+/**
+ * Kernel D: Merge nprobe partial top-k into final top-k
+ *
+ * Grid: (num_queries, 1, 1)
+ * Block: (256, 1, 1)
+ *
+ * Design (Section 3.4):
+ * - One block per query
+ * - Read nprobe × k candidates from global memory
+ * - Perform final top-k selection
+ * - Write to output
+ */
+__global__ void kernel_d_merge_final_topk(
+    const DistIdPair* __restrict__ partial_topk,  // [Q x nprobe x k]
+    float* __restrict__ out_distances,            // [Q x k] OUTPUT
+    int* __restrict__ out_indices,                // [Q x k] OUTPUT
+    int num_queries,
+    int nprobe,
+    int k
+) {
+    int q = blockIdx.x;
+    if (q >= num_queries) return;
+
+    int tid = threadIdx.x;
+
+    int total_candidates = nprobe * k;
+
+    // Shared memory for candidates
+    extern __shared__ DistIdPair smem_candidates[];
+
+    // Load all partial results to shared memory
+    const DistIdPair* in_ptr = partial_topk + q * nprobe * k;
+    for (int i = tid; i < total_candidates; i += blockDim.x) {
+        smem_candidates[i] = in_ptr[i];
+    }
+    __syncthreads();
+
+    // Thread 0 performs final selection
+    if (tid == 0) {
+        // Simple k-pass selection
+        for (int ki = 0; ki < k; ++ki) {
+            DistIdPair best = DistIdPair();
+            int best_idx = -1;
+
+            for (int i = 0; i < total_candidates; ++i) {
+                if (smem_candidates[i] < best) {
+                    best = smem_candidates[i];
+                    best_idx = i;
+                }
+            }
+
+            if (best_idx >= 0 && best.id >= 0) {
+                out_distances[q * k + ki] = best.dist;
+                out_indices[q * k + ki] = best.id;
+                smem_candidates[best_idx] = DistIdPair();  // Mark as used
+            } else {
+                out_distances[q * k + ki] = INFINITY;
+                out_indices[q * k + ki] = -1;
+            }
+        }
+    }
+}
+
+// ============================================================================
+// Memory Managers (keep existing implementations)
+// ============================================================================
+
+GpuCentroidsManager::GpuCentroidsManager()
+    : d_centroids_(nullptr), num_centroids_(0), dim_(0) {}
+
+GpuCentroidsManager::~GpuCentroidsManager() {
+    free();
+}
+
+void GpuCentroidsManager::upload_centroids(
+    const float* centroids_flat,
+    size_t num_centroids,
+    size_t dim
+) {
+    free();
+    num_centroids_ = num_centroids;
+    dim_ = dim;
+
+    size_t size_bytes = num_centroids * dim * sizeof(float);
+    CUDA_CHECK(cudaMalloc(&d_centroids_, size_bytes));
+    CUDA_CHECK(cudaMemcpy(d_centroids_, centroids_flat, size_bytes, cudaMemcpyHostToDevice));
+
+    std::cout << "[CUDA] Uploaded " << num_centroids << " centroids ("
+              << (size_bytes / 1024.0 / 1024.0) << " MB) to GPU" << std::endl;
+}
+
+void GpuCentroidsManager::free() {
+    if (d_centroids_) {
+        CUDA_CHECK(cudaFree(d_centroids_));
+        d_centroids_ = nullptr;
+    }
+}
+
+GpuDataManager::GpuDataManager()
+    : d_data_(nullptr), num_vectors_(0), dim_(0) {}
+
+GpuDataManager::~GpuDataManager() {
+    free();
+}
+
+void GpuDataManager::upload_data(
+    const float* data_flat,
+    size_t num_vectors,
+    size_t dim
+) {
+    free();
+    num_vectors_ = num_vectors;
+    dim_ = dim;
+
+    size_t size_bytes = num_vectors * dim * sizeof(float);
+    CUDA_CHECK(cudaMalloc(&d_data_, size_bytes));
+    CUDA_CHECK(cudaMemcpy(d_data_, data_flat, size_bytes, cudaMemcpyHostToDevice));
+
+    std::cout << "[CUDA] Uploaded " << num_vectors << " base vectors ("
+              << (size_bytes / 1024.0 / 1024.0) << " MB) to GPU" << std::endl;
+}
+
+void GpuDataManager::free() {
+    if (d_data_) {
+        CUDA_CHECK(cudaFree(d_data_));
+        d_data_ = nullptr;
+    }
+}
+
+GpuInvertedListsManager::GpuInvertedListsManager()
+    : d_list_data_(nullptr), d_list_offsets_(nullptr), d_list_sizes_(nullptr),
+      nlist_(0), total_size_(0) {}
+
+GpuInvertedListsManager::~GpuInvertedListsManager() {
+    free();
+}
+
+void GpuInvertedListsManager::upload_lists(
+    const std::vector<std::vector<size_t>>& lists,
+    size_t nlist
+) {
+    free();
+    nlist_ = nlist;
+
+    // Build offsets array (prefix sum)
+    std::vector<int> offsets(nlist + 1);
+    offsets[0] = 0;
+    for (size_t i = 0; i < nlist; ++i) {
+        offsets[i + 1] = offsets[i] + lists[i].size();
+    }
+    total_size_ = offsets[nlist];
+
+    // Flatten list data and IDs
+    std::vector<size_t> flattened_ids(total_size_);
+    size_t pos = 0;
+    for (size_t i = 0; i < nlist; ++i) {
+        for (size_t id : lists[i]) {
+            flattened_ids[pos++] = id;
+        }
+    }
+
+    // Upload to GPU
+    CUDA_CHECK(cudaMalloc(&d_list_data_, total_size_ * sizeof(size_t)));
+    CUDA_CHECK(cudaMalloc(&d_list_offsets_, (nlist + 1) * sizeof(int)));
+
+    CUDA_CHECK(cudaMemcpy(d_list_data_, flattened_ids.data(),
+                          total_size_ * sizeof(size_t), cudaMemcpyHostToDevice));
+    CUDA_CHECK(cudaMemcpy(d_list_offsets_, offsets.data(),
+                          (nlist + 1) * sizeof(int), cudaMemcpyHostToDevice));
+
+    std::cout << "[CUDA] Uploaded inverted lists: " << nlist << " lists, "
+              << total_size_ << " total entries" << std::endl;
+}
+
+void GpuInvertedListsManager::free() {
+    if (d_list_data_) {
+        CUDA_CHECK(cudaFree(d_list_data_));
+        d_list_data_ = nullptr;
+    }
+    if (d_list_offsets_) {
+        CUDA_CHECK(cudaFree(d_list_offsets_));
+        d_list_offsets_ = nullptr;
+    }
+    if (d_list_sizes_) {
+        CUDA_CHECK(cudaFree(d_list_sizes_));
+        d_list_sizes_ = nullptr;
+    }
+}
+
+// ============================================================================
+// Complete GPU Search Pipeline (4-Kernel Architecture from cuda.md)
+// ============================================================================
+
+/**
+ * Complete 4-kernel GPU search pipeline following cuda.md design
+ *
+ * Pipeline:
+ *   Kernel A: queries × centroids distances
+ *   Kernel B: select top-nprobe per query
+ *   Kernel C: scan lists with 2D grid (Q, nprobe)
+ *   Kernel D: merge partial top-k
+ */
+void batch_search_gpu_pipeline_v2(
+    const float* queries,
+    const float* d_centroids,
+    const float* d_base_data,
+    const size_t* d_list_data,
+    const int* d_list_offsets,
+    float* result_distances,
+    size_t* result_indices,
+    size_t num_queries,
+    size_t num_centroids,
+    size_t nprobe,
+    size_t k,
+    size_t dim
+) {
+    // Allocate device memory
+    float *d_queries, *d_coarse_dists;
+    int *d_selected_lists, *d_out_indices;
+    float *d_out_distances;
+    DistIdPair *d_partial_topk;
+
+    size_t queries_size = num_queries * dim * sizeof(float);
+    size_t coarse_dists_size = num_queries * num_centroids * sizeof(float);
+    size_t selected_lists_size = num_queries * nprobe * sizeof(int);
+    size_t partial_topk_size = num_queries * nprobe * k * sizeof(DistIdPair);
+    size_t output_size = num_queries * k * sizeof(float);
+    size_t output_indices_size = num_queries * k * sizeof(int);
+
+    CUDA_CHECK(cudaMalloc(&d_queries, queries_size));
+    CUDA_CHECK(cudaMalloc(&d_coarse_dists, coarse_dists_size));
+    CUDA_CHECK(cudaMalloc(&d_selected_lists, selected_lists_size));
+    CUDA_CHECK(cudaMalloc(&d_partial_topk, partial_topk_size));
+    CUDA_CHECK(cudaMalloc(&d_out_distances, output_size));
+    CUDA_CHECK(cudaMalloc(&d_out_indices, output_indices_size));
+
+    // Copy queries to GPU
+    CUDA_CHECK(cudaMemcpy(d_queries, queries, queries_size, cudaMemcpyHostToDevice));
+
+    // ========================================================================
+    // Kernel A: Compute queries × centroids distances
+    // ========================================================================
+    {
+        int grid_size = num_queries;
+        int block_size = 256;
+        size_t smem_size = dim * sizeof(float);
+
+        kernel_a_compute_coarse_distances<<<grid_size, block_size, smem_size>>>(
+            d_queries, d_centroids, d_coarse_dists,
+            num_queries, num_centroids, dim
+        );
+        CUDA_CHECK(cudaGetLastError());
+    }
+
+    // ========================================================================
+    // Kernel B: Select top-nprobe centroids
+    // ========================================================================
+    {
+        int grid_size = num_queries;
+        int block_size = 256;
+        size_t smem_size = num_centroids * sizeof(float) +
+                          block_size * (sizeof(float) + sizeof(int));
+
+        kernel_b_select_top_nprobe<<<grid_size, block_size, smem_size>>>(
+            d_coarse_dists, d_selected_lists,
+            num_queries, num_centroids, nprobe
+        );
+        CUDA_CHECK(cudaGetLastError());
+    }
+
+    // ========================================================================
+    // Kernel C: Scan inverted lists (2D grid!)
+    // ========================================================================
+    {
+        dim3 grid_size(num_queries, nprobe);  // 2D GRID!
+        int block_size = 128;
+
+        // Shared memory: only for query vector + small merge buffer
+        // We use thread-local top-k in registers (MAX_K per thread)
+        // For merge, we only need k * block_size space, not MAX_K * block_size
+        size_t smem_size = dim * sizeof(float) +        // query vector
+                          k * block_size * sizeof(DistIdPair);  // merge buffer
+
+        // Check shared memory limit (typically 48KB)
+        const size_t MAX_SMEM = 48 * 1024;
+        if (smem_size > MAX_SMEM) {
+            // Reduce block_size to fit in shared memory
+            int max_block_size = (MAX_SMEM - dim * sizeof(float)) / (k * sizeof(DistIdPair));
+            block_size = std::max(32, std::min(block_size, max_block_size));
+            smem_size = dim * sizeof(float) + k * block_size * sizeof(DistIdPair);
+        }
+
+        kernel_c_scan_lists<<<grid_size, block_size, smem_size>>>(
+            d_queries, d_selected_lists, d_base_data, d_list_offsets,
+            d_list_data,  // size_t* - no cast needed!
+            d_partial_topk,
+            num_queries, nprobe, k, dim
+        );
+        CUDA_CHECK(cudaGetLastError());
+    }
+
+    // ========================================================================
+    // Kernel D: Merge partial top-k
+    // ========================================================================
+    {
+        int grid_size = num_queries;
+        int block_size = 256;
+        size_t smem_size = nprobe * k * sizeof(DistIdPair);
+
+        // Check shared memory limit
+        const size_t MAX_SMEM = 48 * 1024;
+        if (smem_size > MAX_SMEM) {
+            // Reduce block_size if needed (though it doesn't affect smem here)
+            block_size = 128;
+        }
+
+        kernel_d_merge_final_topk<<<grid_size, block_size, smem_size>>>(
+            d_partial_topk, d_out_distances, d_out_indices,
+            num_queries, nprobe, k
+        );
+        CUDA_CHECK(cudaGetLastError());
+    }
+
+    // Synchronize and copy results
+    CUDA_CHECK(cudaDeviceSynchronize());
+
+    CUDA_CHECK(cudaMemcpy(result_distances, d_out_distances, output_size, cudaMemcpyDeviceToHost));
+
+    // Convert int* to size_t*
+    int* temp_indices = new int[num_queries * k];
+    CUDA_CHECK(cudaMemcpy(temp_indices, d_out_indices, output_indices_size, cudaMemcpyDeviceToHost));
+    for (size_t i = 0; i < num_queries * k; ++i) {
+        result_indices[i] = (temp_indices[i] >= 0) ? temp_indices[i] : 0;
+    }
+    delete[] temp_indices;
+
+    // Cleanup
+    CUDA_CHECK(cudaFree(d_queries));
+    CUDA_CHECK(cudaFree(d_coarse_dists));
+    CUDA_CHECK(cudaFree(d_selected_lists));
+    CUDA_CHECK(cudaFree(d_partial_topk));
+    CUDA_CHECK(cudaFree(d_out_distances));
+    CUDA_CHECK(cudaFree(d_out_indices));
+}
+
+// ============================================================================
+// Utility Functions
+// ============================================================================
+
+bool is_cuda_available() {
+    int device_count = 0;
+    cudaError_t error = cudaGetDeviceCount(&device_count);
+    return (error == cudaSuccess && device_count > 0);
+}
+
+void initialize_cuda() {
+    if (!is_cuda_available()) {
+        std::cerr << "Warning: No CUDA device available" << std::endl;
+        return;
+    }
+
+    cudaDeviceProp prop;
+    CUDA_CHECK(cudaGetDeviceProperties(&prop, 0));
+
+    std::cout << "[CUDA] Device: " << prop.name << std::endl;
+    std::cout << "[CUDA] Compute: " << prop.major << "." << prop.minor << std::endl;
+    std::cout << "[CUDA] Memory: " << (prop.totalGlobalMem / 1024 / 1024) << " MB" << std::endl;
+
+    CUDA_CHECK(cudaSetDevice(0));
+    CUDA_CHECK(cudaFree(0));  // Warm up
+}
+
+// ============================================================================
+// Legacy API Compatibility Layer
+// ============================================================================
+
+/**
+ * Legacy API: batch_compute_centroid_distances
+ * Redirects to Kernel A from the new pipeline
+ */
+void batch_compute_centroid_distances(
+    const float* queries,
+    const float* d_centroids,
+    float* distances,
+    size_t num_queries,
+    size_t num_centroids,
+    size_t dim
+) {
+    // Allocate device memory
+    float *d_queries, *d_distances;
+
+    size_t queries_size = num_queries * dim * sizeof(float);
+    size_t distances_size = num_queries * num_centroids * sizeof(float);
+
+    CUDA_CHECK(cudaMalloc(&d_queries, queries_size));
+    CUDA_CHECK(cudaMalloc(&d_distances, distances_size));
+
+    // Copy queries to device
+    CUDA_CHECK(cudaMemcpy(d_queries, queries, queries_size, cudaMemcpyHostToDevice));
+
+    // Launch Kernel A
+    int threads_per_block = 256;
+    int num_blocks = num_queries;
+
+    kernel_a_compute_coarse_distances<<<num_blocks, threads_per_block>>>(
+        d_queries,
+        d_centroids,
+        d_distances,
+        num_queries,
+        num_centroids,
+        dim
+    );
+
+    CUDA_CHECK(cudaGetLastError());
+    CUDA_CHECK(cudaDeviceSynchronize());
+
+    // Copy results back
+    CUDA_CHECK(cudaMemcpy(distances, d_distances, distances_size, cudaMemcpyDeviceToHost));
+
+    // Cleanup
+    CUDA_CHECK(cudaFree(d_queries));
+    CUDA_CHECK(cudaFree(d_distances));
+}
+
+/**
+ * Legacy API: batch_search_gpu_pipeline (old version)
+ * Redirects to batch_search_gpu_pipeline_v2
+ */
+void batch_search_gpu_pipeline(
+    const float* queries,
+    const float* d_centroids,
+    const float* d_base_data,
+    const size_t* d_list_data,
+    const int* d_list_offsets,
+    const int* d_list_sizes,  // Note: v2 doesn't use this parameter
+    float* result_distances,
+    size_t* result_indices,
+    size_t num_queries,
+    size_t num_centroids,
+    size_t nprobe,
+    size_t k,
+    size_t dim
+) {
+    // Simply redirect to the new v2 implementation
+    batch_search_gpu_pipeline_v2(
+        queries,
+        d_centroids,
+        d_base_data,
+        d_list_data,
+        d_list_offsets,
+        result_distances,
+        result_indices,
+        num_queries,
+        num_centroids,
+        nprobe,
+        k,
+        dim
+    );
+}
+
+/**
+ * Legacy API: batch_scan_selected_lists (stub implementation)
+ * This was for CPU coarse + GPU fine, not used in optimized path
+ */
+void batch_scan_selected_lists(
+    const float* queries,
+    const size_t* selected_lists,
+    const float* d_base_data,
+    const size_t* d_list_data,
+    const int* d_list_offsets,
+    const int* d_list_sizes,
+    float* result_distances,
+    size_t* result_indices,
+    size_t num_queries,
+    size_t nprobe,
+    size_t k,
+    size_t dim
+) {
+    // Stub: not implemented as it's not used in the optimized pipeline
+    std::cerr << "Warning: batch_scan_selected_lists is deprecated. Use batch_search_gpu_pipeline_v2." << std::endl;
+}
+
+/**
+ * Legacy API: batch_search_with_lists (stub implementation)
+ * This was an old experimental API, not used
+ */
+void batch_search_with_lists(
+    const float* queries,
+    const float* d_centroids,
+    const float* d_base_data,
+    const size_t* d_list_data,
+    const int* d_list_offsets,
+    const int* d_list_sizes,
+    float* result_distances,
+    size_t* result_indices,
+    size_t num_queries,
+    size_t num_centroids,
+    size_t nprobe,
+    size_t k,
+    size_t dim
+) {
+    // Stub: not implemented as it's not used
+    std::cerr << "Warning: batch_search_with_lists is deprecated. Use batch_search_gpu_pipeline_v2." << std::endl;
+}
+
+} // namespace cuda
+} // namespace zenann
diff --git a/src/IVFFlatIndex.cpp b/src/IVFFlatIndex.cpp
index e36b2da..388aa72 100644
--- a/src/IVFFlatIndex.cpp
+++ b/src/IVFFlatIndex.cpp
@@ -3,6 +3,9 @@
 #ifdef ENABLE_OPENMP
 #include <omp.h>
 #endif
+#ifdef ENABLE_CUDA
+#include "CudaUtils.h"
+#endif
 #include <limits>
 #include <random>
 #include <algorithm>
@@ -52,6 +55,29 @@ void IVFFlatIndex::train() {
         }
         lists_[best_c].push_back(id);
     }
+
+#ifdef ENABLE_CUDA
+    // Upload centroids to GPU
+    centroids_flat_.resize(nlist_ * dimension_);
+    for (size_t c = 0; c < nlist_; ++c) {
+        for (size_t d = 0; d < dimension_; ++d) {
+            centroids_flat_[c * dimension_ + d] = centroids_[c][d];
+        }
+    }
+    gpu_centroids_manager_.upload_centroids(centroids_flat_.data(), nlist_, dimension_);
+
+    // Upload base data to GPU
+    std::vector<float> data_flat(data.size() * dimension_);
+    for (size_t i = 0; i < data.size(); ++i) {
+        for (size_t d = 0; d < dimension_; ++d) {
+            data_flat[i * dimension_ + d] = data[i][d];
+        }
+    }
+    gpu_data_manager_.upload_data(data_flat.data(), data.size(), dimension_);
+
+    // Upload inverted lists to GPU
+    gpu_lists_manager_.upload_lists(lists_, nlist_);
+#endif
 }
 
 SearchResult IVFFlatIndex::search(const Vector& query, size_t k) const {
@@ -61,13 +87,43 @@ SearchResult IVFFlatIndex::search(const Vector& query, size_t k) const {
 
     // Calculate distance from query to all centroids
     PROFILE_START(centroid_distance)
-#ifdef ENABLE_OPENMP
-    #pragma omp parallel for schedule(static)
-#endif
+
+#ifdef ENABLE_CUDA
+    // GPU version: Use batch API even for single query
+    std::vector<float> distances(nlist_);
+
+    if (gpu_centroids_manager_.is_ready()) {
+        cuda::batch_compute_centroid_distances(
+            query.data(),
+            gpu_centroids_manager_.get_device_ptr(),
+            distances.data(),
+            1,  // num_queries = 1
+            nlist_,
+            dimension_
+        );
+
+        // Store results with indices
+        for (size_t c = 0; c < nlist_; ++c) {
+            cdist[c] = {distances[c], c};
+        }
+    } else {
+        // Fallback to CPU if GPU not initialized
+        for (size_t c = 0; c < nlist_; ++c) {
+            float d = l2_distance(query.data(), centroids_[c].data(), dimension_);
+            cdist[c] = {d, c};
+        }
+    }
+#else
+    // CPU version: Compute distances with optional OpenMP
+    #ifdef ENABLE_OPENMP
+        #pragma omp parallel for schedule(static)
+    #endif
     for (size_t c = 0; c < nlist_; ++c) {
         float d = l2_distance(query.data(), centroids_[c].data(), dimension_);
         cdist[c] = {d, c};
     }
+#endif
+
     double time_centroid_distance = 0;
     PROFILE_END(centroid_distance, time_centroid_distance)
 
@@ -188,13 +244,79 @@ std::vector<SearchResult> IVFFlatIndex::search_batch(const Dataset& queries, siz
     const size_t nq = queries.size();
     std::vector<SearchResult> results(nq);
 
-    // Batch search with optional parallelization
-#ifdef ENABLE_OPENMP
-    #pragma omp parallel for schedule(dynamic)
-#endif
+#ifdef ENABLE_CUDA
+    if (gpu_centroids_manager_.is_ready() &&
+        gpu_data_manager_.is_ready() &&
+        gpu_lists_manager_.is_ready() &&
+        nq > 0) {
+        // OPTIMIZED: Complete GPU pipeline for 100K+ QPS
+        // All computation on GPU: centroid distances → select lists → scan lists
+
+        // Flatten queries
+        std::vector<float> queries_flat(nq * dimension_);
+        for (size_t i = 0; i < nq; ++i) {
+            for (size_t d = 0; d < dimension_; ++d) {
+                queries_flat[i * dimension_ + d] = queries[i][d];
+            }
+        }
+
+        // Allocate output buffers
+        std::vector<float> result_distances(nq * k);
+        std::vector<size_t> result_indices(nq * k);
+
+        // Call complete GPU pipeline V2 (4-kernel architecture from cuda.md)
+        cuda::batch_search_gpu_pipeline_v2(
+            queries_flat.data(),
+            gpu_centroids_manager_.get_device_ptr(),
+            gpu_data_manager_.get_device_ptr(),
+            gpu_lists_manager_.get_list_data_ptr(),
+            gpu_lists_manager_.get_list_offsets_ptr(),
+            result_distances.data(),
+            result_indices.data(),
+            nq,
+            nlist_,
+            nprobe_,
+            k,
+            dimension_
+        );
+
+        // Convert results to SearchResult format
+        for (size_t q = 0; q < nq; ++q) {
+            results[q].distances.resize(k);
+            results[q].indices.resize(k);
+
+            size_t valid_count = 0;
+            for (size_t i = 0; i < k; ++i) {
+                float dist = result_distances[q * k + i];
+                if (dist < INFINITY) {
+                    results[q].distances[valid_count] = dist;
+                    results[q].indices[valid_count] = result_indices[q * k + i];
+                    valid_count++;
+                }
+            }
+
+            // Resize to actual valid count
+            results[q].distances.resize(valid_count);
+            results[q].indices.resize(valid_count);
+        }
+    } else {
+        // Fallback: use individual search calls
+        #ifdef ENABLE_OPENMP
+            #pragma omp parallel for schedule(dynamic)
+        #endif
+        for (size_t i = 0; i < nq; ++i) {
+            results[i] = search(queries[i], k);
+        }
+    }
+#else
+    // CPU version: use individual search calls with optional parallelization
+    #ifdef ENABLE_OPENMP
+        #pragma omp parallel for schedule(dynamic)
+    #endif
     for (size_t i = 0; i < nq; ++i) {
         results[i] = search(queries[i], k);
     }
+#endif
 
     return results;
 }
@@ -332,6 +454,32 @@ std::shared_ptr<IVFFlatIndex> IVFFlatIndex::read_index(const std::string& filena
         in.read(reinterpret_cast<char*>(lst.data()), sizeof(size_t)*sz);
     }
 
+#ifdef ENABLE_CUDA
+    // Upload data to GPU after loading from disk
+    const auto& loaded_data = idx->datastore_->getAll();
+
+    // Upload centroids
+    idx->centroids_flat_.resize(idx->nlist_ * idx->dimension_);
+    for (size_t c = 0; c < idx->nlist_; ++c) {
+        for (size_t d = 0; d < idx->dimension_; ++d) {
+            idx->centroids_flat_[c * idx->dimension_ + d] = idx->centroids_[c][d];
+        }
+    }
+    idx->gpu_centroids_manager_.upload_centroids(idx->centroids_flat_.data(), idx->nlist_, idx->dimension_);
+
+    // Upload base data
+    std::vector<float> data_flat(loaded_data.size() * idx->dimension_);
+    for (size_t i = 0; i < loaded_data.size(); ++i) {
+        for (size_t d = 0; d < idx->dimension_; ++d) {
+            data_flat[i * idx->dimension_ + d] = loaded_data[i][d];
+        }
+    }
+    idx->gpu_data_manager_.upload_data(data_flat.data(), loaded_data.size(), idx->dimension_);
+
+    // Upload inverted lists
+    idx->gpu_lists_manager_.upload_lists(idx->lists_, idx->nlist_);
+#endif
+
     return idx;
 }
 }

From 758c0dffab21f813232c350e1c0ee621672faec6 Mon Sep 17 00:00:00 2001
From: Seco1024 <deyenqiu@gmail.com>
Date: Tue, 25 Nov 2025 05:59:01 +0800
Subject: [PATCH 3/5] chore: Makefile

---
 Makefile | 35 +++++++++++++++++++++++++++++------
 1 file changed, 29 insertions(+), 6 deletions(-)

diff --git a/Makefile b/Makefile
index 1a06c6e..7a0dd2f 100644
--- a/Makefile
+++ b/Makefile
@@ -1,6 +1,12 @@
 CXX := g++
+NVCC := nvcc
 BASE_CXXFLAGS := -std=c++17 -O3 -fPIC
 
+# CUDA configuration
+CUDA_PATH ?= /usr/local/cuda
+CUDA_ARCH := -arch=sm_60  # Adjust for your GPU (sm_60=Pascal, sm_75=Turing, sm_86=Ampere)
+NVCC_FLAGS := -O3 --compiler-options '-fPIC' $(CUDA_ARCH)
+
 # Python / pybind11 include flags
 PYBIND11_INCLUDES := $(shell python3 -m pybind11 --includes)
 PYTHON_INCLUDE    := $(shell python3-config --includes)
@@ -62,9 +68,10 @@ SIMD_LDFLAGS := $(BASE_LDFLAGS)
 FULL_CXXFLAGS := $(BASE_CXXFLAGS) -march=native -fopenmp -DENABLE_OPENMP -DENABLE_SIMD
 FULL_LDFLAGS := $(BASE_LDFLAGS) -fopenmp
 
-# CUDA: CUDA acceleration (placeholder for future)
+# CUDA: Pure CUDA acceleration (no OpenMP/SIMD to avoid conflicts)
 CUDA_CXXFLAGS := $(BASE_CXXFLAGS) -DENABLE_CUDA
-CUDA_LDFLAGS := $(BASE_LDFLAGS) -lcuda -lcudart
+CUDA_LDFLAGS := $(BASE_LDFLAGS) -L$(CUDA_PATH)/lib64 -lcudart
+CUDA_INCLUDES := $(ALL_INCLUDES) -I$(CUDA_PATH)/include
 
 # PROFILING: Full version with profiling enabled
 PROFILING_CXXFLAGS := $(BASE_CXXFLAGS) -march=native -fopenmp -DENABLE_OPENMP -DENABLE_SIMD -DENABLE_PROFILING
@@ -118,10 +125,26 @@ full: prepare
 	    $(FULL_LDFLAGS)
 	@echo "✓ Built FULL version: $(TARGET)"
 
-# Build CUDA version (placeholder)
+# Build CUDA version (Pure CUDA, no OpenMP/SIMD)
 cuda: prepare
-	@echo "CUDA version not yet implemented"
-	@echo "Will output to: $(TARGET)"
+	@echo "Building CUDA kernel..."
+	@$(NVCC) $(NVCC_FLAGS) -c src/CudaUtils.cu -o build/CudaUtils.o \
+	    $(PROJECT_INCLUDE) -I$(CUDA_PATH)/include
+	@echo "Building C++ sources with CUDA support..."
+	@$(CXX) $(CUDA_CXXFLAGS) $(CUDA_INCLUDES) -c src/IndexBase.cpp -o build/IndexBase.o
+	@$(CXX) $(CUDA_CXXFLAGS) $(CUDA_INCLUDES) -c src/IVFFlatIndex.cpp -o build/IVFFlatIndex.o
+	@$(CXX) $(CUDA_CXXFLAGS) $(CUDA_INCLUDES) -c src/KDTreeIndex.cpp -o build/KDTreeIndex.o
+	@$(CXX) $(CUDA_CXXFLAGS) $(CUDA_INCLUDES) -c src/HNSWIndex.cpp -o build/HNSWIndex.o
+	@$(CXX) $(CUDA_CXXFLAGS) $(CUDA_INCLUDES) -c python/zenann_pybind.cpp -o build/zenann_pybind.o
+	@echo "Linking with CUDA runtime..."
+	@$(CXX) -shared -o $(TARGET) \
+	    build/IndexBase.o build/IVFFlatIndex.o build/KDTreeIndex.o build/HNSWIndex.o \
+	    build/zenann_pybind.o build/CudaUtils.o \
+	    -L$(FAISS_ROOT)/lib -lfaiss \
+	    $(ALL_LIBS) \
+	    $(CUDA_LDFLAGS)
+	@echo "✓ Built CUDA version: $(TARGET)"
+	@echo "Note: This version uses pure CUDA (no OpenMP/SIMD)"
 
 # Build profiling version (Full with profiling enabled)
 profiling: prepare
@@ -146,7 +169,7 @@ help:
 	@echo "  make simd    - Build SIMD-only version (AVX2)"
 	@echo "  make full       - Build fully optimized version (OpenMP + SIMD)"
 	@echo "  make profiling  - Build profiling version (Full + detailed timing)"
-	@echo "  make cuda       - Build CUDA version (not yet implemented)"
+	@echo "  make cuda       - Build CUDA version (Pure GPU acceleration)"
 	@echo "  make all        - Build full version (default)"
 	@echo "  make clean   - Remove all built files"
 	@echo ""

From e9691b8c51fc0148151acfe39937f7ccfb5d16b5 Mon Sep 17 00:00:00 2001
From: Seco1024 <deyenqiu@gmail.com>
Date: Tue, 25 Nov 2025 05:59:54 +0800
Subject: [PATCH 4/5] fix: replace search() with batch_search() as benchmark
 tool

---
 benchmark/comprehensive_bench.py | 25 ++++++++++++++++---------
 benchmark/plot_tradeoff.py       |  9 ++++++++-
 2 files changed, 24 insertions(+), 10 deletions(-)

diff --git a/benchmark/comprehensive_bench.py b/benchmark/comprehensive_bench.py
index d9ee184..576ff20 100755
--- a/benchmark/comprehensive_bench.py
+++ b/benchmark/comprehensive_bench.py
@@ -12,7 +12,6 @@
 
 Supports SIFT1M and GIST1M datasets.
 """
-
 import sys
 import os
 import time
@@ -73,16 +72,24 @@ def compute_recall_at_k(predicted, groundtruth, k):
 
 
 def measure_latencies(index, queries, k, nprobe):
-    """Measure per-query latencies for percentile calculation"""
-    latencies = []
+    """Measure per-query latencies for percentile calculation
 
-    for query in queries:
-        t0 = time.perf_counter()
-        result = index.search(query.tolist(), k, nprobe)
-        t1 = time.perf_counter()
-        latencies.append((t1 - t0) * 1000)  # Convert to milliseconds
+    Uses batch search for better GPU utilization, then divides total time
+    by number of queries to get average per-query latency.
+    """
+    # Use batch search for GPU efficiency
+    batch_size = len(queries)
+
+    t0 = time.perf_counter()
+    results = index.search_batch(queries.tolist(), k, nprobe)
+    t_total = time.perf_counter() - t0
+
+    # Approximate per-query latency as average
+    avg_latency_ms = (t_total / batch_size) * 1000
 
-    return np.array(latencies)
+    # Return array with same latency for all queries (approximation)
+    # This is reasonable since batch processing amortizes overhead
+    return np.full(batch_size, avg_latency_ms)
 
 
 def get_memory_usage_mb():
diff --git a/benchmark/plot_tradeoff.py b/benchmark/plot_tradeoff.py
index 4880f39..a05bb1f 100755
--- a/benchmark/plot_tradeoff.py
+++ b/benchmark/plot_tradeoff.py
@@ -42,7 +42,14 @@ def plot_recall_qps_tradeoff(results_files, output_file='recall_qps_tradeoff.png
             # Extract data
             nprobes = [r['nprobe'] for r in results]
             qps_values = [r['qps_batch'] for r in results]
-            recall_values = [r[f'recall@{k}'] * 100 for r in results]
+
+            # Handle missing recall@k values
+            recall_key = f'recall@{k}'
+            if recall_key not in results[0]:
+                print(f"Warning: {recall_key} not found in {result_file}, skipping this file")
+                continue
+
+            recall_values = [r[recall_key] * 100 for r in results]
 
             # Create label
             dataset = metadata.get('dataset', 'unknown')

From c421fcd2c69515ea483455149b45a3e49a289d61 Mon Sep 17 00:00:00 2001
From: Seco1024 <deyenqiu@gmail.com>
Date: Tue, 25 Nov 2025 06:00:42 +0800
Subject: [PATCH 5/5] doc: gpt's advice

---
 doc/cuda.md | 390 ++++++++++++++++++++++++++++++++++++++++++++++++++++
 1 file changed, 390 insertions(+)
 create mode 100644 doc/cuda.md

diff --git a/doc/cuda.md b/doc/cuda.md
new file mode 100644
index 0000000..b488a58
--- /dev/null
+++ b/doc/cuda.md
@@ -0,0 +1,390 @@
+# IVF-Flat GPU Search 實作說明
+
+## 0. 問題範圍與前提
+
+### 0.1 你要做的是什麼？
+
+我們要把一個已經訓練好的 **IVF Index（coarse quantizer + inverted lists，沒有 PQ 壓縮）**，
+在 **GPU 上實作 search 階段**，支援：
+
+* 輸入：一批查詢向量（queries），維度為 `d`
+* 動作：
+
+  1. 對所有 coarse centroids 算距離 → 選前 `nprobe` 個 list
+  2. 在被選中的 lists 裡面，掃描所有向量，計算距離
+  3. 為每個 query 找出 top-`k` 近鄰
+* 輸出：每個 query 的 top-k IDs 和 distance
+
+### 0.2 重要假設
+
+* Feature 維度：`d`（通常 64, 128, 256…）
+* Coarse centroids 個數：`nlist`
+* 總向量數：`N_total`
+* GPU 端 index 為常駐（常態情況下一次 load 上去，重複用很多次查詢）
+
+距離型式可以是：
+
+* L2：`||q - x||^2`
+* 或 inner product：`- q·x`（當成「距離」，越小越好）
+
+以下說明以 L2 為例，inner product 只是少一個 norm term。
+
+---
+
+## 1. Index 在 GPU 上的資料佈局
+
+實作效率的 80% 來自這一段。
+
+### 1.1 Coarse centroids
+
+建議 layout（row-major）：
+
+* `coarseCentroids`：大小 `nlist * d`，排列為 `[c0[0..d-1], c1[0..d-1], ..., c_{nlist-1}[0..d-1]]`
+* `coarseNorms`（可選）：大小 `nlist`，裡面存 `||c_i||^2`，查詢時少算一部分 FLOPs
+
+> 為什麼這樣排：
+> 一個 centroid 是一坨連續資料，方便一個 warp 拿來做內積或 L2。
+
+### 1.2 Inverted lists：向量與 ID
+
+IVF-Flat 的 inverted list 通常就兩件事：
+
+1. **所有向量**本體
+2. 每個 list 的 offset / size
+
+建議在 GPU 上：
+
+* `vectors`：大小 `N_total * d`
+
+  * 所有 list 的向量集中在一個大陣列裡
+  * 某個向量 `x_idx` 在 array 中的起始位置是 `vectors[idx * d]`
+* `ids`：大小 `N_total`
+
+  * `ids[idx]` 是該向量對應的全域 vector id
+* `listOffsets`：大小 `nlist + 1`
+
+  * 第 `i` 個 list 的 index range 是 `[listOffsets[i], listOffsets[i+1])`，
+  * list size = `listOffsets[i+1] - listOffsets[i]`
+
+> 直覺：
+> 每個 list 就是大陣列上一段連續區間。要掃描一個 list，就是掃這段的所有 row（每 row 一個向量）。
+
+---
+
+## 2. Host 端整體 Search 流程
+
+你可以想像一個高階 API：
+
+> 給定一批 query，回傳各自的 top-k。
+
+### 2.1 輸入 / 輸出定義
+
+* 輸入：
+
+  * `queries`（host）：大小 `Q * d`，`Q` 是 query 個數
+  * `nprobe`：每個 query 要探訪幾個 list
+  * `k`：要找幾個近鄰
+* 輸出：
+
+  * `outIds`（host）：`Q * k`
+  * `outDists`（host）：`Q * k`
+
+### 2.2 Pipeline 分步
+
+對於一次 query batch：
+
+1. **H2D**：把 queries 複製到 GPU（`d_queries`）
+2. **Kernel A**：算每個 query 對所有 centroids 的距離 → `d_coarseDists`（`Q * nlist`）
+3. **Kernel B**：從 `nlist` 個 centroids 裡選出該 query 的 top-`nprobe` → `d_nprobeIdx`（`Q * nprobe`）
+4. **Kernel C**：掃描 inverted lists，對所有候選向量算距離，產生各 `(query, list)` 的 local top-k → `d_partialTopk`
+5. **Kernel D**：對每個 query 的所有 partial top-k 做 merge → `d_outIds`, `d_outDists`
+6. **D2H**：結果 copy 回 host
+
+---
+
+## 3. Kernel 設計邏輯（用文字講清楚）
+
+### 3.1 Kernel A：計算 queries × centroids 距離
+
+**目的**：對每個 query，算它到所有 `nlist` centroids 的距離。
+
+#### 3.1.1 設計理念
+
+* Grid：
+
+  * `blockIdx.x` = query index `q`
+* Block：
+
+  * `threadIdx.x` 負責不同 centroids（或不同維度的 slice）
+* 典型做法：
+
+  * 把 query `q` 的 `d` 維資料載入 shared memory（所有 threads 共用）
+  * 每個 thread 在外圈迴圈中負責多個 centroids：
+
+    * 對 centroid `c` 做 dot product / L2 累加
+    * 利用 `||q||^2 + ||c||^2 − 2 q⋅c` 的公式
+
+#### 3.1.2 核心運算風格
+
+以 L2 為例：
+
+* 先在 host 或另外一個小 kernel 算出：
+
+  * `queryNorms[q] = ||q||^2`
+  * `coarseNorms[c] = ||c||^2`（建 index 時就算好）
+
+在 kernel 裡每一筆距離的計算變成：
+
+* 先算 `dot(q, c)`
+* 再做 `dist = queryNorms[q] + coarseNorms[c] − 2 * dot`
+
+> 這樣可以把核心變成「大量 dot product」，對 GPU 很友善，未來可以轉 GEMM / tensor core。
+
+---
+
+### 3.2 Kernel B：每個 query 選出 top-nprobe 的 list
+
+**目的**：從 `nlist` 個距離裡挑出最小的 `nprobe` 個。
+
+#### 3.2.1 設計理念
+
+* Grid：
+
+  * 一個 block 處理一個 query
+* Block 內：
+
+  * 先把該 query 的 `nlist` 距離搬到 shared memory
+  * 再在 shared memory 上做「部分排序」或「選擇演算法」（例如 quickselect + 小排序）
+* 結果：
+
+  * 輸出 `nprobe` 個 centroid index（`list id`）
+
+#### 3.2.2 實作風格
+
+* 為了簡單，可以一開始用：
+
+  * 「在 shared memory BFS 型 partial sort」：
+
+    * 先 copy 到 shared
+    * 然後用一個簡單的 `nprobe`-pass，找到 `nprobe` 個最小值
+    * 這樣是 O(nlist * nprobe)，但 nlist / nprobe 多數時候不會爆到不可用
+* 未來可以換成：
+
+  * 在 shared memory 上的 bitonic sort（對 nlist 不太大的情境）
+  * 或使用 thrust / cub 的 device-level selection（但這會牽涉到 extra temp buffer 管理）
+
+---
+
+### 3.3 Kernel C：掃描 inverted lists（list scan）
+
+**這是整個 search 的主體，實作要特別小心。**
+
+#### 3.3.1 Grid mapping：用 (query, list) 二維 grid
+
+設計：
+
+* `blockIdx.x = query id (q)`
+* `blockIdx.y = probe index (0..nprobe-1)`
+  → 利用 `d_nprobeIdx[q * nprobe + probe]` 找到實際 `list id`
+
+這樣的好處：
+
+* 對每個 `(q, list)` 啟動一個 block，
+  list 的不同長度會自然分散在不同 block 上，有利 load balance
+* 也方便後面做「per-(q,list) local top-k」
+
+#### 3.3.2 Block 裡要做的事情
+
+對於 block 對應到 `(q, list)`：
+
+1. 查出該 list 的範圍：
+
+   * `start = listOffsets[list]`
+   * `end   = listOffsets[list+1]`
+2. 把 query `q` 的向量載入 shared memory（`d` 維）
+3. 每個 thread 以 stride 方式掃這段 `[start, end)` 向量：
+
+   * `for idx in [start + threadIdx.x, end, step blockDim.x]`：
+
+     * 取出 `vectors[idx * d .. idx * d + d-1]`
+     * 和 query 做 L2 distance
+     * 更新 thread-local top-k
+4. Block 結束前，把所有 thread 的 local top-k 收集到 shared memory，
+   做一次 block-level top-k 合併，產生**該 `(q, list)` 的 k 個最佳候選**
+5. 將這 k 個候選寫到 global memory 的 `partial` buffer：
+
+   * 例如 `partialBase = (q * nprobe + probe) * k`
+
+#### 3.3.3 thread-local top-k 怎麼做？
+
+典型作法：
+
+* 假設 `k` 不大（如 10, 20），
+  每個 thread 用「**小陣列 + insertion sort**」維護 thread-local top-k：
+
+  * 陣列大小可以 >= k（例如 `LOCAL_K=32`），
+    這樣 thread 內候選稍微冗餘一點，讓 block 合併時選擇空間更大
+* 每算出一個 distance 就試著插入：
+
+  * 若陣列還沒滿 → 直接插入（保持排序）
+  * 若陣列已滿，而且距離比最後一名還小 → 拿掉最後一名，插入適當位置
+
+這段完全在 register 裡跑，效能很好。
+
+#### 3.3.4 Block-level top-k 合併
+
+做法（概念）：
+
+1. 每個 thread 把自己的 thread-local top-k 搬到 shared memory 的一段區間：
+
+   * 如果 thread 數是 `T`，每個 thread 有 `LOCAL_K` 候選 →
+     總共 `T * LOCAL_K` 個候選
+2. Block 內再做一次選擇：
+
+   * 在 shared memory 上跑「small-N top-k」：
+
+     * 可以是 bitonic sort（針對幾千以內元素）
+     * 或者簡單的「重複在所有元素中找最小值，跑 k 次」（O(N * k)，N 是 `T * LOCAL_K`）
+
+最後得到 block-level 的前 `k` 個候選，寫回 global memory。
+
+---
+
+### 3.4 Kernel D：對整個 query 的 partial top-k 做 merge
+
+每個 query 對應 `nprobe` 個 list，每個 list 的 block 都給了你 `k` 個 candidate：
+
+* 總共 `nprobe * k` 個候選
+* 要在這裡整合成該 query 的 global top-k
+
+設計：
+
+* `blockIdx.x = query id (q)`
+* Block 內：
+
+  * 把該 query 對應的 `nprobe * k` 候選從 global memory 讀進 shared memory
+  * 再在 shared memory 上跑一次 top-k
+  * 最後把 `k` 個最佳寫到 `d_outIds[q * k .. q*k + k-1]` 和 `d_outDists[同樣範圍]`
+
+實務上 `nprobe * k` 通常不會太大（例如 64 * 10 = 640），
+所以這一階段的 cost 很小。
+
+---
+
+## 4. 查詢批次、大量併發與 stream 管理
+
+### 4.1 Query batching（避免每次只丟一個 query）
+
+GPU 的利用率很大一部分來自於：
+
+* 一次 batch 送多個 query，例如 32～1024 個
+* 所有 kernel 都以「`Q` 維」展開 grid（`blockIdx.x` 掃 query）
+
+你可以設計一個「**固定 batch size 的 search**」：
+
+1. 接收上層傳來的 `numQueries`，拆成多個 batch：
+
+   * 每 batch 至多 `MAX_Q`（例如 256）
+2. 每個 batch 跑一遍 A/B/C/D Kernels + H2D/D2H copy
+3. 將這一 batch 的結果寫入最終 output buffer 的對應範圍
+
+### 4.2 使用 CUDA streams 做 pipeline
+
+如果要更進階，可以：
+
+* 假設你有很多 batch
+* 將不同 batch 的 kernel / H2D copy 交錯在不同 stream 上：
+
+  * stream 0：batch 0 的 kernel
+  * stream 1：batch 1 做 H2D copy
+  * stream 2：batch −1 做 D2H copy
+* 讓 GPU 計算與 PCIe 資料傳輸互相 overlap
+
+---
+
+## 5. 效能優化的重點 checklist
+
+下面是你實作完一版 naive 之後，可以逐一檢查、優化的點：
+
+### 5.1 記憶體讀寫是否 coalesced？
+
+* `coarseCentroids`、`vectors` 都是 row-major，
+  讓「不同 thread 處理不同 centroid / 向量，但在內層維度上是連續讀」
+* 避免一個 thread 讀一條向量時寫成「每次 stride 很大」
+  → 正確作法是固定一個 thread block 處理一個 query，
+  block 中 threads 在維度上做「向量內的分工」，或在向量 index 上 stride
+
+### 5.2 重複使用資料（shared memory）
+
+* Query 本身常常會被同一個 block 重複用很多次：
+
+  * 在 Kernel A（query × centroid）中：
+    一個 block 處理一個 query → query 可以先載入 shared
+  * 在 Kernel C（掃某 query 的某個 list）中：
+    同樣是 query 向量，先載入 shared，再重複讀它跟多個向量做距離
+
+### 5.3 減少運算：使用 L2 展開式
+
+* 一次算好 `||q||^2` 和 `||x||^2`
+* 計算距離只剩下「dot product + 加減」：
+
+  * 對 GPU 來說，是最典型、最好優化的運算 pattern
+* 如果你採 inner product search，很多情況下你可以直接用 `-q⋅x` 當距離，不需要 norms
+
+### 5.4 利用半精度 / tensor cores（進階）
+
+* 如果對 recall 要求允許，你可以：
+
+  * 把向量與 centroids 存為 FP16
+  * 在 dot product 時使用 FP16 input、FP32 accumulate
+  * 或把 coarse matching 寫成 GEMM（查詢 batch × centroids），用 cublas + tensor cores
+* 這一層先不做也可以，等 baseline version 跑起來再考慮
+
+### 5.5 Load balancing：長短 list
+
+* 現實中 inverted lists 的長度可能很不均：
+
+  * 有的 list 幾百點、有的 list 幾十萬
+* 如果你讓一個 block 吃完整個長 list，會導致嚴重 load 不均
+* 解法：
+
+  * 把 list 切成 chunk：
+
+    * 例如每 `CHUNK_SIZE` 個向量為一段
+    * 每個 `(q, list_chunk)` 用一個 block 處理
+  * partial top-k 數量會變多，merge 階段稍微變複雜，但反而更均衡
+
+---
+
+## 6. 整體實作順序建議
+
+如果你要從零開始寫，我會建議這樣排：
+
+1. **先做最簡版，確保 correctness：**
+
+   * 單個 query，用 GPU 算：
+
+     1. coarse distance
+     2. 手動選 nprobe（甚至先在 CPU 選）
+     3. 掃 list，用 naive 寫法（每個 thread 做一條向量的距離，global top-k）
+   * 先確保數值結果跟 CPU 版一致
+
+2. **改成 batch query 與四個 kernel 分階段：**
+
+   * Kernel A~D 拆清楚
+   * grid/block mapping 確定下來
+
+3. **引入 thread-local top-k + block-level merge：**
+
+   * 避免大量 global atomic 或 global heap
+
+4. **優化記憶體使用與 shared memory：**
+
+   * query 放 shared
+   * 擴充分工方式，讓 memory access 更 coalesced
+
+5. **處理長尾 list（可選）：**
+
+   * 若發現有某些 list 特別長導致整體 latency 被拖慢，再做 chunk 化 / persistent kernel
+
+做到這裡，你就有一個「可工作的 IVF-Flat GPU Search 核心」，之後要再往 FP16 / GEMM / multi-GPU 進化都會比較自然。
\ No newline at end of file