fix: persist include_paths to DB and pass to dependency analyzer (OPE-162)

DevanshuNEU · DevanshuNEU · commit 65d19e24e6b8 · 2026-03-06T18:18:16.000-05:00
Root cause of 1000-node hairball: user indexes packages/sql + packages/vitest
(26 files) but dependency graph scans entire Effect-TS clone (1,767 files).

Fix:
1. Save include_paths to repositories table during indexing
2. All 3 analysis routes now pass repo.get('include_paths') to
   build_dependency_graph
3. Added force=true query param to dependencies endpoint to bypass
   stale cache built without include_paths filtering

After re-indexing, Effect-TS subset repos will show 26 nodes instead of 1000.

Closes OPE-162
diff --git a/backend/routes/analysis.py b/backend/routes/analysis.py
@@ -21,19 +21,21 @@ class ImpactRequest(BaseModel):
 @router.get("/{repo_id}/dependencies")
 async def get_dependency_graph(
     repo_id: str,
+    force: bool = False,
     auth: AuthContext = Depends(require_auth)
 ):
-    """Get dependency graph for repository."""
+    """Get dependency graph for repository. Use force=true to rebuild from scratch."""
     try:
         repo = get_repo_or_404(repo_id, auth.user_id)
 
-        cached_graph = dependency_analyzer.load_from_cache(repo_id)
-        if cached_graph:
-            logger.debug("Using cached dependency graph", repo_id=repo_id)
-            return {**cached_graph, "cached": True}
+        if not force:
+            cached_graph = dependency_analyzer.load_from_cache(repo_id)
+            if cached_graph:
+                logger.debug("Using cached dependency graph", repo_id=repo_id)
+                return {**cached_graph, "cached": True}
 
-        logger.info("Building fresh dependency graph", repo_id=repo_id)
-        graph_data = dependency_analyzer.build_dependency_graph(repo["local_path"])
+        logger.info("Building fresh dependency graph", repo_id=repo_id, include_paths=repo.get("include_paths"))
+        graph_data = dependency_analyzer.build_dependency_graph(repo["local_path"], include_paths=repo.get("include_paths"))
         dependency_analyzer.save_to_cache(repo_id, graph_data)
 
         return {**graph_data, "cached": False}
@@ -64,7 +66,7 @@ async def analyze_impact(
         graph_data = dependency_analyzer.load_from_cache(repo_id)
         if not graph_data:
             logger.info("Building dependency graph for impact analysis", repo_id=repo_id)
-            graph_data = dependency_analyzer.build_dependency_graph(repo["local_path"])
+            graph_data = dependency_analyzer.build_dependency_graph(repo["local_path"], include_paths=repo.get("include_paths"))
             dependency_analyzer.save_to_cache(repo_id, graph_data)
 
         impact = dependency_analyzer.get_file_impact(
@@ -94,7 +96,7 @@ async def get_repository_insights(
         graph_data = dependency_analyzer.load_from_cache(repo_id)
         if not graph_data:
             logger.info("Building dependency graph for insights", repo_id=repo_id)
-            graph_data = dependency_analyzer.build_dependency_graph(repo["local_path"])
+            graph_data = dependency_analyzer.build_dependency_graph(repo["local_path"], include_paths=repo.get("include_paths"))
             dependency_analyzer.save_to_cache(repo_id, graph_data)
 
         return {
diff --git a/backend/routes/repos.py b/backend/routes/repos.py
@@ -602,6 +602,11 @@ async def _run_async_indexing(
         
         repo_manager.update_status(repo_id, "indexing")
         
+        # Persist include_paths so dependency analyzer and other tools use the subset
+        if include_paths:
+            from services.supabase_service import get_supabase_service
+            get_supabase_service().update_repository(repo_id, {"include_paths": include_paths})
+        
         # Publish initial progress to confirm connection
         if publisher:
             publisher.publish_progress(repo_id, 0, 1, 0, "Starting...")