chore: bump version to 0.1.1

thewebscraping · thewebscraping · commit 57b1dd3ce3da · 2025-11-23T19:53:35.000+07:00
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -1,5 +1,16 @@
 # CrossVector - Changelog
 
+## [0.1.1] - 2025-11-23
+
+- Bumped package version to **0.1.1**.
+- Added beta warning and production‑risk notice in README.
+- Switched timestamps to float Unix timestamps (`created_timestamp`, `updated_timestamp`).
+- Introduced `VECTOR_STORE_TEXT` configuration option.
+- Fixed integration tests for AstraDB, ChromaDB, Milvus, and PGVector (table name handling, dimension parameter, score field).
+- Updated documentation (README, quickstart, schema, configuration) to reflect new features and usage.
+- Adjusted `.markdownlint.yaml` to disable MD060 table‑column‑style warnings.
+- Cleaned up imports and resolved lint errors (ruff E402).
+
 ## Recent Updates (2025-11-23)
 
 ### GitHub Organization Update
diff --git a/README.md b/README.md
@@ -230,7 +230,7 @@ from crossvector.dbs.pgvector import PGVectorAdapter
 
 adapter = PGVectorAdapter()
 adapter.initialize(
-    table_name="my_vectors",
+    collection_name="my_vectors",
     embedding_dimension=1536,
     metric="cosine",
     store_text=True  # Optional
diff --git a/scripts/tests/test_chroma_cloud.py b/scripts/tests/test_chroma_cloud.py
@@ -24,6 +24,7 @@
 
 # Initialize or get collection
 try:
+    adapter.drop_collection("test_vectors")
     adapter.initialize(collection_name="test_vectors", embedding_dimension=embedder.embedding_dimension)
     print("Created collection 'test_vectors'.")
 except Exception as e:
diff --git a/scripts/tests/test_integration.py b/scripts/tests/test_integration.py
@@ -3,6 +3,8 @@
 This script tests the unified VectorEngine interface across different databases.
 """
 
+import time
+
 from dotenv import load_dotenv
 
 from crossvector import Document, SearchRequest, UpsertRequest, VectorEngine
@@ -36,57 +38,46 @@
 ]
 
 
-def test_engine(db_name: str, db_adapter, embedding_adapter, collection_name: str, is_pgvector: bool = False):
+def test_engine(db_name: str, db_adapter, embedding_adapter, collection_name: str):
     """Test VectorEngine with a specific database adapter."""
     print(f"\n{'=' * 80}")
     print(f"Testing {db_name} with {embedding_adapter.model_name}")
     print(f"{'=' * 80}")
 
-    # Initialize engine (PGVector uses table_name instead of collection_name)
-    if is_pgvector:
-        engine = VectorEngine(embedding_adapter=embedding_adapter, db_adapter=db_adapter, table_name=collection_name)
-    else:
-        engine = VectorEngine(
-            embedding_adapter=embedding_adapter, db_adapter=db_adapter, collection_name=collection_name
-        )
+    engine = VectorEngine(embedding_adapter=embedding_adapter, db_adapter=db_adapter, collection_name=collection_name)
 
     # Clean up existing data (if collection exists, drop it)
     try:
-        if hasattr(db_adapter, "db") and collection_name in db_adapter.db.list_collection_names():
-            db_adapter.db.drop_collection(collection_name)
-            print(f"✓ Dropped existing collection '{collection_name}'")
+        engine.drop_collection(collection_name)
+        time.sleep(1)
+        print(f"Dropped existing collection '{collection_name}'")
     except Exception as e:
         print(f"Note: Could not drop collection (may not exist): {e}")
 
     # Re-initialize after dropping
-    if is_pgvector:
-        engine = VectorEngine(embedding_adapter=embedding_adapter, db_adapter=db_adapter, table_name=collection_name)
-    else:
-        engine = VectorEngine(
-            embedding_adapter=embedding_adapter, db_adapter=db_adapter, collection_name=collection_name
-        )
+    engine = VectorEngine(embedding_adapter=embedding_adapter, db_adapter=db_adapter, collection_name=collection_name)
 
     # Test 1: Upsert documents
     print("\n1. Testing upsert...")
     result = engine.upsert(UpsertRequest(documents=test_docs))
-    print(f"✓ Inserted {result['count']} documents")
+    print(f"Inserted {result['count']} documents")
 
     # Test 2: Count documents
     print("\n2. Testing count...")
     count = engine.count()
-    print(f"✓ Total documents: {count}")
+    print(f"Total documents: {count}")
     assert count == len(test_docs), f"Expected {len(test_docs)} documents, got {count}"
 
     # Test 3: Get document by ID
     print("\n3. Testing get...")
     doc = engine.get("doc1")
-    print(f"✓ Retrieved document: {doc.get('text', 'N/A')[:50]}...")
+    print(f"Retrieved document: {doc.get('text', 'N/A')[:50]}...")
     assert doc is not None, "Document not found"
 
     # Test 4: Search
     print("\n4. Testing search...")
     results = engine.search(SearchRequest(query="AI and machine learning", limit=2))
-    print(f"✓ Found {len(results)} results")
+    print(f"Found {len(results)} results")
     for i, result in enumerate(results, 1):
         score = result.get("score", "N/A")
         text = result.get("text", "N/A")
@@ -100,26 +91,26 @@ def test_engine(db_name: str, db_adapter, embedding_adapter, collection_name: st
     # Test 5: Delete one
     print("\n5. Testing delete_one...")
     deleted = engine.delete_one("doc1")
-    print(f"✓ Deleted {deleted} document(s)")
+    print(f"Deleted {deleted} document(s)")
 
     # Verify deletion
     count_after_delete = engine.count()
-    print(f"✓ Documents after deletion: {count_after_delete}")
+    print(f"Documents after deletion: {count_after_delete}")
     assert count_after_delete == len(test_docs) - 1, (
         f"Expected {len(test_docs) - 1} documents, got {count_after_delete}"
     )
 
     # Test 6: Delete many
     print("\n6. Testing delete_many...")
     deleted = engine.delete_many(["doc2", "doc3"])
-    print(f"✓ Deleted {deleted} document(s)")
+    print(f"Deleted {deleted} document(s)")
 
     # Verify all deleted
     final_count = engine.count()
-    print(f"✓ Final document count: {final_count}")
+    print(f"Final document count: {final_count}")
     assert final_count == 0, f"Expected 0 documents, got {final_count}"
 
-    print(f"\n✅ All tests passed for {db_name}!")
+    print(f"\nAll tests passed for {db_name}!")
 
 
 def main():
@@ -134,25 +125,25 @@ def main():
     try:
         test_engine("AstraDB", AstraDBAdapter(), openai_embedder, "test_crossvector_integration")
     except Exception as e:
-        print(f"\n❌ AstraDB test failed: {e}")
+        print(f"\nAstraDB test failed: {e}")
 
     # Test ChromaDB
     try:
         test_engine("ChromaDB Cloud", ChromaDBAdapter(), openai_embedder, "test_crossvector_integration")
     except Exception as e:
-        print(f"\n❌ ChromaDB test failed: {e}")
+        print(f"\nChromaDB test failed: {e}")
 
     # Test Milvus
     try:
         test_engine("Milvus", MilvusDBAdapter(), openai_embedder, "test_crossvector_integration")
     except Exception as e:
-        print(f"\n❌ Milvus test failed: {e}")
+        print(f"\nMilvus test failed: {e}")
 
     # Test PGVector (if available)
     try:
-        test_engine("PGVector", PGVectorAdapter(), openai_embedder, "test_crossvector_integration", is_pgvector=True)
+        test_engine("PGVector", PGVectorAdapter(), openai_embedder, "test_crossvector_integration")
     except Exception as e:
-        print(f"\n❌ PGVector test failed: {e}")
+        print(f"\nPGVector test failed: {e}")
 
     # Test with Gemini embeddings (optional)
     try:
@@ -163,7 +154,7 @@ def main():
 
         test_engine("AstraDB with Gemini", AstraDBAdapter(), gemini_embedder, "test_crossvector_gemini")
     except Exception as e:
-        print(f"\n❌ Gemini embedding test failed: {e}")
+        print(f"\nGemini embedding test failed: {e}")
 
     print("\n" + "=" * 80)
     print("Integration tests completed!")
diff --git a/scripts/tests/test_milvus.py b/scripts/tests/test_milvus.py
@@ -21,6 +21,7 @@
 # 2. Insert into Milvus
 milvus = MilvusDBAdapter()
 milvus.initialize(collection_name="test_vectors", embedding_dimension=embedder.embedding_dimension)
+milvus.drop_collection("test_vectors")
 
 docs = [
     {"_id": str(i), "vector": emb, "text": text, "metadata": {"source": "test"}}
diff --git a/scripts/tests/test_pgvector.py b/scripts/tests/test_pgvector.py
@@ -23,7 +23,7 @@
 # 2. Initialize PGVector
 pgvector = PGVectorAdapter()
 pgvector.drop_collection("test_vectors")
-pgvector.initialize(table_name="test_vectors", embedding_dimension=embedder.embedding_dimension)
+pgvector.initialize(collection_name="test_vectors", embedding_dimension=embedder.embedding_dimension)
 
 # 3. Insert docs
 docs = [
diff --git a/src/crossvector/__init__.py b/src/crossvector/__init__.py
@@ -7,7 +7,7 @@
 from .engine import VectorEngine
 from .schema import Document, SearchRequest, UpsertRequest, VectorRequest
 
-__version__ = "0.1.0"
+__version__ = "0.1.1"
 
 __all__ = [
     "VectorEngine",
diff --git a/src/crossvector/abc.py b/src/crossvector/abc.py
@@ -38,7 +38,7 @@ class VectorDBAdapter(ABC):
     """
 
     @abstractmethod
-    def initialize(self, collection_name: str, embedding_dimension: int, metric: str = "cosine"):
+    def initialize(self, collection_name: str, embedding_dimension: int, metric: str = "cosine", **kwargs):
         """
         Initializes the database and ensures the collection is ready.
 
diff --git a/src/crossvector/dbs/astradb.py b/src/crossvector/dbs/astradb.py
@@ -13,7 +13,7 @@
 
 from crossvector.abc import VectorDBAdapter
 from crossvector.constants import VECTOR_METRIC_MAP, VectorMetric
-from crossvector.settings import settings
+from crossvector.settings import settings as api_settings
 
 log = logging.getLogger(__name__)
 
@@ -35,9 +35,9 @@ def client(self) -> DataAPIClient:
         Lazily initializes and returns the AstraDB DataAPIClient.
         """
         if self._client is None:
-            if not settings.ASTRA_DB_APPLICATION_TOKEN:
+            if not api_settings.ASTRA_DB_APPLICATION_TOKEN:
                 raise ValueError("ASTRA_DB_APPLICATION_TOKEN is not set. Please configure it in your .env file.")
-            self._client = DataAPIClient(token=settings.ASTRA_DB_APPLICATION_TOKEN)
+            self._client = DataAPIClient(token=api_settings.ASTRA_DB_APPLICATION_TOKEN)
         return self._client
 
     @property
@@ -46,16 +46,18 @@ def db(self) -> Database:
         Lazily initializes and returns the AstraDB database instance.
         """
         if self._db is None:
-            if not settings.ASTRA_DB_API_ENDPOINT:
+            if not api_settings.ASTRA_DB_API_ENDPOINT:
                 raise ValueError("ASTRA_DB_API_ENDPOINT is not set. Please configure it in your .env file.")
-            self._db = self.client.get_database(api_endpoint=settings.ASTRA_DB_API_ENDPOINT)
+            self._db = self.client.get_database(api_endpoint=api_settings.ASTRA_DB_API_ENDPOINT)
         return self._db
 
-    def initialize(self, collection_name: str, embedding_dimension: int, metric: str = None, store_text: bool = True):
+    def initialize(
+        self, collection_name: str, embedding_dimension: int, metric: str = None, store_text: bool = None, **kwargs
+    ):
         """
         Creates or retrieves an AstraDB collection with the proper vector configuration.
         """
-        self.store_text = store_text
+        self.store_text = store_text or api_settings.VECTOR_STORE_TEXT
         if metric is None:
             metric = os.getenv("VECTOR_METRIC", VectorMetric.COSINE)
         self.get_collection(collection_name, embedding_dimension, metric)
@@ -99,6 +101,11 @@ def get_collection(
             log.error(f"Failed to initialize AstraDB collection: {e}", exc_info=True)
             raise
 
+    def drop_collection(self, collection_name: str) -> bool:
+        self.db.drop_collection(collection_name)
+        log.info(f"AstraDB collection '{collection_name}' dropped.")
+        return True
+
     def upsert(self, documents: List[Dict[str, Any]]):
         """
         Inserts or updates multiple documents in the AstraDB collection.
diff --git a/src/crossvector/dbs/chroma.py b/src/crossvector/dbs/chroma.py
@@ -11,6 +11,7 @@
 from chromadb.config import Settings
 
 from crossvector.constants import VECTOR_METRIC_MAP, VectorMetric
+from crossvector.settings import settings as api_settings
 
 log = logging.getLogger(__name__)
 
@@ -92,13 +93,14 @@ def collection(self) -> chromadb.Collection:
             raise ValueError("Collection name and embedding dimension must be set. Call initialize().")
         return self.get_collection(self.collection_name, self.embedding_dimension)
 
-    def initialize(self, collection_name: str, embedding_dimension: int, metric: str = None, store_text: bool = True):
+    def initialize(
+        self, collection_name: str, embedding_dimension: int, metric: str = None, store_text: bool = None, **kwargs
+    ):
         """
         Creates or retrieves a ChromaDB collection.
         """
-        import os
 
-        self.store_text = store_text
+        self.store_text = store_text or api_settings.VECTOR_STORE_TEXT
         if metric is None:
             metric = os.getenv("VECTOR_METRIC", VectorMetric.COSINE)
         self.get_collection(collection_name, embedding_dimension, metric)
@@ -129,6 +131,11 @@ def get_collection(self, collection_name: str, embedding_dimension: int, metric:
             log.info(f"ChromaDB collection '{collection_name}' created.")
         return self._collection
 
+    def drop_collection(self, collection_name: str) -> bool:
+        self.client.delete_collection(collection_name)
+        log.info(f"ChromaDB collection '{collection_name}' dropped.")
+        return True
+
     def upsert(self, documents: List[Dict[str, Any]]):
         """
         Inserts a batch of documents into the ChromaDB collection.
diff --git a/src/crossvector/dbs/milvus.py b/src/crossvector/dbs/milvus.py
diff --git a/src/crossvector/dbs/pgvector.py b/src/crossvector/dbs/pgvector.py
diff --git a/src/crossvector/engine.py b/src/crossvector/engine.py
diff --git a/src/crossvector/settings.py b/src/crossvector/settings.py
diff --git a/tests/test_engine.py b/tests/test_engine.py