feat: add doi and publisher info to global dcs

olevski · olevski · commit eecf290a64e8 · 2025-12-16T14:25:01.000+01:00
diff --git a/components/renku_data_services/data_connectors/api.spec.yaml b/components/renku_data_services/data_connectors/api.spec.yaml
@@ -475,6 +475,14 @@ components:
           $ref: "#/components/schemas/ETag"
         keywords:
           $ref: "#/components/schemas/KeywordsList"
+        doi:
+          $ref: "#/components/schemas/DOI"
+        publisher_name:
+          type: string
+          description: The publisher of the dataset.
+        publisher_url:
+          type: string
+          description: The URL for the publisher of the dataset.
       required:
         - id
         - name
@@ -766,7 +774,22 @@ components:
         type:
           type: string
           description: data type of option value. RClone has more options but they map to the ones listed here.
-          enum: ["int", "bool", "string", "stringArray", "Time", "Duration", "MultiEncoder", "SizeSuffix", "SpaceSepList", "CommaSepList", "Tristate", "Encoding", "Bits"]
+          enum:
+            [
+              "int",
+              "bool",
+              "string",
+              "stringArray",
+              "Time",
+              "Duration",
+              "MultiEncoder",
+              "SizeSuffix",
+              "SpaceSepList",
+              "CommaSepList",
+              "Tristate",
+              "Encoding",
+              "Bits",
+            ]
       required:
         - name
         - help
@@ -870,6 +893,10 @@ components:
       type: string
       description: Entity Tag
       example: "9EE498F9D565D0C41E511377425F32F3"
+    DOI:
+      type: string
+      description: "A DOI."
+      example: "10.16904/envidat.33"
     DataConnectorsGetQuery:
       description: Query params for data connectors get request
       allOf:
diff --git a/components/renku_data_services/data_connectors/apispec.py b/components/renku_data_services/data_connectors/apispec.py
@@ -1,6 +1,6 @@
 # generated by datamodel-codegen:
 #   filename:  api.spec.yaml
-#   timestamp: 2025-06-19T07:18:06+00:00
+#   timestamp: 2025-12-03T09:49:11+00:00
 
 from __future__ import annotations
 
@@ -364,6 +364,15 @@ class DataConnector(BaseAPISpec):
         examples=[["project", "keywords"]],
         min_length=0,
     )
+    doi: Optional[str] = Field(
+        None, description="A DOI.", examples=["10.16904/envidat.33"]
+    )
+    publisher_name: Optional[str] = Field(
+        None, description="The publisher of the dataset."
+    )
+    publisher_url: Optional[str] = Field(
+        None, description="The URL for the publisher of the dataset."
+    )
 
 
 class DataConnectorPost(BaseAPISpec):
diff --git a/components/renku_data_services/data_connectors/blueprints.py b/components/renku_data_services/data_connectors/blueprints.py
@@ -513,6 +513,9 @@ def _dump_data_connector(
                 description=data_connector.description,
                 etag=data_connector.etag,
                 keywords=data_connector.keywords or [],
+                doi=data_connector.doi,
+                publisher_name=data_connector.publisher_name,
+                publisher_url=data_connector.publisher_url,
             )
         return dict(
             id=str(data_connector.id),
diff --git a/components/renku_data_services/data_connectors/core.py b/components/renku_data_services/data_connectors/core.py
@@ -193,6 +193,7 @@ async def prevalidate_unsaved_global_data_connector(
         storage.configuration["provider"] = rclone_metadata.provider
 
     slug = base_models.Slug.from_name(doi_uri).value
+    doi_metadata = await doi.metadata()
     return models.PrevalidatedGlobalDataConnector(
         data_connector=models.UnsavedGlobalDataConnector(
             name=doi_uri,
@@ -202,8 +203,14 @@ async def prevalidate_unsaved_global_data_connector(
             storage=storage,
             description=None,
             keywords=[],
+            doi=doi,
+            publisher_url=None
+            if doi_metadata is None or doi_metadata.publisher is None
+            else doi_metadata.publisher.url,
+            publisher_name=None
+            if doi_metadata is None or doi_metadata.publisher is None
+            else doi_metadata.publisher.name,
         ),
-        doi=doi,
         rclone_metadata=rclone_metadata,
     )
 
@@ -214,9 +221,12 @@ async def validate_unsaved_global_data_connector(
 ) -> models.UnsavedGlobalDataConnector:
     """Validate the data connector."""
     data_connector = prevalidated_dc.data_connector
-    doi = prevalidated_dc.doi
+    doi = prevalidated_dc.data_connector.doi
     rclone_metadata = prevalidated_dc.rclone_metadata
 
+    if not doi:
+        raise errors.ValidationError(message="Global data connectors require a DOI.")
+
     # Check that we can list the files in the DOI
     connection_result = await validator.test_connection(
         configuration=data_connector.storage.configuration, source_path=data_connector.storage.source_path or "/"
@@ -281,6 +291,9 @@ async def validate_unsaved_global_data_connector(
         storage=storage,
         description=description or None,
         keywords=keywords,
+        doi=data_connector.doi,
+        publisher_name=data_connector.publisher_name,
+        publisher_url=data_connector.publisher_url,
     )
 
 
diff --git a/components/renku_data_services/data_connectors/db.py b/components/renku_data_services/data_connectors/db.py
@@ -30,6 +30,7 @@
 from renku_data_services.data_connectors import apispec, models
 from renku_data_services.data_connectors import orm as schemas
 from renku_data_services.data_connectors.core import validate_unsaved_global_data_connector
+from renku_data_services.data_connectors.doi.models import DOI
 from renku_data_services.namespace import orm as ns_schemas
 from renku_data_services.namespace.db import GroupRepository
 from renku_data_services.namespace.models import ProjectNamespace
@@ -292,6 +293,9 @@ async def _insert_data_connector(
 
         slug = data_connector.slug or base_models.Slug.from_name(data_connector.name).value
 
+        doi: DOI | None = None
+        publisher_url: str | None = None
+        publisher_name: str | None = None
         if ns is not None and isinstance(data_connector, models.UnsavedDataConnector):
             existing_slug_stmt = (
                 select(ns_schemas.EntitySlugORM)
@@ -313,6 +317,9 @@ async def _insert_data_connector(
             existing_global_dc = await session.scalar(existing_global_dc_stmt)
             if existing_global_dc is not None:
                 raise errors.ConflictError(message=f"An entity with the slug '{data_connector.slug}' already exists.")
+            doi = data_connector.doi
+            publisher_name = data_connector.publisher_name
+            publisher_url = data_connector.publisher_url
 
         visibility_orm = (
             apispec.Visibility(data_connector.visibility)
@@ -331,6 +338,9 @@ async def _insert_data_connector(
             description=data_connector.description,
             keywords=data_connector.keywords,
             global_slug=slug if isinstance(data_connector, models.UnsavedGlobalDataConnector) else None,
+            doi=doi,
+            publisher_url=publisher_url,
+            publisher_name=publisher_name,
         )
         if ns is not None:
             data_connector_slug = ns_schemas.EntitySlugORM.create_data_connector_slug(
diff --git a/components/renku_data_services/data_connectors/doi/models.py b/components/renku_data_services/data_connectors/doi/models.py
@@ -1,15 +1,19 @@
 """Models for DOIs."""
 
+from __future__ import annotations
+
 import re
 from dataclasses import dataclass
 from typing import Any, Self
 from urllib.parse import urlparse
 
 import httpx
-from pydantic import BaseModel, ConfigDict, Field
+from pydantic import BaseModel, ConfigDict, Field, ValidationError
 
 from renku_data_services.errors import errors
 
+_clnt = httpx.AsyncClient(timeout=5, follow_redirects=True)
+
 
 class DOI(str):
     """A doi for a dataset or a similar resource."""
@@ -45,18 +49,36 @@ def url(self) -> str:
         """Return a proper URL from the doi."""
         return f"https://doi.org/{self}"
 
+    @property
+    def prefix(self) -> str:
+        """The prefix of the doi, i.e. if the doi is 10.7910/DVN/XLX9F8, then the prefix is 10.7910."""
+        return self.split("/")[0]
+
     async def resolve_host(self) -> str | None:
         """Resolves the DOI and returns the hostname of the url where the redirect leads."""
-        clnt = httpx.AsyncClient(timeout=5, follow_redirects=True)
-        async with clnt:
-            try:
-                res = await clnt.get(self.url)
-            except httpx.HTTPError:
-                return None
+        try:
+            res = await _clnt.get(self.url)
+        except httpx.HTTPError:
+            return None
         if res.status_code != 200:
             return None
         return res.url.host
 
+    async def metadata(self) -> SchemaOrgDataset | None:
+        """Get information about the publisher of the DOI."""
+        try:
+            res = await _clnt.get(self.url, headers={"Accept": "application/vnd.schemaorg.ld+json"})
+        except httpx.HTTPError:
+            return None
+        if res.status_code != 200:
+            return None
+        try:
+            output = SchemaOrgDataset.model_validate_json(res.text)
+        except ValidationError:
+            return None
+        else:
+            return output
+
 
 @dataclass(frozen=True, eq=True, kw_only=True)
 class DOIMetadata:
@@ -130,15 +152,37 @@ class SchemaOrgDistribution(BaseModel):
 
 
 class SchemaOrgDataset(BaseModel):
-    """A very limited and partial spec of a schema.org Dataset used by Scicat and Envidat."""
+    """A very limited and partial spec of a schema.org Dataset used by Scicat, Envidat, doi.org."""
 
     model_config = ConfigDict(extra="ignore")
     distribution: list[SchemaOrgDistribution] = Field(default_factory=list)
     name: str = Field()
     description: str | None = None
     raw_keywords: str = Field(alias="keywords", default="")
+    publisher: SchemaOrgPublisher | None = None
 
     @property
     def keywords(self) -> list[str]:
         """Split the single keywords string into a list."""
         return [i.strip() for i in self.raw_keywords.split(",")]
+
+
+class SchemaOrgPublisher(BaseModel):
+    """The schema.org publisher field in a dataset."""
+
+    model_config = ConfigDict(extra="ignore")
+    id: str | None = Field(alias="@id", default=None)
+    type: str | None = Field(alias="@type", default=None)
+    name: str
+
+    @property
+    def url(self) -> str | None:
+        """Try to see if the id is a URL, and if so return it."""
+        if self.id is None:
+            return None
+        parsed = urlparse(self.id)
+        if not parsed.scheme or not parsed.netloc:
+            return None
+        if parsed.scheme not in ["http", "https"]:
+            return None
+        return self.id.rstrip("/")
diff --git a/components/renku_data_services/data_connectors/models.py b/components/renku_data_services/data_connectors/models.py
@@ -87,6 +87,9 @@ class GlobalDataConnector(BaseDataConnector):
     id: ULID
     namespace: Final[None] = field(default=None, init=False)
     updated_at: datetime
+    publisher_name: str | None = None
+    publisher_url: str | None = None
+    doi: DOI | None = None
 
     @property
     def etag(self) -> str:
@@ -99,14 +102,16 @@ class UnsavedGlobalDataConnector(BaseDataConnector):
     """Global data connector model."""
 
     namespace: None = None
+    publisher_name: str | None = None
+    publisher_url: str | None = None
+    doi: DOI | None = None
 
 
 @dataclass(frozen=True, eq=True, kw_only=True)
 class PrevalidatedGlobalDataConnector:
     """Global data connector model that is unsaved but has been pre-validated."""
 
     data_connector: UnsavedGlobalDataConnector
-    doi: DOI
     rclone_metadata: RCloneDOIMetadata | None = None
 
 
diff --git a/components/renku_data_services/data_connectors/orm.py b/components/renku_data_services/data_connectors/orm.py
@@ -13,6 +13,7 @@
 from renku_data_services.base_orm.registry import COMMON_ORM_REGISTRY
 from renku_data_services.data_connectors import models
 from renku_data_services.data_connectors.apispec import Visibility
+from renku_data_services.data_connectors.doi.models import DOI
 from renku_data_services.project.orm import ProjectORM
 from renku_data_services.secrets.orm import SecretORM
 from renku_data_services.users.orm import UserORM
@@ -97,6 +98,9 @@ class DataConnectorORM(BaseORM):
         init=False,
         viewonly=True,
     )
+    doi: Mapped[str | None] = mapped_column(default=None, server_default=None, index=True, nullable=True)
+    publisher_name: Mapped[str | None] = mapped_column(default=None, server_default=None, index=True, nullable=True)
+    publisher_url: Mapped[str | None] = mapped_column(default=None, server_default=None, index=True, nullable=True)
 
     def dump(self) -> models.DataConnector | models.GlobalDataConnector:
         """Create a data connector model from the DataConnectorORM."""
@@ -112,6 +116,9 @@ def dump(self) -> models.DataConnector | models.GlobalDataConnector:
                 storage=self._dump_storage(),
                 description=self.description,
                 keywords=self.keywords,
+                publisher_name=self.publisher_name,
+                publisher_url=self.publisher_url,
+                doi=DOI(self.doi) if self.doi is not None else None,
             )
 
         elif self.slug is None:
diff --git a/components/renku_data_services/migrations/versions/bd97866a6253_add_doi_and_publisher_info_for_global_.py b/components/renku_data_services/migrations/versions/bd97866a6253_add_doi_and_publisher_info_for_global_.py
@@ -0,0 +1,50 @@
+"""add doi and publisher info for global data connectors
+
+Revision ID: bd97866a6253
+Revises: 42049656cdb8
+Create Date: 2025-12-03 09:38:17.534403
+
+"""
+
+import sqlalchemy as sa
+from alembic import op
+
+# revision identifiers, used by Alembic.
+revision = "bd97866a6253"
+down_revision = "42049656cdb8"
+branch_labels = None
+depends_on = None
+
+
+def upgrade() -> None:
+    # ### commands auto generated by Alembic - please adjust! ###
+    op.add_column("data_connectors", sa.Column("doi", sa.String(), nullable=True), schema="storage")
+    op.add_column("data_connectors", sa.Column("publisher_name", sa.String(), nullable=True), schema="storage")
+    op.add_column("data_connectors", sa.Column("publisher_url", sa.String(), nullable=True), schema="storage")
+    op.create_index(op.f("ix_storage_data_connectors_doi"), "data_connectors", ["doi"], unique=False, schema="storage")
+    op.create_index(
+        op.f("ix_storage_data_connectors_publisher_name"),
+        "data_connectors",
+        ["publisher_name"],
+        unique=False,
+        schema="storage",
+    )
+    op.create_index(
+        op.f("ix_storage_data_connectors_publisher_url"),
+        "data_connectors",
+        ["publisher_url"],
+        unique=False,
+        schema="storage",
+    )
+    # ### end Alembic commands ###
+
+
+def downgrade() -> None:
+    # ### commands auto generated by Alembic - please adjust! ###
+    op.drop_index(op.f("ix_storage_data_connectors_publisher_url"), table_name="data_connectors", schema="storage")
+    op.drop_index(op.f("ix_storage_data_connectors_publisher_name"), table_name="data_connectors", schema="storage")
+    op.drop_index(op.f("ix_storage_data_connectors_doi"), table_name="data_connectors", schema="storage")
+    op.drop_column("data_connectors", "publisher_url", schema="storage")
+    op.drop_column("data_connectors", "publisher_name", schema="storage")
+    op.drop_column("data_connectors", "doi", schema="storage")
+    # ### end Alembic commands ###
diff --git a/test/bases/renku_data_services/data_api/test_data_connectors.py b/test/bases/renku_data_services/data_api/test_data_connectors.py
@@ -2505,8 +2505,14 @@ async def test_validate_envidat_data_connector() -> None:
     assert config["provider"] == "Other"
     assert config["endpoint"].find("zhdk.cloud.switch.ch") >= 0
     assert res.data_connector.storage.source_path == "/envidat-doi/10.16904_12"
+    assert res.data_connector.doi is not None
+    assert res.data_connector.publisher_url is not None
+    assert res.data_connector.publisher_name is not None
     res = await core.validate_unsaved_global_data_connector(res, validator)
     assert res.description is not None
     assert len(res.description) > 0
     assert res.keywords is not None
     assert len(res.keywords) > 0
+    assert res.doi is not None
+    assert res.publisher_url is not None
+    assert res.publisher_name is not None