working executemany for datetimeoffset

gargsaumya · gargsaumya · commit 13050e6aefeb · 2025-09-29T17:19:34.000+05:30
diff --git a/mssql_python/cursor.py b/mssql_python/cursor.py
@@ -140,27 +140,26 @@ def _parse_date(self, param):
 
     def _parse_datetime(self, param):
         """
-        Attempt to parse a string as a datetime, smalldatetime, datetime2, timestamp.
-
-        Args:
-            param: The string to parse.
-
-        Returns:
-            A datetime.datetime object if parsing is successful, else None.
+        Attempt to parse a string as a datetime, datetime2, timestamp, or smalldatetime.
+        Handles both naive and timezone-aware datetime strings.
         """
         formats = [
-            "%Y-%m-%dT%H:%M:%S.%f",  # ISO 8601 datetime with fractional seconds
-            "%Y-%m-%dT%H:%M:%S",  # ISO 8601 datetime
-            "%Y-%m-%d %H:%M:%S.%f",  # Datetime with fractional seconds
-            "%Y-%m-%d %H:%M:%S",  # Datetime without fractional seconds
+            "%Y-%m-%dT%H:%M:%S.%f%z",  # ISO 8601 with fractional seconds + timezone
+            "%Y-%m-%dT%H:%M:%S%z",     # ISO 8601 with timezone
+            "%Y-%m-%d %H:%M:%S.%f%z",  # Space-separated with fractional seconds + timezone
+            "%Y-%m-%d %H:%M:%S%z",     # Space-separated with timezone
+            "%Y-%m-%dT%H:%M:%S.%f",    # ISO 8601 without timezone
+            "%Y-%m-%dT%H:%M:%S",       # ISO 8601 without timezone
+            "%Y-%m-%d %H:%M:%S.%f",    # Space-separated without timezone
+            "%Y-%m-%d %H:%M:%S",       # Space-separated without timezone
         ]
         for fmt in formats:
             try:
-                return datetime.datetime.strptime(param, fmt)  # Valid datetime
+                dt = datetime.datetime.strptime(param, fmt)
+                return dt
             except ValueError:
-                continue  # Try next format
-
-        return None  # If all formats fail, return None
+                continue
+        return None  # parsing failed
 
     def _parse_time(self, param):
         """
@@ -1442,35 +1441,6 @@ def columns(self, table=None, catalog=None, schema=None, column=None):
         # Use the helper method to prepare the result set
         return self._prepare_metadata_result_set(fallback_description=fallback_description)
 
-    @staticmethod
-    def _select_best_sample_value(column):
-        """
-        Selects the most representative non-null value from a column for type inference.
-
-        This is used during executemany() to infer SQL/C types based on actual data,
-        preferring a non-null value that is not the first row to avoid bias from placeholder defaults.
-
-        Args:
-            column: List of values in the column.
-        """
-        non_nulls = [v for v in column if v is not None]
-        if not non_nulls:
-            return None
-        if all(isinstance(v, int) for v in non_nulls):
-            # Pick the value with the widest range (min/max)
-            return max(non_nulls, key=lambda v: abs(v))
-        if all(isinstance(v, float) for v in non_nulls):
-            return 0.0
-        if all(isinstance(v, decimal.Decimal) for v in non_nulls):
-            return max(non_nulls, key=lambda d: len(d.as_tuple().digits))
-        if all(isinstance(v, str) for v in non_nulls):
-            return max(non_nulls, key=lambda s: len(str(s)))
-        if all(isinstance(v, datetime.datetime) for v in non_nulls):
-            return datetime.datetime.now()
-        if all(isinstance(v, datetime.date) for v in non_nulls):
-            return datetime.date.today()
-        return non_nulls[0]  # fallback
-
     def _transpose_rowwise_to_columnwise(self, seq_of_parameters: list) -> tuple[list, int]:
         """
         Convert sequence of rows (row-wise) into list of columns (column-wise),
@@ -1643,12 +1613,7 @@ def executemany(self, operation: str, seq_of_parameters: list) -> None:
             else:
                 # Use auto-detection for columns without explicit types
                 column = [row[col_index] for row in seq_of_parameters] if hasattr(seq_of_parameters, '__getitem__') else []
-                if not column:
-                    # For generators, use the sample row for inference
-                    sample_value = sample_row[col_index]
-                else:
-                    sample_value = self._select_best_sample_value(column)
-                
+                sample_value, min_val, max_val = self._compute_column_type(column)
                 dummy_row = list(sample_row)
                 paraminfo = self._create_parameter_types_list(
                     sample_value, param_info, dummy_row, col_index, min_val=min_val, max_val=max_val
diff --git a/mssql_python/pybind/ddbc_bindings.cpp b/mssql_python/pybind/ddbc_bindings.cpp
@@ -64,6 +64,20 @@ struct NumericData {
         : precision(precision), scale(scale), sign(sign), val(value) {}
 };
 
+// Struct to hold the DateTimeOffset structure
+struct DateTimeOffset
+{
+    SQLSMALLINT    year;
+    SQLUSMALLINT   month;
+    SQLUSMALLINT   day;
+    SQLUSMALLINT   hour;
+    SQLUSMALLINT   minute;
+    SQLUSMALLINT   second;
+    SQLUINTEGER    fraction;        // Nanoseconds
+    SQLSMALLINT    timezone_hour;   // Offset hours from UTC
+    SQLSMALLINT    timezone_minute; // Offset minutes from UTC
+};
+
 // Struct to hold data buffers and indicators for each column
 struct ColumnBuffers {
     std::vector<std::vector<SQLCHAR>> charBuffers;
@@ -78,6 +92,7 @@ struct ColumnBuffers {
     std::vector<std::vector<SQL_TIME_STRUCT>> timeBuffers;
     std::vector<std::vector<SQLGUID>> guidBuffers;
     std::vector<std::vector<SQLLEN>> indicators;
+    std::vector<std::vector<DateTimeOffset>> datetimeoffsetBuffers;
 
     ColumnBuffers(SQLSMALLINT numCols, int fetchSize)
         : charBuffers(numCols),
@@ -91,23 +106,10 @@ struct ColumnBuffers {
           dateBuffers(numCols),
           timeBuffers(numCols),
           guidBuffers(numCols),
+          datetimeoffsetBuffers(numCols),
           indicators(numCols, std::vector<SQLLEN>(fetchSize)) {}
 };
 
-// Struct to hold the DateTimeOffset structure
-struct DateTimeOffset
-{
-    SQLSMALLINT    year;
-    SQLUSMALLINT   month;
-    SQLUSMALLINT   day;
-    SQLUSMALLINT   hour;
-    SQLUSMALLINT   minute;
-    SQLUSMALLINT   second;
-    SQLUINTEGER    fraction;        // Nanoseconds
-    SQLSMALLINT    timezone_hour;   // Offset hours from UTC
-    SQLSMALLINT    timezone_minute; // Offset minutes from UTC
-};
-
 //-------------------------------------------------------------------------------------------------
 // Function pointer initialization
 //-------------------------------------------------------------------------------------------------
@@ -1945,6 +1947,7 @@ SQLRETURN BindParameterArray(SQLHANDLE hStmt,
                     break;
                 }
                 case SQL_C_TYPE_TIMESTAMP: {
+                    std::cout<<"Binding Timestamp param at index "<<paramIndex<<std::endl;
                     SQL_TIMESTAMP_STRUCT* tsArray = AllocateParamBufferArray<SQL_TIMESTAMP_STRUCT>(tempBuffers, paramSetSize);
                     strLenOrIndArray = AllocateParamBufferArray<SQLLEN>(tempBuffers, paramSetSize);
                     for (size_t i = 0; i < paramSetSize; ++i) {
@@ -1967,6 +1970,67 @@ SQLRETURN BindParameterArray(SQLHANDLE hStmt,
                     bufferLength = sizeof(SQL_TIMESTAMP_STRUCT);
                     break;
                 }
+                case SQL_C_SS_TIMESTAMPOFFSET: {
+                    std::cout<<"Binding DateTimeOffset param at index "<<paramIndex<<std::endl;
+                    DateTimeOffset* dtoArray = AllocateParamBufferArray<DateTimeOffset>(tempBuffers, paramSetSize);
+                    strLenOrIndArray = AllocateParamBufferArray<SQLLEN>(tempBuffers, paramSetSize);
+
+                    py::object datetimeType = py::module_::import("datetime").attr("datetime");
+
+                    for (size_t i = 0; i < paramSetSize; ++i) {
+                        const py::handle& param = columnValues[i];
+
+                        if (param.is_none()) {
+                            std::memset(&dtoArray[i], 0, sizeof(DateTimeOffset));
+                            strLenOrIndArray[i] = SQL_NULL_DATA;
+                        } else {
+                            if (!py::isinstance(param, datetimeType)) {
+                                ThrowStdException(MakeParamMismatchErrorStr(info.paramCType, paramIndex));
+                            }
+
+                            py::object tzinfo = param.attr("tzinfo");
+                            if (tzinfo.is_none()) {
+                                ThrowStdException("Datetime object must have tzinfo for SQL_C_SS_TIMESTAMPOFFSET at paramIndex " +
+                                    std::to_string(paramIndex));
+                            }
+
+                            // Convert the Python datetime object to UTC before binding.
+                            // This is the crucial step to ensure timezone normalization.
+                            py::object datetimeModule = py::module_::import("datetime");
+                            py::object utc_dt = param.attr("astimezone")(datetimeModule.attr("timezone").attr("utc"));
+                            std::cout<<"!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!"<<std::endl;
+                            // --- TEMPORARY DEBUGGING: LOG THE UTC VALUES ---
+                            LOG("Binding UTC values: {}-{}-{} {}:{}:{}.{} +00:00",
+                                utc_dt.attr("year").cast<int>(),
+                                utc_dt.attr("month").cast<int>(),
+                                utc_dt.attr("day").cast<int>(),
+                                utc_dt.attr("hour").cast<int>(),
+                                utc_dt.attr("minute").cast<int>(),
+                                utc_dt.attr("second").cast<int>(),
+                                utc_dt.attr("microsecond").cast<int>()
+                            );
+
+                            // Now, populate the C++ struct using the UTC-converted object.
+                            dtoArray[i].year = static_cast<SQLSMALLINT>(utc_dt.attr("year").cast<int>());
+                            dtoArray[i].month = static_cast<SQLUSMALLINT>(utc_dt.attr("month").cast<int>());
+                            dtoArray[i].day = static_cast<SQLUSMALLINT>(utc_dt.attr("day").cast<int>());
+                            dtoArray[i].hour = static_cast<SQLUSMALLINT>(utc_dt.attr("hour").cast<int>());
+                            dtoArray[i].minute = static_cast<SQLUSMALLINT>(utc_dt.attr("minute").cast<int>());
+                            dtoArray[i].second = static_cast<SQLUSMALLINT>(utc_dt.attr("second").cast<int>());
+                            dtoArray[i].fraction = static_cast<SQLUINTEGER>(utc_dt.attr("microsecond").cast<int>() * 1000);
+
+                            // Since we've converted to UTC, the timezone offset is always 0.
+                            dtoArray[i].timezone_hour = 0;
+                            dtoArray[i].timezone_minute = 0;
+
+                            strLenOrIndArray[i] = sizeof(DateTimeOffset);
+                        }
+                    }
+
+                    dataPtr = dtoArray;
+                    bufferLength = sizeof(DateTimeOffset);
+                    break;
+                }
                 case SQL_C_NUMERIC: {
                     SQL_NUMERIC_STRUCT* numericArray = AllocateParamBufferArray<SQL_NUMERIC_STRUCT>(tempBuffers, paramSetSize);
                     strLenOrIndArray = AllocateParamBufferArray<SQLLEN>(tempBuffers, paramSetSize);
@@ -2642,6 +2706,7 @@ SQLRETURN SQLGetData_wrap(SqlHandlePtr StatementHandle, SQLUSMALLINT colCount, p
                         microseconds,
                         tzinfo
                     );
+                    py_dt = py_dt.attr("astimezone")(datetime.attr("timezone").attr("utc"));
                     row.append(py_dt);
                 } else {
                     LOG("Error fetching DATETIMEOFFSET for column {}, ret={}", i, ret);
@@ -2912,6 +2977,13 @@ SQLRETURN SQLBindColums(SQLHSTMT hStmt, ColumnBuffers& buffers, py::list& column
                 ret = SQLBindCol_ptr(hStmt, col, SQL_C_BINARY, buffers.charBuffers[col - 1].data(),
                                      columnSize, buffers.indicators[col - 1].data());
                 break;
+            case SQL_SS_TIMESTAMPOFFSET:
+                buffers.datetimeoffsetBuffers[col - 1].resize(fetchSize);
+                ret = SQLBindCol_ptr(hStmt, col, SQL_C_SS_TIMESTAMPOFFSET,
+                                    buffers.datetimeoffsetBuffers[col - 1].data(),
+                                    sizeof(DateTimeOffset) * fetchSize,
+                                    buffers.indicators[col - 1].data());
+                break;
             default:
                 std::wstring columnName = columnMeta["ColumnName"].cast<std::wstring>();
                 std::ostringstream errorString;
@@ -3127,6 +3199,43 @@ SQLRETURN FetchBatchData(SQLHSTMT hStmt, ColumnBuffers& buffers, py::list& colum
                                                  buffers.timeBuffers[col - 1][i].second));
                     break;
                 }
+                case SQL_SS_TIMESTAMPOFFSET: {
+                    // i = current row index in outer loop
+                    SQLULEN rowIdx = i;
+                    const DateTimeOffset& dtoValue = buffers.datetimeoffsetBuffers[col - 1][rowIdx];
+                    SQLLEN indicator = buffers.indicators[col - 1][rowIdx];
+
+                    if (indicator != SQL_NULL_DATA) {
+                        // Compute total minutes offset
+                        int totalMinutes = dtoValue.timezone_hour * 60 + dtoValue.timezone_minute;
+
+                        // Import Python datetime module
+                        py::object datetime = py::module_::import("datetime");
+
+                        // Construct tzinfo object for the original offset
+                        py::object tzinfo = datetime.attr("timezone")(
+                            datetime.attr("timedelta")(py::arg("minutes") = totalMinutes)
+                        );
+
+                        // Construct Python datetime object with tzinfo
+                        py::object py_dt = datetime.attr("datetime")(
+                            dtoValue.year,
+                            dtoValue.month,
+                            dtoValue.day,
+                            dtoValue.hour,
+                            dtoValue.minute,
+                            dtoValue.second,
+                            dtoValue.fraction / 1000,  // ns → µs
+                            tzinfo
+                        );
+                        py_dt = py_dt.attr("astimezone")(datetime.attr("timezone").attr("utc"));
+                        // Append to row
+                        row.append(py_dt);
+                    } else {
+                        row.append(py::none());
+                    }
+                    break;
+                }
                 case SQL_GUID: {
                     SQLGUID* guidValue = &buffers.guidBuffers[col - 1][i];
                     uint8_t reordered[16];
@@ -3246,6 +3355,9 @@ size_t calculateRowSize(py::list& columnNames, SQLUSMALLINT numCols) {
             case SQL_LONGVARBINARY:
                 rowSize += columnSize;
                 break;
+            case SQL_SS_TIMESTAMPOFFSET:
+                rowSize += sizeof(DateTimeOffset); // your custom struct for SQL_C_SS_TIMESTAMPOFFSET
+                break;
             default:
                 std::wstring columnName = columnMeta["ColumnName"].cast<std::wstring>();
                 std::ostringstream errorString;
diff --git a/tests/test_004_cursor.py b/tests/test_004_cursor.py
@@ -7822,6 +7822,63 @@ def test_datetimeoffset_malformed_input(cursor, db_connection):
     finally:
         cursor.execute("DROP TABLE IF EXISTS #pytest_datetimeoffset_malformed_input;")
         db_connection.commit()
+        
+def test_datetimeoffset_executemany(cursor, db_connection):
+    """
+    Test the driver's ability to correctly read and write DATETIMEOFFSET data
+    using executemany, including timezone information.
+    """
+    try:
+        datetimeoffset_test_cases = [
+            (
+                "2023-10-26 10:30:00.0000000 +05:30",
+                datetime(2023, 10, 26, 10, 30, 0, 0,
+                        tzinfo=timezone(timedelta(hours=5, minutes=30)))
+            ),
+            (
+                "2023-10-27 15:45:10.1234567 -08:00",
+                datetime(2023, 10, 27, 15, 45, 10, 123456,
+                        tzinfo=timezone(timedelta(hours=-8)))
+            ),
+            (
+                "2023-10-28 20:00:05.9876543 +00:00",
+                datetime(2023, 10, 28, 20, 0, 5, 987654,
+                        tzinfo=timezone(timedelta(hours=0)))
+            )
+        ]
+
+        # Create temp table
+        cursor.execute("IF OBJECT_ID('tempdb..#pytest_dto', 'U') IS NOT NULL DROP TABLE #pytest_dto;")
+        cursor.execute("CREATE TABLE #pytest_dto (id INT PRIMARY KEY, dto_column DATETIMEOFFSET);")
+        db_connection.commit()
+
+        # Prepare data for executemany
+        param_list = [(i, python_dt) for i, (_, python_dt) in enumerate(datetimeoffset_test_cases)]
+        cursor.executemany("INSERT INTO #pytest_dto (id, dto_column) VALUES (?, ?);", param_list)
+        db_connection.commit()
+
+        # Read back and validate
+        cursor.execute("SELECT id, dto_column FROM #pytest_dto ORDER BY id;")
+        rows = cursor.fetchall()
+
+        for i, (sql_str, python_dt) in enumerate(datetimeoffset_test_cases):
+            fetched_id, fetched_dto = rows[i]
+            assert fetched_dto.tzinfo is not None, "Fetched datetime object is naive."
+
+            expected_utc = python_dt.astimezone(timezone.utc).replace(tzinfo=None)
+            fetched_utc = fetched_dto.astimezone(timezone.utc).replace(tzinfo=None)
+
+            # Round microseconds to nearest millisecond for comparison
+            expected_utc = expected_utc.replace(microsecond=int(expected_utc.microsecond / 1000) * 1000)
+            fetched_utc = fetched_utc.replace(microsecond=int(fetched_utc.microsecond / 1000) * 1000)
+
+            assert fetched_utc == expected_utc, (
+                f"Value mismatch for test case {i}. "
+                f"Expected UTC: {expected_utc}, Got UTC: {fetched_utc}"
+            )
+    finally:
+        cursor.execute("IF OBJECT_ID('tempdb..#pytest_dto', 'U') IS NOT NULL DROP TABLE #pytest_dto;")
+        db_connection.commit()
 
 def test_lowercase_attribute(cursor, db_connection):
     """Test that the lowercase attribute properly converts column names to lowercase"""