cleaned rope

Phylliida · Phylliida · commit ee0e82a40bda · 2025-10-24T13:52:58.000-07:00
diff --git a/ggml b/ggml
@@ -1 +1 @@
-Subproject commit 25d358c627186901b6506ee70faed598613eff05
+Subproject commit 6eb26b3c74ed06f600e61f48d62dc39f9c1166c0
diff --git a/ggml_extend.hpp b/ggml_extend.hpp
@@ -61,47 +61,6 @@
 #define SD_UNUSED(x) (void)(x)
 #endif
 
-inline std::atomic<bool>& sd_circular_padding_flag() {
-    static std::atomic<bool> enabled{false};
-    return enabled;
-}
-
-inline void sd_set_circular_padding_enabled(bool enabled) {
-    sd_circular_padding_flag().store(enabled, std::memory_order_relaxed);
-}
-
-inline bool sd_is_circular_padding_enabled() {
-    return sd_circular_padding_flag().load(std::memory_order_relaxed);
-}
-
-__STATIC_INLINE__ struct ggml_tensor* sd_pad(struct ggml_context* ctx,
-                                             struct ggml_tensor* a,
-                                             int p0,
-                                             int p1,
-                                             int p2,
-                                             int p3) {
-    if (sd_is_circular_padding_enabled()) {
-        return ggml_pad_circular(ctx, a, 0, p0, 0, p1, 0, p2, 0, p3);
-    }
-    return ggml_pad(ctx, a, p0, p1, p2, p3);
-}
-
-__STATIC_INLINE__ struct ggml_tensor* sd_pad_ext(struct ggml_context* ctx,
-                                                 struct ggml_tensor* a,
-                                                 int lp0,
-                                                 int rp0,
-                                                 int lp1,
-                                                 int rp1,
-                                                 int lp2,
-                                                 int rp2,
-                                                 int lp3,
-                                                 int rp3) {
-    if (sd_is_circular_padding_enabled()) {
-        return ggml_pad_circular(ctx, a, lp0, rp0, lp1, rp1, lp2, rp2, lp3, rp3);
-    }
-    return ggml_pad_ext(ctx, a, lp0, rp0, lp1, rp1, lp2, rp2, lp3, rp3);
-}
-
 __STATIC_INLINE__ void ggml_log_callback_default(ggml_log_level level, const char* text, void*) {
     switch (level) {
         case GGML_LOG_LEVEL_DEBUG:
@@ -628,6 +587,49 @@ __STATIC_INLINE__ void ggml_tensor_clamp(struct ggml_tensor* src, float min, flo
     }
 }
 
+
+
+inline std::atomic<bool>& sd_circular_padding_flag() {
+    static std::atomic<bool> enabled{false};
+    return enabled;
+}
+
+inline void sd_set_circular_padding_enabled(bool enabled) {
+    sd_circular_padding_flag().store(enabled, std::memory_order_relaxed);
+}
+
+inline bool sd_is_circular_padding_enabled() {
+    return sd_circular_padding_flag().load(std::memory_order_relaxed);
+}
+
+__STATIC_INLINE__ struct ggml_tensor* sd_pad(struct ggml_context* ctx,
+                                             struct ggml_tensor* a,
+                                             int p0,
+                                             int p1,
+                                             int p2,
+                                             int p3) {
+    if (sd_is_circular_padding_enabled()) {
+        return ggml_pad_circular(ctx, a, 0, p0, 0, p1, 0, p2, 0, p3);
+    }
+    return ggml_pad(ctx, a, p0, p1, p2, p3);
+}
+
+__STATIC_INLINE__ struct ggml_tensor* sd_pad_ext(struct ggml_context* ctx,
+                                                 struct ggml_tensor* a,
+                                                 int lp0,
+                                                 int rp0,
+                                                 int lp1,
+                                                 int rp1,
+                                                 int lp2,
+                                                 int rp2,
+                                                 int lp3,
+                                                 int rp3) {
+    if (sd_is_circular_padding_enabled()) {
+        return ggml_pad_circular(ctx, a, lp0, rp0, lp1, rp1, lp2, rp2, lp3, rp3);
+    }
+    return ggml_pad_ext(ctx, a, lp0, rp0, lp1, rp1, lp2, rp2, lp3, rp3);
+}
+
 __STATIC_INLINE__ struct ggml_tensor* ggml_tensor_concat(struct ggml_context* ctx,
                                                          struct ggml_tensor* a,
                                                          struct ggml_tensor* b,
diff --git a/rope.hpp b/rope.hpp
@@ -1,6 +1,8 @@
 #ifndef __ROPE_HPP__
 #define __ROPE_HPP__
 
+#include <algorithm>
+#include <cmath>
 #include <vector>
 #include "ggml_extend.hpp"
 
@@ -39,15 +41,20 @@ namespace Rope {
         return flat_vec;
     }
 
-    __STATIC_INLINE__ std::vector<std::vector<float>> rope(const std::vector<float>& pos, int dim, int theta) {
+    __STATIC_INLINE__ std::vector<std::vector<float>> rope(const std::vector<float>& pos,
+                                                           int dim,
+                                                           int theta,
+                                                           const std::vector<int>* wraps = nullptr) {
         assert(dim % 2 == 0);
         int half_dim = dim / 2;
 
+        std::vector<std::vector<float>> result(pos.size(), std::vector<float>(half_dim * 4));
+
         std::vector<float> scale = linspace(0.f, (dim * 1.f - 2) / dim, half_dim);
 
         std::vector<float> omega(half_dim);
         for (int i = 0; i < half_dim; ++i) {
-            omega[i] = 1.0 / std::pow(theta, scale[i]);
+            omega[i] = 1.0f / std::pow(theta, scale[i]);
         }
 
         for (size_t i = 0; i < pos.size(); ++i) {
@@ -56,7 +63,13 @@ namespace Rope {
                 float omega_val       = omega[j];
                 float original_angle  = position * omega_val;
                 float angle           = original_angle;
-                if (sd_is_circular_padding_enabled()) {
+                int wrap              = 0;
+                if (wraps != nullptr && !wraps->empty()) {
+                    size_t wrap_size = wraps->size();
+                    size_t wrap_idx  = wrap_size > 0 ? (i % wrap_size) : 0;
+                    wrap             = (*wraps)[wrap_idx];
+                }
+                if (wrap > 0) {
                     constexpr float TWO_PI = 6.28318530717958647692f;
                     float wrap_f            = static_cast<float>(wrap);
                     float cycles            = omega_val * wrap_f / TWO_PI;
@@ -80,6 +93,7 @@ namespace Rope {
                 result[i][4 * j + 3] = cos_val;
             }
         }
+
         return result;
     }
 
@@ -134,7 +148,8 @@ namespace Rope {
     __STATIC_INLINE__ std::vector<float> embed_nd(const std::vector<std::vector<float>>& ids,
                                                   int bs,
                                                   int theta,
-                                                  const std::vector<int>& axes_dim) {
+                                                  const std::vector<int>& axes_dim,
+                                                  const std::vector<std::vector<int>>* axes_wraps = nullptr) {
         std::vector<std::vector<float>> trans_ids = transpose(ids);
         size_t pos_len                            = ids.size() / bs;
         int num_axes                              = axes_dim.size();
@@ -149,7 +164,12 @@ namespace Rope {
         std::vector<std::vector<float>> emb(bs * pos_len, std::vector<float>(emb_dim * 2 * 2, 0.0));
         int offset = 0;
         for (int i = 0; i < num_axes; ++i) {
-            std::vector<std::vector<float>> rope_emb = rope(trans_ids[i], axes_dim[i], theta);  // [bs*pos_len, axes_dim[i]/2 * 2 * 2]
+            const std::vector<int>* axis_wrap = nullptr;
+            if (axes_wraps != nullptr && i < (int)axes_wraps->size()) {
+                axis_wrap = &(*axes_wraps)[i];
+            }
+            std::vector<std::vector<float>> rope_emb =
+                rope(trans_ids[i], axes_dim[i], theta, axis_wrap);  // [bs*pos_len, axes_dim[i]/2 * 2 * 2]
             for (int b = 0; b < bs; ++b) {
                 for (int j = 0; j < pos_len; ++j) {
                     for (int k = 0; k < rope_emb[0].size(); ++k) {
@@ -264,7 +284,38 @@ namespace Rope {
                                                            int theta,
                                                            const std::vector<int>& axes_dim) {
         std::vector<std::vector<float>> ids = gen_qwen_image_ids(h, w, patch_size, bs, context_len, ref_latents, increase_ref_index);
-        return embed_nd(ids, bs, theta, axes_dim);
+        std::vector<std::vector<int>> axes_wraps;
+        if (sd_is_circular_padding_enabled() && bs > 0 && axes_dim.size() >= 3) {
+            int pad_h = (patch_size - (h % patch_size)) % patch_size;
+            int pad_w = (patch_size - (w % patch_size)) % patch_size;
+            int h_len = (h + pad_h) / patch_size;
+            int w_len = (w + pad_w) / patch_size;
+            if (h_len > 0 && w_len > 0) {
+                const size_t total_tokens     = ids.size();
+                // Track per-token wrap lengths for the row/column axes so only spatial tokens become periodic.
+                axes_wraps.assign(axes_dim.size(), std::vector<int>(total_tokens / bs, 0));
+                size_t cursor = 0;
+                for (ggml_tensor* ref : ref_latents) {
+                    if (ref == nullptr) {
+                        continue;
+                    }
+                    int ref_h      = static_cast<int>(ref->ne[1]);
+                    int ref_w      = static_cast<int>(ref->ne[0]);
+                    int ref_pad_h  = (patch_size - (ref_h % patch_size)) % patch_size;
+                    int ref_pad_w  = (patch_size - (ref_w % patch_size)) % patch_size;
+                    int ref_h_len  = (ref_h + ref_pad_h) / patch_size;
+                    int ref_w_len  = (ref_w + ref_pad_w) / patch_size;
+                    size_t ref_n_tokens  = static_cast<size_t>(ref_h_len) * static_cast<size_t>(ref_w_len);
+                    for (size_t token_i = 0; token_i < ref_n_tokens; ++token_i) {
+                        axes_wraps[1][cursor + token_i] = ref_h_len;
+                        axes_wraps[2][cursor + token_i] = ref_w_len;
+                    }
+                    cursor += ref_n_tokens;
+                }
+            }
+        }
+        const std::vector<std::vector<int>>* wraps_ptr = axes_wraps.empty() ? nullptr : &axes_wraps;
+        return embed_nd(ids, bs, theta, axes_dim, wraps_ptr);
     }
 
     __STATIC_INLINE__ std::vector<std::vector<float>> gen_vid_ids(int t,