diff --git a/Project.toml b/Project.toml
index 9733424..beff634 100644
--- a/Project.toml
+++ b/Project.toml
@@ -1,7 +1,10 @@
 name = "NNop"
 uuid = "eeb6ee5c-f953-4f60-8482-00c4fb7bc198"
-authors = ["Anton Smirnov <tonysmn97@gmail.com>"]
 version = "0.2.0"
+authors = ["Anton Smirnov <tonysmn97@gmail.com>"]
+
+[workspace]
+projects = ["test"]
 
 [deps]
 ChainRulesCore = "d360d2e6-b24c-11e9-a2a3-2a2ae2dbcce4"
diff --git a/src/attention.jl b/src/attention.jl
index 270cd7d..cba6c94 100644
--- a/src/attention.jl
+++ b/src/attention.jl
@@ -6,9 +6,12 @@
     q::AbstractArray{T, 4}, k::AbstractArray{T, 4}, v::AbstractArray{T, 4},
     scale::T,
     pair::Maybe{AbstractArray{T, 4}},
-    kpad_mask::Maybe{AbstractMatrix{Bool}},
-    ::Val{emb_dim}, ::Val{in_seq_bounds}, ::Val{causal},
-) where {T, emb_dim, in_seq_bounds, causal}
+    q_doc_ids::Maybe{AbstractMatrix{Int32}},
+    k_doc_ids::Maybe{AbstractMatrix{Int32}},
+    k_tile_start_doc::Maybe{AbstractMatrix{Int32}},
+    k_tile_end_doc::Maybe{AbstractMatrix{Int32}},
+    ::Val{emb_dim}, ::Val{in_seq_bounds}, ::Val{causal}, ::Val{num_q_per_kv},
+) where {T, emb_dim, in_seq_bounds, causal, num_q_per_kv}
     gsz = @groupsize()[1]
     kv_seq_tiles = cld(size(k, 2), gsz)
 
@@ -17,36 +20,130 @@
     k_shm = @localmem T (emb_dim, gsz)
     s_shm = @localmem T (gsz, gsz)
     o_shm = @localmem T (emb_dim, gsz)
+    q_doc_shm = @localmem Int32 (gsz,)
+    k_doc_shm = @localmem Int32 (gsz,)
+    q_doc_range_shm = @localmem Int32 (2,)
+    k_doc_range_shm = @localmem Int32 (2,)
 
     tidx = @index(Local)
     gidx = @index(Group, NTuple)
     q_offset = (gidx[1] - 1) * gsz
     in_q_seq_bounds = in_seq_bounds || q_offset + tidx ≤ size(q, 2)
+    q_head_idx = gidx[2]
+    kv_head_idx = cld(q_head_idx, num_q_per_kv)
+    doc_mode = !isnothing(q_doc_ids) && !isnothing(k_doc_ids)
 
-    @inline function sh_load_emb!(dest, src, offset, mask::Bool, ::Val{tr}) where tr
+    @inline function sh_load_emb!(dest, src, offset, mask::Bool, ::Val{tr}, head_idx) where tr
         @unroll for i in 1:emb_dim
             x, y = tr ? (tidx, i) : (i, tidx)
-            @inbounds dest[x, y] = mask ? src[i, tidx + offset, gidx[2], gidx[3]] : zero(T)
+            @inbounds dest[x, y] = mask ? src[i, tidx + offset, head_idx, gidx[3]] : zero(T)
+        end
+    end
+
+    @inline function doc_tile_range!(doc_range_shm, doc_shm)
+        if tidx == 1
+            dmin = typemax(Int32)
+            dmax = typemin(Int32)
+            @inbounds @unroll for i in 1:gsz
+                doc = doc_shm[i]
+                doc == 0 && continue
+                dmin = min(dmin, doc)
+                dmax = max(dmax, doc)
+            end
+            doc_range_shm[1] = dmin
+            doc_range_shm[2] = dmax
+        end
+    end
+
+    @inline function apply_doc_mask!(s_shm, q_doc_shm, k_doc_shm, k_offset)
+        @unroll for i in 1:gsz
+            (in_seq_bounds || k_offset + i ≤ size(k, 2)) || break
+            same_doc = q_doc_shm[tidx] != 0 && q_doc_shm[tidx] == k_doc_shm[i]
+            s_shm[tidx, i] = same_doc ? s_shm[tidx, i] : typemin(T)
         end
     end
 
     # Load `q` --------------------------------------------------------------
-    sh_load_emb!(q_shm, q, q_offset, in_q_seq_bounds, Val{true}())
+    sh_load_emb!(q_shm, q, q_offset, in_q_seq_bounds, Val{true}(), q_head_idx)
+    if doc_mode
+        q_pos = q_offset + tidx
+        in_q_doc_bounds = in_seq_bounds || q_pos ≤ size(q_doc_ids, 1)
+        q_doc_shm[tidx] = in_q_doc_bounds ? q_doc_ids[q_pos, gidx[3]] : Int32(0)
+    end
     @unroll for i in 1:emb_dim
         o_shm[i, tidx] = zero(T)
     end
     @synchronize()
 
+    if doc_mode
+        doc_tile_range!(q_doc_range_shm, q_doc_shm)
+        @synchronize()
+    end
+
     l_i = zero(T)
     m_i = typemin(T)
-    k_offset = 0
     end_iter = causal ? gidx[1] : kv_seq_tiles
 
-    for _ in 1:end_iter
+    k_tile_start = 1
+    k_tile_end = end_iter
+    if doc_mode && !isnothing(k_tile_start_doc) && !isnothing(k_tile_end_doc)
+        dq_min = q_doc_range_shm[1]
+        dq_max = q_doc_range_shm[2]
+        has_q_docs = dq_min ≤ dq_max
+        if has_q_docs
+            ndocs_k = size(k_tile_start_doc, 1)
+            s = end_iter
+            e = 1
+            @inbounds for d in dq_min:min(dq_max, ndocs_k)
+                ts = k_tile_start_doc[d, gidx[3]]
+                te = k_tile_end_doc[d, gidx[3]]
+                (ts ≤ te) || continue
+                s = min(s, ts)
+                e = max(e, te)
+            end
+            if s ≤ e
+                k_tile_start = s
+                k_tile_end = min(e, end_iter)
+            else
+                k_tile_start = 1
+                k_tile_end = 0
+            end
+        else
+            k_tile_start = 1
+            k_tile_end = 0
+        end
+    end
+
+    for tile_idx in k_tile_start:k_tile_end
+        k_offset = (tile_idx - 1) * gsz
         in_k_seq_bounds = in_seq_bounds || k_offset + tidx ≤ size(k, 2)
-        sh_load_emb!(k_shm, k, k_offset, in_k_seq_bounds, Val{false}())
+        sh_load_emb!(k_shm, k, k_offset, in_k_seq_bounds, Val{false}(), kv_head_idx)
+        if doc_mode
+            k_pos = k_offset + tidx
+            in_k_doc_bounds = in_seq_bounds || k_pos ≤ size(k_doc_ids, 1)
+            k_doc_shm[tidx] = in_k_doc_bounds ? k_doc_ids[k_pos, gidx[3]] : Int32(0)
+        end
         @synchronize()
 
+        if doc_mode
+            doc_tile_range!(k_doc_range_shm, k_doc_shm)
+            @synchronize()
+
+            dq_min = q_doc_range_shm[1]
+            dq_max = q_doc_range_shm[2]
+            dk_min = k_doc_range_shm[1]
+            dk_max = k_doc_range_shm[2]
+            has_q_docs = dq_min ≤ dq_max
+            has_k_docs = dk_min ≤ dk_max
+            if has_q_docs && has_k_docs
+                overlap_min = max(dq_min, dk_min)
+                overlap_max = min(dq_max, dk_max)
+                if overlap_min > overlap_max
+                    continue
+                end
+            end
+        end
+
         # ---- scaled Q · Kᵀ ------------------------------------------------
         mma!(s_shm, q_shm, k_shm, cfg, tidx, (res, c_shm, x, y) -> res * scale)
         @synchronize()
@@ -56,7 +153,7 @@
             @unroll for i in 1:gsz
                 (in_seq_bounds || k_offset + i ≤ size(k, 2)) || break
                 in_q_seq_bounds || break
-                s_shm[tidx, i] += pair[gidx[2], q_offset + tidx, k_offset + i, gidx[3]]
+                s_shm[tidx, i] += pair[q_head_idx, q_offset + tidx, k_offset + i, gidx[3]]
             end
         end
 
@@ -67,36 +164,52 @@
                 s_shm[tidx, i] = (tidx + q_offset ≥ i + k_offset) ? s_shm[tidx, i] : typemin(T)
             end
         end
-        if !isnothing(kpad_mask)
-            @unroll for i in 1:gsz
-                (in_seq_bounds || k_offset + i ≤ size(k, 2)) || break
-                valid = kpad_mask[k_offset + i, gidx[3]]
-                s_shm[tidx, i] = valid ? s_shm[tidx, i] : typemin(T)
-            end
+        if doc_mode
+            apply_doc_mask!(s_shm, q_doc_shm, k_doc_shm, k_offset)
         end
 
         # ---- online soft-max ---------------------------------------------
         m_ij = typemin(T)
         @unroll for i in 1:gsz
+            (in_seq_bounds || k_offset + i ≤ size(k, 2)) || break
             m_ij = max(m_ij, s_shm[tidx, i])
         end
 
+        has_valid = m_ij != typemin(T)
+
         l_ij = zero(T)
-        @unroll for i in 1:gsz
-            (in_seq_bounds || k_offset + i ≤ size(k, 2)) || break
-            tmp = exp(s_shm[tidx, i] - m_ij)
-            l_ij += tmp
-            s_shm[tidx, i] = tmp
+        if has_valid
+            @unroll for i in 1:gsz
+                (in_seq_bounds || k_offset + i ≤ size(k, 2)) || break
+                tmp = exp(s_shm[tidx, i] - m_ij)
+                l_ij += tmp
+                s_shm[tidx, i] = tmp
+            end
+        else
+            @unroll for i in 1:gsz
+                s_shm[tidx, i] = zero(T)
+            end
         end
         @synchronize()
 
-        m_i_new = max(m_i, m_ij)
-        α = exp(m_i - m_i_new)
-        β = exp(m_ij - m_i_new)
-        l_i_new = α * l_i + β * l_ij
+        if has_valid
+            m_i_new = max(m_i, m_ij)
+            α = exp(m_i - m_i_new)
+            β = exp(m_ij - m_i_new)
+            l_i_new = α * l_i + β * l_ij
+        else
+            m_i_new = m_i
+            α = one(T)
+            β = zero(T)
+            l_i_new = l_i
+        end
 
-        p_scale = β / l_i_new
-        o_scale = l_i / l_i_new * α
+        p_scale = zero(T)
+        o_scale = one(T)
+        if l_i_new != zero(T)
+            p_scale = β / l_i_new
+            o_scale = l_i / l_i_new * α
+        end
 
         @unroll for i in 1:gsz
             s_shm[tidx, i] *= p_scale
@@ -106,7 +219,7 @@
         end
 
         # ---- P · V --------------------------------------------------------
-        sh_load_emb!(k_shm, v, k_offset, in_k_seq_bounds, Val{false}())
+        sh_load_emb!(k_shm, v, k_offset, in_k_seq_bounds, Val{false}(), kv_head_idx)
         @synchronize()
         mma!(o_shm, s_shm, k_shm, cfg_out, tidx, mma_acc_fn)
         @synchronize()
@@ -119,10 +232,10 @@
     # ---- write-back -------------------------------------------------------
     if in_seq_bounds || in_q_seq_bounds
         @unroll for i in 1:emb_dim
-            o[i, tidx + q_offset, gidx[2], gidx[3]] = o_shm[i, tidx]
+            o[i, tidx + q_offset, q_head_idx, gidx[3]] = o_shm[i, tidx]
         end
-        ms[tidx + q_offset, gidx[2], gidx[3]] = m_i
-        ls[tidx + q_offset, gidx[2], gidx[3]] = l_i
+        ms[tidx + q_offset, q_head_idx, gidx[3]] = m_i
+        ls[tidx + q_offset, q_head_idx, gidx[3]] = l_i
     end
 end
 
@@ -131,20 +244,27 @@ end
 function _flash_attention(
     q::AbstractArray{T,4}, k::AbstractArray{T,4}, v::AbstractArray{T,4},
     pair::Union{Nothing,AbstractArray{T,4}} = nothing;
-    causal::Bool, kpad_mask::Union{Nothing,AbstractMatrix{Bool}} = nothing,
+    causal::Bool,
+    q_lengths=nothing,
+    k_lengths=nothing,
 ) where T
-    emb_dim, QL, H, B = size(q)
-    KL = size(k, 2)
+    emb_dim, QL, QH, B = size(q)
+    KL, KVH = size(k, 2), size(k, 3)
     @assert size(k) == size(v)
+    @assert size(k, 1) == emb_dim
+    @assert size(k, 4) == B
     ispow2(emb_dim) || error("Only power-of-2 embedding dims are supported.")
 
+    @assert QH % KVH == 0 "Number of query heads ($QH) must be divisible by number of KV heads ($KVH)"
+    num_q_per_kv = QH ÷ KVH
+
     kab          = get_backend(q)
     target_shmem = shared_memory(kab, KA.device(kab))
     gsz          = flash_attention_groupsize(T; emb_dim, target_shmem)
 
     q_seq_tiles, kv_seq_tiles = cld.((QL, KL), gsz)
     threads   = (gsz, 1, 1)
-    ndrange   = (gsz * q_seq_tiles, H, B)
+    ndrange   = (gsz * q_seq_tiles, QH, B)
     in_bounds = QL % gsz == 0 && KL % gsz == 0
     scale     = T(inv(sqrt(emb_dim)))
 
@@ -159,30 +279,54 @@ function _flash_attention(
 
     # ----------------------------------------------------------------------
     o  = similar(q)
-    ms = KA.allocate(kab, eltype(o), (QL,H,B))
-    ls = KA.allocate(kab, eltype(o), (QL,H,B))
+    ms = KA.allocate(kab, eltype(o), (QL,QH,B))
+    ls = KA.allocate(kab, eltype(o), (QL,QH,B))
+
+    q_doc_ids = nothing
+    k_doc_ids = nothing
+    k_tile_start_doc = nothing
+    k_tile_end_doc = nothing
+    if q_lengths !== nothing || k_lengths !== nothing
+        (q_lengths === nothing || k_lengths === nothing) &&
+            error("Both q_lengths and k_lengths must be provided together.")
+        @assert size(q_lengths, 2) == B
+        @assert size(k_lengths, 2) == B
+        q_doc_ids = build_doc_ids(kab, q_lengths, QL, B)
+        k_doc_ids = build_doc_ids(kab, k_lengths, KL, B)
+        k_tile_start_doc, k_tile_end_doc = build_k_tile_ranges(kab, k_lengths, gsz, KL, B)
+        if causal
+            size(q_lengths) == size(k_lengths) ||
+                error("For causal attention, q_lengths and k_lengths must match shapes.")
+            all(q_lengths .== k_lengths) ||
+                error("For causal attention, q_lengths and k_lengths must be equal.")
+        end
+    end
 
     _flash_attention_fwd!(kab, threads)(
         cfg, cfg_out,
-        o, ms, ls, q, k, v, scale, pair, kpad_mask,
-        Val(emb_dim), Val(in_bounds), Val(causal);   # flags
+        o, ms, ls, q, k, v, scale, pair,
+        q_doc_ids, k_doc_ids, k_tile_start_doc, k_tile_end_doc,
+        Val(emb_dim), Val(in_bounds), Val(causal), Val(num_q_per_kv);   # flags
         ndrange)
 
     return o, ms, ls
 end
 
 function flash_attention_shmem_fwd(::Type{T}; emb_dim::Int, groupsize::Int)::Int where T
+    doc_bytes = sizeof(Int32) * (2 * groupsize + 4)
     return sizeof(T) * (
         3 * groupsize * emb_dim + # q_shm, k_shm, o_shm
         groupsize * groupsize     # s_shm
-    )
+    ) + doc_bytes
 end
 
 function flash_attention_shmem_bwd(::Type{T};
     emb_dim::Int, groupsize::Int, qk_fp16::Bool,
 )::Int where T
+    doc_bytes = sizeof(Int32) * (2 * groupsize + 4)
     return sizeof(T) * (2 * groupsize * emb_dim + groupsize * groupsize) +
-        sizeof(qk_fp16 ? Float16 : Float32) * 2 * groupsize * emb_dim
+        sizeof(qk_fp16 ? Float16 : Float32) * 2 * groupsize * emb_dim +
+        doc_bytes
 end
 
 function flash_attention_groupsize(::Type{T}; emb_dim::Int, target_shmem::UInt64) where T
@@ -211,3 +355,90 @@ function flash_attention_mma_thread_cfg(groupsize::Int; BM::Int, BN::Int)::Tuple
     @assert groupsize == (BM * BN) ÷ (TM * TN)
     return TM, TN
 end
+
+@kernel function _build_doc_ids!(
+    doc_ids::AbstractMatrix{Int32},
+    lengths,
+    ndocs::Int32,
+)
+    idx = @index(Global, Linear)
+    L = size(doc_ids, 1)
+    B = size(doc_ids, 2)
+    total = L * B
+    if idx <= total
+
+        pos = (idx - 1) % L + 1
+        b   = (idx - 1) ÷ L + 1
+
+        remaining = pos
+        doc::Int32 = 0
+        @inbounds for d in 1:ndocs
+            len = Int32(lengths[d, b])
+            len == 0 && continue
+            if remaining <= len
+                doc = Int32(d)
+                break
+            end
+            remaining -= len
+        end
+        doc_ids[pos, b] = doc
+    end
+end
+
+function build_doc_ids(kab, lengths, L::Int, B::Int)
+    ndocs = size(lengths, 1)
+    @assert size(lengths, 2) == B
+    doc_ids = KA.allocate(kab, Int32, (L, B))
+
+    threads = 256
+    ndrange = L * B
+    _build_doc_ids!(kab, threads)(doc_ids, lengths, Int32(ndocs); ndrange)
+
+    return doc_ids
+end
+
+@kernel function _build_k_tile_ranges!(
+    tile_start::AbstractMatrix{Int32},
+    tile_end::AbstractMatrix{Int32},
+    lengths,
+    gsz::Int32,
+)
+    idx = @index(Global, Linear)
+    ndocs = size(lengths, 1)
+    B = size(lengths, 2)
+    total = ndocs * B
+    if idx <= total
+        d = (idx - 1) % ndocs + 1
+        b = (idx - 1) ÷ ndocs + 1
+
+        pos = 1
+        @inbounds for i in 1:(d-1)
+            pos += Int(lengths[i, b])
+        end
+        len_d = Int(lengths[d, b])
+        if len_d == 0
+            tile_start[d, b] = Int32(1)
+            tile_end[d, b] = Int32(0)
+        else
+            start_pos = pos
+            end_pos = pos + len_d - 1
+            ts = (start_pos - 1) ÷ gsz + 1
+            te = (end_pos   - 1) ÷ gsz + 1
+            tile_start[d, b] = Int32(ts)
+            tile_end[d, b] = Int32(te)
+        end
+    end
+end
+
+function build_k_tile_ranges(kab, lengths, gsz::Int, L::Int, B::Int)
+    ndocs = size(lengths, 1)
+    @assert size(lengths, 2) == B
+    tile_start = KA.allocate(kab, Int32, (ndocs, B))
+    tile_end   = KA.allocate(kab, Int32, (ndocs, B))
+
+    threads = 64
+    ndrange = ndocs * B
+    _build_k_tile_ranges!(kab, threads)(tile_start, tile_end, lengths, Int32(gsz); ndrange)
+
+    return tile_start, tile_end
+end
diff --git a/src/attention_bwd.jl b/src/attention_bwd.jl
index 1ab6f1a..8d3acea 100644
--- a/src/attention_bwd.jl
+++ b/src/attention_bwd.jl
@@ -7,9 +7,10 @@
     q::AbstractArray{T,4}, k::AbstractArray{T,4}, v::AbstractArray{T,4},
     scale::T,
     pair::Maybe{AbstractArray{T,4}}, # ← pair tensor
-    kpad_mask::Maybe{AbstractMatrix{Bool}},
-    ::Val{emb_dim}, ::Val{in_seq_bounds}, ::Val{causal},
-) where {T, emb_dim, in_seq_bounds, causal}
+    q_doc_ids::Maybe{AbstractMatrix{Int32}},
+    k_doc_ids::Maybe{AbstractMatrix{Int32}},
+    ::Val{emb_dim}, ::Val{in_seq_bounds}, ::Val{causal}, ::Val{num_q_per_kv},
+) where {T, emb_dim, in_seq_bounds, causal, num_q_per_kv}
     gsz = @groupsize()[1]
     q_seq_tiles = cld(size(q, 2), gsz)
     kv_seq_tiles = cld(size(k, 2), gsz)
@@ -20,14 +21,46 @@
     s_shm = @localmem T       (gsz, gsz)   # scores / dS
     Δ_shm = @localmem T       (emb_dim, gsz)
     d_shm = @localmem T       (emb_dim, gsz)
+    q_doc_shm = @localmem Int32 (gsz,)
+    k_doc_shm = @localmem Int32 (gsz,)
+    q_doc_range_shm = @localmem Int32 (2,)
+    k_doc_range_shm = @localmem Int32 (2,)
 
     tidx = @index(Local)
     gidx = @index(Group, NTuple)          # (head, batch) in this kernel
 
-    @inline function sh_load_emb!(dest, src, offset, mask::Bool, ::Val{tr}) where tr
+    q_head_idx = gidx[1]
+    kv_head_idx = cld(q_head_idx, num_q_per_kv)
+
+    doc_mode = !isnothing(q_doc_ids) && !isnothing(k_doc_ids)
+
+    @inline function sh_load_emb!(dest, src, offset, mask::Bool, ::Val{tr}, head_idx) where tr
         @unroll for i in 1:emb_dim
             x, y = tr ? (tidx, i) : (i, tidx)
-            @inbounds dest[x,y] = mask ? src[i, tidx+offset, gidx[1], gidx[2]] : zero(T)
+            @inbounds dest[x,y] = mask ? src[i, tidx+offset, head_idx, gidx[2]] : zero(T)
+        end
+    end
+
+    @inline function doc_tile_range!(doc_range_shm, doc_shm)
+        if tidx == 1
+            dmin = typemax(Int32)
+            dmax = typemin(Int32)
+            @inbounds @unroll for j in 1:gsz
+                doc = doc_shm[j]
+                doc == 0 && continue
+                dmin = min(dmin, doc)
+                dmax = max(dmax, doc)
+            end
+            doc_range_shm[1] = dmin
+            doc_range_shm[2] = dmax
+        end
+    end
+
+    @inline function apply_doc_mask!(s_shm, q_doc_shm, k_doc_shm, lo_k)
+        @unroll for j in 1:gsz
+            (in_seq_bounds || j + lo_k ≤ size(k, 2)) || break
+            same_doc = q_doc_shm[tidx] != 0 && q_doc_shm[tidx] == k_doc_shm[j]
+            s_shm[tidx, j] = same_doc ? s_shm[tidx, j] : typemin(T)
         end
     end
 
@@ -37,19 +70,39 @@
         q_offset = causal ? lo_k : 0                  # starting query row
 
         in_k_ok = in_seq_bounds || tidx + lo_k ≤ size(k,2)
-        sh_load_emb!(k_shm, k, lo_k, in_k_ok, Val(false))
+        sh_load_emb!(k_shm, k, lo_k, in_k_ok, Val(false), kv_head_idx)
+        if doc_mode
+            k_pos = lo_k + tidx
+            in_k_doc_bounds = in_seq_bounds || k_pos ≤ size(k_doc_ids, 1)
+            k_doc_shm[tidx] = in_k_doc_bounds ? k_doc_ids[k_pos, gidx[2]] : Int32(0)
+        end
         @synchronize()
 
+        if doc_mode
+            doc_tile_range!(k_doc_range_shm, k_doc_shm)
+            @synchronize()
+        end
+
         start_m = causal ? start_n : 1                # iterate query-tiles
         for sm in start_m:q_seq_tiles
             lo_q = (sm - 1) * gsz                    # query offset
 
             # ------------- load Δ and Q ---------------------------------
             in_q_ok = in_seq_bounds || tidx + q_offset ≤ size(q,2)
-            sh_load_emb!(Δ_shm, Δ, q_offset, in_q_ok, Val(false))
-            sh_load_emb!(q_shm, q, q_offset, in_q_ok, Val(true))
+            sh_load_emb!(Δ_shm, Δ, q_offset, in_q_ok, Val(false), q_head_idx)
+            sh_load_emb!(q_shm, q, q_offset, in_q_ok, Val(true), q_head_idx)
+            if doc_mode
+                q_pos = q_offset + tidx
+                in_q_doc_bounds = in_seq_bounds || q_pos ≤ size(q_doc_ids, 1)
+                q_doc_shm[tidx] = in_q_doc_bounds ? q_doc_ids[q_pos, gidx[2]] : Int32(0)
+            end
             @synchronize()
 
+            if doc_mode
+                doc_tile_range!(q_doc_range_shm, q_doc_shm)
+                @synchronize()
+            end
+
             # ------------- recompute raw scores -------------------------
             mma!(s_shm, q_shm, k_shm, cfg, tidx,
                 (res,_,__,___) -> res * scale)
@@ -60,7 +113,7 @@
                 @unroll for j in 1:gsz
                     (in_seq_bounds || lo_k + j ≤ size(pair,3)) || break
                     (in_seq_bounds || q_offset + tidx ≤ size(pair,2)) || break
-                    s_shm[tidx, j] += pair[gidx[1], q_offset + tidx, lo_k + j, gidx[2]]
+                    s_shm[tidx, j] += pair[q_head_idx, q_offset + tidx, lo_k + j, gidx[2]]
                 end
             end
 
@@ -71,41 +124,49 @@
                     s_shm[tidx, j] = tidx + q_offset ≥ j + lo_k ? s_shm[tidx, j] : typemin(T)
                 end
             end
-            if !isnothing(kpad_mask)
-                @unroll for j in 1:gsz
-                    (in_seq_bounds || j + lo_k ≤ size(k, 2)) || break
-                    valid = kpad_mask[j + lo_k, gidx[2]]
-                    s_shm[tidx, j] = valid ? s_shm[tidx, j] : typemin(T)
-                end
+            if doc_mode
+                apply_doc_mask!(s_shm, q_doc_shm, k_doc_shm, lo_k)
             end
 
             # ---------------- soft-max reconstruction -------------------
             in_ms = in_seq_bounds || tidx + lo_q ≤ size(ms,1)
-            m_i   = in_ms ? ms[tidx + lo_q, gidx[1], gidx[2]] : typemax(T)
-            @unroll for j in 1:gsz
-                s_shm[tidx, j] = exp(s_shm[tidx, j] - m_i)
+            m_i   = in_ms ? ms[tidx + lo_q, q_head_idx, gidx[2]] : typemax(T)
+            if m_i == typemin(T)
+                # Row had no valid keys in forward pass (all scores masked);
+                # forward stored m_i as typemin(T) and l_i = 0, producing zero output.
+                # Reconstructing softmax as exp(typemin - typemin) would yield NaNs,
+                # so we instead set scores to zero directly.
+                @unroll for j in 1:gsz
+                    s_shm[tidx, j] = zero(T)
+                end
+            else
+                @unroll for j in 1:gsz
+                    s_shm[tidx, j] = exp(s_shm[tidx, j] - m_i)
+                end
             end
 
             # -------------------- dV ------------------------------------
             in_dv = in_seq_bounds || tidx + lo_k ≤ size(dv,2)
-            sh_load_emb!(d_shm, dv, lo_k, in_dv, Val(false))
+            @unroll for i in 1:emb_dim
+                d_shm[i, tidx] = zero(T)
+            end
             @synchronize()
             mma!(d_shm, Δ_shm, s_shm, cfg_dv, tidx, mma_acc_fn)
             @synchronize()
             if in_dv
                 @unroll for i in 1:emb_dim
-                    dv[i, tidx + lo_k, gidx[1], gidx[2]] = d_shm[i, tidx]
+                    KA.@atomic dv[i, tidx + lo_k, kv_head_idx, gidx[2]] += d_shm[i, tidx]
                 end
             end
 
             # -------------------- dS (back into s_shm) -------------------
-            sh_load_emb!(d_shm, v, lo_k, in_dv, Val(false))
+            sh_load_emb!(d_shm, v, lo_k, in_dv, Val(false), kv_head_idx)
             @synchronize()
             # TODO prefetch δ?
             mma!(s_shm, Δ_shm, d_shm, cfg_ds, tidx,
                  (res, out, x, y) -> begin
                      d_i = if in_seq_bounds || x + lo_q ≤ size(δ, 1)
-                         @inbounds δ[x + lo_q, gidx[1], gidx[2]]
+                         @inbounds δ[x + lo_q, q_head_idx, gidx[2]]
                      else
                          zero(T)
                      end
@@ -120,30 +181,32 @@
                     col = j + lo_k
                     (in_seq_bounds || col ≤ size(dpair, 3)) || break
                     if (in_seq_bounds || row ≤ size(dpair, 2))
-                        dpair[gidx[1], row, col, gidx[2]] = s_shm[tidx, j] / scale
+                        dpair[q_head_idx, row, col, gidx[2]] = s_shm[tidx, j] / scale
                     end
                 end
             end
             # -------------------- dK ------------------------------------
-            sh_load_emb!(d_shm, dk, lo_k, in_k_ok, Val(false))
+            @unroll for i in 1:emb_dim
+                d_shm[i, tidx] = zero(T)
+            end
             @synchronize()
             mma!(d_shm, s_shm, q_shm, cfg_dk, tidx, mma_acc_fn)
             @synchronize()
             if in_k_ok
                 @unroll for i in 1:emb_dim
-                    dk[i, tidx + lo_k, gidx[1], gidx[2]] = d_shm[i,tidx]
+                    KA.@atomic dk[i, tidx + lo_k, kv_head_idx, gidx[2]] += d_shm[i,tidx]
                 end
             end
 
             # -------------------- dQ ------------------------------------
             in_dq = in_seq_bounds || tidx + lo_q ≤ size(dq, 2)
-            sh_load_emb!(d_shm, dq, lo_q, in_dq, Val(false))
+            sh_load_emb!(d_shm, dq, lo_q, in_dq, Val(false), q_head_idx)
             @synchronize()
             mma!(d_shm, s_shm, k_shm, cfg_dq, tidx, mma_acc_fn)
             @synchronize()
             if in_dq
                 @unroll for i in 1:emb_dim
-                    dq[i, tidx + lo_q, gidx[1], gidx[2]] = d_shm[i,tidx]
+                    dq[i, tidx + lo_q, q_head_idx, gidx[2]] = d_shm[i,tidx]
                 end
             end
 
@@ -172,11 +235,18 @@ end
     in_q_seq_bounds || return
 
     # Δ = Δ / ls
-    inv_denom = inv(ls[tidx + q_offset, gidx[2], gidx[3]])
+    denom = ls[tidx + q_offset, gidx[2], gidx[3]]
     Δ_scaled_v = @view(Δ_scaled[:, tidx + q_offset, gidx[2], gidx[3]])
     Δ_v = @view(Δ[:, tidx + q_offset, gidx[2], gidx[3]])
-    @unroll for i in 1:emb_dim
-        Δ_scaled_v[i] = Δ_v[i] * inv_denom
+    if denom == zero(T)
+        @unroll for i in 1:emb_dim
+            Δ_scaled_v[i] = zero(T)
+        end
+    else
+        inv_denom = inv(denom)
+        @unroll for i in 1:emb_dim
+            Δ_scaled_v[i] = Δ_v[i] * inv_denom
+        end
     end
 
     # δ = sum(o * do; dims=2) # dims=2 in the (B, H, L, E) format
@@ -194,10 +264,18 @@ function ∇flash_attention(
     q::AbstractArray{T,4}, k::AbstractArray{T,4}, v::AbstractArray{T,4},
     pair::Maybe{AbstractArray{T,4}} = nothing;
     causal::Bool,
-    kpad_mask::Maybe{AbstractMatrix{Bool}} = nothing,
+    q_lengths=nothing,
+    k_lengths=nothing,
 ) where T
-    emb_dim, QL, H, B = size(q)
-    KL                = size(k, 2)
+    emb_dim, QL, QH, B = size(q)
+    KL, KVH            = size(k, 2), size(k, 3)
+
+    @assert size(k) == size(v)
+    @assert size(k, 1) == emb_dim
+    @assert size(k, 4) == B
+
+    @assert QH % KVH == 0 "Number of query heads ($QH) must be divisible by number of KV heads ($KVH)"
+    num_q_per_kv = QH ÷ KVH
 
     kab          = get_backend(q)
     target_shmem = shared_memory(kab, KA.device(kab))
@@ -209,7 +287,7 @@ function ∇flash_attention(
 
     # ---------------- preprocess -----------------------------------------
     Δ_scaled = similar(Δ);  δ = similar(ls)
-    threads  = (gsz,1,1);   ndrange = (gsz*q_tiles, H, B)
+    threads  = (gsz,1,1);   ndrange = (gsz*q_tiles, QH, B)
     _flash_attention_bwd_preprocess!(kab, threads)(
         Δ_scaled, δ, Δ, o, ls,
         Val(emb_dim), Val(in_bounds); ndrange)
@@ -222,6 +300,23 @@ function ∇flash_attention(
         KA.allocate(kab, T, (0,0,0,0)) :   # harmless dummy
         KA.zeros(kab, T, size(pair))
 
+    q_doc_ids = nothing
+    k_doc_ids = nothing
+    if q_lengths !== nothing || k_lengths !== nothing
+        (q_lengths === nothing || k_lengths === nothing) &&
+            error("Both q_lengths and k_lengths must be provided together.")
+        @assert size(q_lengths, 2) == B
+        @assert size(k_lengths, 2) == B
+        q_doc_ids = build_doc_ids(kab, q_lengths, QL, B)
+        k_doc_ids = build_doc_ids(kab, k_lengths, KL, B)
+        if causal
+            size(q_lengths) == size(k_lengths) ||
+                error("For causal attention, q_lengths and k_lengths must match shapes.")
+            all(q_lengths .== k_lengths) ||
+                error("For causal attention, q_lengths and k_lengths must be equal.")
+        end
+    end
+
     # ---------------- MMA configs (unchanged) ----------------------------
     BM,BK,BN = gsz, emb_dim, gsz
     TM,TN    = flash_attention_mma_thread_cfg(gsz; BM, BN)
@@ -242,15 +337,15 @@ function ∇flash_attention(
 
     # ---------------- launch kernel --------------------------------------
     threads = (gsz, 1)
-    ndrange = (gsz * H, B)
+    ndrange = (gsz * QH, B)
     _flash_attention_bwd!(kab, threads)(
         cfg, cfg_dv, cfg_dk, cfg_dq, cfg_ds,
         dq, dk, dv, dp,
         Δ_scaled, δ,
         o, ms,
         q, k, v, scale,
-        pair, kpad_mask,
-        Val(emb_dim), Val(in_bounds), Val(causal);
+        pair, q_doc_ids, k_doc_ids,
+        Val(emb_dim), Val(in_bounds), Val(causal), Val(num_q_per_kv);
         ndrange)
 
     return dq, dk, dv, (isnothing(pair) ? nothing : dp)
diff --git a/src/attention_crc.jl b/src/attention_crc.jl
index bf9414a..10932bd 100644
--- a/src/attention_crc.jl
+++ b/src/attention_crc.jl
@@ -5,9 +5,21 @@ function flash_attention(
     q, k, v,
     pair::Maybe{AbstractArray{<:Real, 4}} = nothing;
     causal::Bool,
-    kpad_mask::Maybe{AbstractMatrix{Bool}} = nothing,
+    lengths=nothing,
+    q_lengths=nothing,
+    k_lengths=nothing,
 )
-    o = _flash_attention(q, k, v, pair; causal, kpad_mask)
+    if lengths !== nothing
+        q_lengths === nothing || error("Specify either lengths or q_lengths, not both.")
+        k_lengths === nothing || error("Specify either lengths or k_lengths, not both.")
+        q_lengths = lengths
+        k_lengths = lengths
+    end
+
+    o = _flash_attention(q, k, v, pair;
+        causal,
+        q_lengths=q_lengths,
+        k_lengths=k_lengths)
     within_gradient(q) && return o
     @assert length(o) == 3
     return o[1]
@@ -17,14 +29,29 @@ function CRC.rrule(::typeof(_flash_attention),
     q, k, v,
     pair::Maybe{AbstractArray{<:Real, 4}} = nothing;
     causal::Bool,
-    kpad_mask::Maybe{AbstractMatrix{Bool}} = nothing,
+    lengths=nothing,
+    q_lengths=nothing,
+    k_lengths=nothing,
 )
-    o, ms, ls = _flash_attention(q, k, v, pair; causal, kpad_mask)
+    if lengths !== nothing
+        q_lengths === nothing || error("Specify either lengths or q_lengths, not both.")
+        k_lengths === nothing || error("Specify either lengths or k_lengths, not both.")
+        q_lengths = lengths
+        k_lengths = lengths
+    end
+
+    o, ms, ls = _flash_attention(q, k, v, pair;
+        causal,
+        q_lengths=q_lengths,
+        k_lengths=k_lengths)
 
     function _pullback(Δ)
         dq, dk, dv, dpair = ∇flash_attention(
             CRC.unthunk(Δ),
-            o, ms, ls, q, k, v, pair; causal, kpad_mask)
+            o, ms, ls, q, k, v, pair;
+            causal=causal,
+            q_lengths=q_lengths,
+            k_lengths=k_lengths)
         return CRC.NoTangent(), dq, dk, dv, dpair
     end
     return o, _pullback
diff --git a/test/Project.toml b/test/Project.toml
index 3602059..3efc0bc 100644
--- a/test/Project.toml
+++ b/test/Project.toml
@@ -1,7 +1,9 @@
 [deps]
-AMDGPU = "21141c5a-9bdb-4563-92ae-f87d6854732e"
 Adapt = "79e6a3ab-5dfb-504d-930d-738a2a938a0e"
+CUDA = "052768ef-5323-5732-b1bb-66c8b64840ba"
+Einops = "e3ce28c8-8bfb-4704-8add-e3e7f14b55c9"
 NNlib = "872c559c-99b0-510c-b3b7-b6c96a88d5cd"
+NNop = "eeb6ee5c-f953-4f60-8482-00c4fb7bc198"
 Pkg = "44cfe95a-1eb2-52ea-b672-e2afdf69b78f"
 Statistics = "10745b16-79ce-11e8-11f9-7d13ad32a3b2"
 Test = "8dfed614-e22c-5e08-85e1-65c5234f0b40"
diff --git a/test/runtests.jl b/test/runtests.jl
index 6a0587c..aea2f52 100644
--- a/test/runtests.jl
+++ b/test/runtests.jl
@@ -4,11 +4,12 @@ using Test
 using Statistics
 
 import Adapt
+import Einops
 import Zygote
 import Pkg
 
 #ENV["NNOP_TEST_AMDGPU"] = true
-#ENV["NNOP_TEST_CUDA"] = true
+ENV["NNOP_TEST_CUDA"] = true
 
 if get(ENV, "NNOP_TEST_AMDGPU", "false") == "true"
     Pkg.add("AMDGPU")
@@ -28,28 +29,151 @@ function naive_softmax(x; dims = 1)
     return tmp ./ sum(tmp; dims)
 end
 
-function att_padding_mask(kpadmask, other_dim; T = Float32)
-    pm = T.(kpadmask)
-    m = NNop.CRC.@ignore_derivatives log.(reshape(pm, size(pm,1), 1, 1, size(pm,2)) .* (similar(pm, 1, other_dim, 1, size(pm,2)) .= 1))
-    return m
+function build_doc_ids_cpu(lengths, L::Int, B::Int)
+    ndocs = size(lengths, 1)
+    doc_ids = Array{Int32}(undef, L, B)
+    @inbounds for b in 1:B
+        pos = 1
+        for d in 1:ndocs
+            len = Int(lengths[d, b])
+            len == 0 && continue
+            @assert len ≥ 0
+            @assert pos + len - 1 ≤ L
+            doc = Int32(d)
+            doc_ids[pos:pos+len-1, b] .= doc
+            pos += len
+        end
+        @assert pos - 1 == L
+    end
+    return doc_ids
 end
 
-function naive_attention(q, k, v, pair = nothing; causal::Bool, kpad_mask::Union{Nothing,AbstractMatrix{Bool}} = nothing)
+function apply_lengths_mask(a, q_lengths, k_lengths)
+    QL = size(a, 2)
+    KL = size(a, 1)
+    B  = size(a, 4)
+
+    q_lengths_cpu = Array(q_lengths)
+    k_lengths_cpu = Array(k_lengths)
+
+    @assert size(q_lengths_cpu, 2) == B
+    @assert size(k_lengths_cpu, 2) == B
+
+    T = eltype(a)
+
+    doc_mask_adapted = NNop.CRC.@ignore_derivatives begin
+        q_doc_ids = build_doc_ids_cpu(q_lengths_cpu, QL, B)
+        k_doc_ids = build_doc_ids_cpu(k_lengths_cpu, KL, B)
+
+        doc_mask = Array{T}(undef, KL, QL, 1, B)
+        @inbounds for b in 1:B, qpos in 1:QL, kpos in 1:KL
+            qd = q_doc_ids[qpos, b]
+            kd = k_doc_ids[kpos, b]
+            same_doc = (qd != 0) && (qd == kd)
+            doc_mask[kpos, qpos, 1, b] = same_doc ? zero(T) : typemin(T)
+        end
+
+        Adapt.adapt(kab, doc_mask)
+    end
+
+    return a .+ doc_mask_adapted
+end
+
+function naive_attention_impl(
+    q, k, v, pair = nothing;
+    causal::Bool,
+)
+    QH, KVH = size(q, 3), size(k, 3)
+    if QH != KVH
+        @assert QH % KVH == 0 "Number of query heads must be divisible by number of KV heads"
+        num_q_per_kv = QH ÷ KVH
+        k, v = repeat.((k, v), Einops.einops"d l h ... -> d l (num_q_per_kv h) ..."; num_q_per_kv)
+    end
     kt = permutedims(k, (2, 1, 3, 4))
     a = (kt ⊠ q) .* inv(sqrt(size(q, 1)))
     if causal
         m = make_causal_mask(q)
         a = apply_attn_mask(a, m)
     end
-    if !isnothing(kpad_mask)
-        a = a .+ att_padding_mask(kpad_mask, size(q, 2))
-    end
     if !isnothing(pair)
         a = a .+ permutedims(pair, (3, 2, 1, 4)) #When it comes in as H-QL-KL-B
     end
     return v ⊠ naive_softmax(a; dims=1)
 end
 
+function naive_attention(
+    q, k, v, pair = nothing;
+    causal::Bool,
+    lengths = nothing,
+    q_lengths = nothing,
+    k_lengths = nothing,
+)
+    if lengths !== nothing
+        q_lengths === nothing || error("Specify either lengths or q_lengths, not both.")
+        k_lengths === nothing || error("Specify either lengths or k_lengths, not both.")
+        q_lengths = lengths
+        k_lengths = lengths
+    end
+
+    if q_lengths === nothing && k_lengths === nothing
+        return naive_attention_impl(q, k, v, pair; causal=causal)
+    end
+
+    !isnothing(pair) && error("pair is not supported together with lengths in naive_attention.")
+
+    T = eltype(q)
+    E, Lq, H, B = size(q)
+    Lk = size(k, 2)
+
+    q_lengths_cpu = Array(q_lengths)
+    k_lengths_cpu = Array(k_lengths)
+
+    ndocs_q = size(q_lengths_cpu, 1)
+    ndocs_k = size(k_lengths_cpu, 1)
+    @assert size(q_lengths_cpu, 2) == B
+    @assert size(k_lengths_cpu, 2) == B
+
+    o_batches = map(1:B) do b
+        ndocs = max(ndocs_q, ndocs_k)
+        q_lens = [d ≤ ndocs_q ? Int(q_lengths_cpu[d, b]) : 0 for d in 1:ndocs]
+        k_lens = [d ≤ ndocs_k ? Int(k_lengths_cpu[d, b]) : 0 for d in 1:ndocs]
+
+        if ndocs == 0
+            zeros(T, E, 0, H, 1)
+        else
+            q_starts = cumsum(vcat(1, q_lens[1:end-1]))
+            k_starts = cumsum(vcat(1, k_lens[1:end-1]))
+
+            last_q_end = q_starts[end] + q_lens[end] - 1
+            last_k_end = k_starts[end] + k_lens[end] - 1
+            @assert last_q_end == Lq
+            @assert last_k_end == Lk
+
+            o_docs = [
+                let q_len = q_lens[d], k_len = k_lens[d],
+                    q_start = q_starts[d], k_start = k_starts[d]
+                    if q_len == 0
+                        zeros(T, E, 0, H, 1)
+                    elseif k_len == 0
+                        zeros(T, E, q_len, H, 1)
+                    else
+                        q_slice = q[:, q_start:(q_start + q_len - 1), :, b:b]
+                        k_slice = k[:, k_start:(k_start + k_len - 1), :, b:b]
+                        v_slice = v[:, k_start:(k_start + k_len - 1), :, b:b]
+
+                        naive_attention_impl(q_slice, k_slice, v_slice, nothing; causal=causal)
+                    end
+                end
+                for d in 1:ndocs
+            ]
+
+            cat(o_docs...; dims=2)
+        end
+    end
+
+    return cat(o_batches...; dims=4)
+end
+
 function naive_rms_norm(x, w; offset::Float32 = 0f0, ϵ::Float32 = 1f-6)
     (w .+ offset) .* x ./ sqrt.(mean(x.^2; dims=1) .+ ϵ)
 end
@@ -76,7 +200,7 @@ function naive_llama_rope(q, k; cos, sin)
 end
 
 @testset "NNop" begin
-    @testset "Online Softmax: T=$T, seq_len=$seq_len" for T in (
+    #=@testset "Online Softmax: T=$T, seq_len=$seq_len" for T in (
         Float32, # TODO more types
     ), seq_len in (
         32, 33, 63, 255, 256, 511, 512, 513, 1024,
@@ -93,7 +217,7 @@ end
             sum(NNop.online_softmax(x))
         end
         @assert isapprox(∇1[1], ∇2[1]; atol=1f-6, rtol=1f-6)
-    end
+    end=#
 
     @testset "Flash Attention: causal=$causal, padmask=$use_padmask, pair=$use_pair, T=$T, E=$E, QL=$QL, KL=$KL" for causal in (
         false, true
@@ -106,9 +230,9 @@ end
     ), E in (
         16, 32, 64, # TODO test on higher if applicable
     ), QL in (
-        255, 256, 511, 512, 1024,
+        255, 256, #511, 512, 1024,
     ), KL in (
-        255, 256, 511, 512, 1024,
+        255, 256, #511, 512, 1024,
     )
         causal && QL != KL && continue
 
@@ -118,22 +242,16 @@ end
         k = Adapt.adapt(kab, randn(T, E, KL, H, B))
         v = Adapt.adapt(kab, randn(T, E, KL, H, B))
 
-        kpad_mask = nothing
-        if use_padmask
-            kpad_mask = Adapt.adapt(kab, ones(Bool, KL, B))
-            kpad_mask[end-10:end, end] .= false
-        end
-
         pair = nothing
         if use_pair
             pair = Adapt.adapt(kab, randn(T, H, QL, KL, B))
         end
 
         o1, ∇1 = Zygote.withgradient(q, k, v, pair) do q, k, v, pair
-            sum(naive_attention(q, k, v, pair; causal, kpad_mask))
+            sum(naive_attention(q, k, v, pair; causal))
         end
         o2, ∇2 = Zygote.withgradient(q, k, v, pair) do q, k, v, pair
-            sum(NNop.flash_attention(q, k, v, pair; causal, kpad_mask))
+            sum(NNop.flash_attention(q, k, v, pair; causal))
         end
         @test isapprox(o1, o2; atol=1e-3, rtol=1e-3)
         @test isapprox(∇1[1], ∇2[1]; atol=1e-3, rtol=1e-3)
@@ -144,6 +262,140 @@ end
         end
     end
 
+    @testset "Grouped-Query Attention: QH=$QH, KVH=$KVH, causal=$causal, T=$T, E=$E, QL=$QL" for QH in (
+        2, 4, 8,
+    ), KVH in (
+        1, 2,
+    ), causal in (
+        false, true,
+    ), T in (
+        Float32,
+    ), E in (
+        32, 64,
+    ), QL in (
+        256, 512,
+    )
+        QH % KVH == 0 || continue  # Skip invalid combinations
+        QH == KVH && continue  # Skip regular MHA (already tested)
+        
+        KL = QL
+        B = 2
+        
+        q = Adapt.adapt(kab, randn(T, E, QL, QH, B))
+        k = Adapt.adapt(kab, randn(T, E, KL, KVH, B))
+        v = Adapt.adapt(kab, randn(T, E, KL, KVH, B))
+        
+        o1, ∇1 = Zygote.withgradient(q, k, v) do q, k, v
+            sum(naive_attention(q, k, v; causal))
+        end
+        o2, ∇2 = Zygote.withgradient(q, k, v) do q, k, v
+            sum(NNop.flash_attention(q, k, v; causal))
+        end
+        @test isapprox(o1, o2; atol=1e-3, rtol=1e-3)
+        @test isapprox(∇1[1], ∇2[1]; atol=1e-3, rtol=1e-3)
+        @test isapprox(∇1[2], ∇2[2]; atol=1e-3, rtol=1e-3)
+        @test isapprox(∇1[3], ∇2[3]; atol=1e-3, rtol=1e-3)
+    end
+
+    @testset "Flash Attention with lengths (self): causal=$causal, T=$T, E=$E, L=$L, QH=$QH, QH/KVH=$num_q_per_kv, ndocs=$ndocs" for causal in (
+        false, true
+    ), T in (
+        Float32,
+    ), E in (
+        16,
+    ), L in (
+        32, 33,
+    ), QH in (
+        2, 4, 6
+    ), num_q_per_kv in (
+        2, 1
+    ), ndocs in (
+        2, 3,
+    )
+        KVH = QH ÷ num_q_per_kv
+        B = 2
+        lengths = zeros(Int, ndocs, B)
+        @inbounds for b in 1:B
+            remaining = L
+            for d in 1:ndocs
+                len = d == ndocs ? remaining : max(1, remaining ÷ (ndocs - d + 1))
+                lengths[d, b] = len
+                remaining -= len
+            end
+            @assert remaining == 0
+        end
+
+        q = Adapt.adapt(kab, randn(T, E, L, QH, B))
+        k = Adapt.adapt(kab, randn(T, E, L, KVH, B))
+        v = Adapt.adapt(kab, randn(T, E, L, KVH, B))
+
+        o1, ∇1 = Zygote.withgradient(q, k, v) do q, k, v
+            sum(naive_attention(q, k, v; causal=causal, lengths=lengths))
+        end
+        o2, ∇2 = Zygote.withgradient(q, k, v) do q, k, v
+            sum(NNop.flash_attention(q, k, v; causal=causal, lengths=Adapt.adapt(kab, lengths)))
+        end
+
+        @test isapprox(o1, o2; atol=1e-3, rtol=1e-3)
+        @test isapprox(∇1[1], ∇2[1]; atol=1e-3, rtol=1e-3)
+        @test isapprox(∇1[2], ∇2[2]; atol=1e-3, rtol=1e-3)
+        @test isapprox(∇1[3], ∇2[3]; atol=1e-3, rtol=1e-3)
+    end
+
+    @testset "Flash Attention with q_lengths/k_lengths (asym)" for T in (
+        Float32,
+    ), E in (
+        16,
+    )
+        causal = false
+        H, B = 2, 2
+        Lq, Lk = 40, 48
+        ndocs_q, ndocs_k = 3, 2
+
+        q_lengths = zeros(Int, ndocs_q, B)
+        k_lengths = zeros(Int, ndocs_k, B)
+
+        @inbounds for b in 1:B
+            remaining = Lq
+            for d in 1:ndocs_q
+                len = d == ndocs_q ? remaining : max(1, remaining ÷ (ndocs_q - d + 1))
+                q_lengths[d, b] = len
+                remaining -= len
+            end
+            @assert remaining == 0
+
+            remaining = Lk
+            for d in 1:ndocs_k
+                len = d == ndocs_k ? remaining : max(1, remaining ÷ (ndocs_k - d + 1))
+                k_lengths[d, b] = len
+                remaining -= len
+            end
+            @assert remaining == 0
+        end
+
+        q = Adapt.adapt(kab, randn(T, E, Lq, H, B))
+        k = Adapt.adapt(kab, randn(T, E, Lk, H, B))
+        v = Adapt.adapt(kab, randn(T, E, Lk, H, B))
+
+        o1, ∇1 = Zygote.withgradient(q, k, v) do q, k, v
+            sum(naive_attention(q, k, v;
+                causal=causal,
+                q_lengths=q_lengths,
+                k_lengths=k_lengths))
+        end
+        o2, ∇2 = Zygote.withgradient(q, k, v) do q, k, v
+            sum(NNop.flash_attention(q, k, v;
+                causal=causal,
+                q_lengths=Adapt.adapt(kab, q_lengths),
+                k_lengths=Adapt.adapt(kab, k_lengths)))
+        end
+
+        @test isapprox(o1, o2; atol=1e-3, rtol=1e-3)
+        @test isapprox(∇1[1], ∇2[1]; atol=1e-3, rtol=1e-3)
+        @test isapprox(∇1[2], ∇2[2]; atol=1e-3, rtol=1e-3)
+        @test isapprox(∇1[3], ∇2[3]; atol=1e-3, rtol=1e-3)
+    end
+
     @testset "RMS norm: emb=$emb, n=$n, offset=$offset" for emb in (
         15, 255, 256, 257, 511, 512, 513, 1024,
     ), n in (