diff --git a/CMakeLists.txt b/CMakeLists.txt
index f340bae6..9f5f2356 100644
--- a/CMakeLists.txt
+++ b/CMakeLists.txt
@@ -3,7 +3,8 @@ project(rpcsx)
 
 set(CMAKE_CXX_EXTENSIONS off)
 set(CMAKE_CXX_STANDARD 23)
-set(CMAKE_CXX_STANDARD_REQUIRED ON)
+set(CMAKE_CXX_STANDARD_REQUIRED on)
+set(CMAKE_BUILD_RPATH_USE_ORIGIN on)
 
 list(APPEND CMAKE_MODULE_PATH "${CMAKE_CURRENT_SOURCE_DIR}/cmake")
 
@@ -41,7 +42,7 @@ function(add_precompiled_vulkan_spirv target)
 
         add_custom_command(
             OUTPUT ${outputpath}
-            COMMAND $<TARGET_FILE:glslang::glslang-standalone> -V --target-env vulkan1.3 --vn "${varname}" -o "${outputpath}" "${CMAKE_CURRENT_SOURCE_DIR}/${input}"
+            COMMAND $<TARGET_FILE:glslang::glslang-standalone> -V --target-env vulkan1.2 --vn "${varname}" -o "${outputpath}" "${CMAKE_CURRENT_SOURCE_DIR}/${input}"
             DEPENDS "${CMAKE_CURRENT_SOURCE_DIR}/${input}" glslang::glslang-standalone
             COMMENT "Generating ${outputname}..."
         )
@@ -65,6 +66,7 @@ add_subdirectory(tools)
 add_subdirectory(orbis-kernel)
 add_subdirectory(rpcsx-os)
 add_subdirectory(rpcsx-gpu)
+add_subdirectory(rpcsx-gpu2)
 add_subdirectory(hw/amdgpu)
 add_subdirectory(rx)
 
diff --git a/hw/amdgpu/device/src/rect_list.geom.glsl b/hw/amdgpu/device/src/rect_list.geom.glsl
index 84123923..287c864a 100644
--- a/hw/amdgpu/device/src/rect_list.geom.glsl
+++ b/hw/amdgpu/device/src/rect_list.geom.glsl
@@ -1,6 +1,6 @@
 #version 450
 
-layout (triangles) in;
+layout (triangles, invocations = 1) in;
 layout (triangle_strip, max_vertices = 4) out;
 
 void main(void)
diff --git a/rpcsx-gpu2/CMakeLists.txt b/rpcsx-gpu2/CMakeLists.txt
new file mode 100644
index 00000000..f15d0907
--- /dev/null
+++ b/rpcsx-gpu2/CMakeLists.txt
@@ -0,0 +1,36 @@
+find_package(glfw3 3.3 REQUIRED)
+
+add_precompiled_vulkan_spirv(rpcsx-gpu-shaders
+    shaders/fill_red.frag.glsl
+    shaders/flip.frag.glsl
+    shaders/flip.vert.glsl
+    shaders/rect_list.geom.glsl
+)
+
+add_executable(rpcsx-gpu2
+    Cache.cpp
+    main.cpp
+    Device.cpp
+    Pipe.cpp
+    Registers.cpp
+    Renderer.cpp
+)
+
+target_link_libraries(rpcsx-gpu2
+PUBLIC
+    rpcsx-gpu-shaders
+    amdgpu::bridge
+    rx
+    gcn-shader
+    glfw
+    amdgpu::tiler::cpu
+    amdgpu::tiler::vulkan
+    rdna-semantic-spirv
+    gnm::vulkan
+    gnm
+)
+
+install(TARGETS rpcsx-gpu2 RUNTIME DESTINATION bin)
+set_target_properties(rpcsx-gpu2 PROPERTIES RUNTIME_OUTPUT_DIRECTORY ${CMAKE_BINARY_DIR}/bin)
+
+add_subdirectory(lib)
diff --git a/rpcsx-gpu2/Cache.cpp b/rpcsx-gpu2/Cache.cpp
new file mode 100644
index 00000000..a10f331c
--- /dev/null
+++ b/rpcsx-gpu2/Cache.cpp
@@ -0,0 +1,1109 @@
+#include "Cache.hpp"
+#include "Device.hpp"
+#include "amdgpu/tiler.hpp"
+#include "gnm/vulkan.hpp"
+#include "rx/MemoryTable.hpp"
+#include "rx/die.hpp"
+#include "shader/GcnConverter.hpp"
+#include "shader/dialect.hpp"
+#include "shader/glsl.hpp"
+#include "shader/spv.hpp"
+#include "vk.hpp"
+#include <cstddef>
+#include <cstring>
+#include <memory>
+#include <utility>
+#include <vulkan/vulkan_core.h>
+
+using namespace amdgpu;
+
+static bool isPrimRequiresConversion(gnm::PrimitiveType primType) {
+  switch (primType) {
+  case gnm::PrimitiveType::PointList:
+  case gnm::PrimitiveType::LineList:
+  case gnm::PrimitiveType::LineStrip:
+  case gnm::PrimitiveType::TriList:
+  case gnm::PrimitiveType::TriFan:
+  case gnm::PrimitiveType::TriStrip:
+  case gnm::PrimitiveType::Patch:
+  case gnm::PrimitiveType::LineListAdjacency:
+  case gnm::PrimitiveType::LineStripAdjacency:
+  case gnm::PrimitiveType::TriListAdjacency:
+  case gnm::PrimitiveType::TriStripAdjacency:
+    return false;
+
+  case gnm::PrimitiveType::LineLoop: // FIXME
+    rx::die("unimplemented line loop primitive");
+    return false;
+
+  case gnm::PrimitiveType::RectList:
+    return false;
+
+  case gnm::PrimitiveType::QuadList:
+  case gnm::PrimitiveType::QuadStrip:
+  case gnm::PrimitiveType::Polygon:
+    return true;
+
+  default:
+    rx::die("unknown primitive type: %u", (unsigned)primType);
+  }
+}
+
+static std::pair<std::uint64_t, std::uint64_t>
+quadListPrimConverter(std::uint64_t index) {
+  static constexpr int indicies[] = {0, 1, 2, 2, 3, 0};
+  return {index, index / 6 + indicies[index % 6]};
+}
+
+static std::pair<std::uint64_t, std::uint64_t>
+quadStripPrimConverter(std::uint64_t index) {
+  static constexpr int indicies[] = {0, 1, 3, 0, 3, 2};
+  return {index, (index / 6) * 4 + indicies[index % 6]};
+}
+
+using ConverterFn =
+    std::pair<std::uint64_t, std::uint64_t>(std::uint64_t index);
+
+static ConverterFn *getPrimConverterFn(gnm::PrimitiveType primType,
+                                       std::uint32_t *count) {
+  switch (primType) {
+  case gnm::PrimitiveType::QuadList:
+    *count = *count / 4 * 6;
+    return quadListPrimConverter;
+
+  case gnm::PrimitiveType::QuadStrip:
+    *count = *count / 4 * 6;
+    return quadStripPrimConverter;
+
+  default:
+    rx::die("getPrimConverterFn: unexpected primType %u",
+            static_cast<unsigned>(primType));
+  }
+}
+
+static VkShaderStageFlagBits shaderStageToVk(shader::gcn::Stage stage) {
+  switch (stage) {
+  case shader::gcn::Stage::Ps:
+    return VK_SHADER_STAGE_FRAGMENT_BIT;
+  case shader::gcn::Stage::VsVs:
+    return VK_SHADER_STAGE_VERTEX_BIT;
+  // case shader::gcn::Stage::VsEs:
+  // case shader::gcn::Stage::VsLs:
+  case shader::gcn::Stage::Cs:
+    return VK_SHADER_STAGE_COMPUTE_BIT;
+    // case shader::gcn::Stage::Gs:
+    // case shader::gcn::Stage::GsVs:
+    // case shader::gcn::Stage::Hs:
+    // case shader::gcn::Stage::DsVs:
+    // case shader::gcn::Stage::DsEs:
+
+  default:
+    rx::die("unsupported shader stage %u", int(stage));
+  }
+}
+
+static void fillStageBindings(VkDescriptorSetLayoutBinding *bindings,
+                              VkShaderStageFlagBits stage, int setIndex) {
+
+  auto createDescriptorBinding = [&](VkDescriptorType type, uint32_t count,
+                                     int dim = 0) {
+    auto binding = Cache::getDescriptorBinding(type, dim);
+    rx::dieIf(binding < 0, "unexpected descriptor type %#x\n", int(type));
+    bindings[binding] = VkDescriptorSetLayoutBinding{
+        .binding = static_cast<std::uint32_t>(binding),
+        .descriptorType = type,
+        .descriptorCount = count,
+        .stageFlags = VkShaderStageFlags(
+            stage | (binding > 0 && stage != VK_SHADER_STAGE_COMPUTE_BIT
+                         ? VK_SHADER_STAGE_ALL_GRAPHICS
+                         : 0)),
+        .pImmutableSamplers = nullptr,
+    };
+  };
+
+  createDescriptorBinding(VK_DESCRIPTOR_TYPE_UNIFORM_BUFFER, 1);
+  if (setIndex == 0) {
+    createDescriptorBinding(VK_DESCRIPTOR_TYPE_SAMPLER, 16);
+    createDescriptorBinding(VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE, 16, 1);
+    createDescriptorBinding(VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE, 16, 2);
+    createDescriptorBinding(VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE, 16, 3);
+    createDescriptorBinding(VK_DESCRIPTOR_TYPE_STORAGE_IMAGE, 16);
+  }
+}
+
+static void
+transitionImageLayout(VkCommandBuffer commandBuffer, VkImage image,
+                      VkImageLayout oldLayout, VkImageLayout newLayout,
+                      const VkImageSubresourceRange &subresourceRange) {
+  VkImageMemoryBarrier barrier{};
+  barrier.sType = VK_STRUCTURE_TYPE_IMAGE_MEMORY_BARRIER;
+  barrier.oldLayout = oldLayout;
+  barrier.newLayout = newLayout;
+  barrier.srcQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED;
+  barrier.dstQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED;
+  barrier.image = image;
+  barrier.subresourceRange = subresourceRange;
+
+  auto layoutToStageAccess = [](VkImageLayout layout)
+      -> std::pair<VkPipelineStageFlags, VkAccessFlags> {
+    switch (layout) {
+    case VK_IMAGE_LAYOUT_UNDEFINED:
+    case VK_IMAGE_LAYOUT_PRESENT_SRC_KHR:
+    case VK_IMAGE_LAYOUT_GENERAL:
+      return {VK_PIPELINE_STAGE_TOP_OF_PIPE_BIT, 0};
+
+    case VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL:
+      return {VK_PIPELINE_STAGE_TRANSFER_BIT, VK_ACCESS_TRANSFER_WRITE_BIT};
+
+    case VK_IMAGE_LAYOUT_TRANSFER_SRC_OPTIMAL:
+      return {VK_PIPELINE_STAGE_TRANSFER_BIT, VK_ACCESS_TRANSFER_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_SHADER_READ_ONLY_OPTIMAL:
+      return {VK_PIPELINE_STAGE_FRAGMENT_SHADER_BIT, VK_ACCESS_SHADER_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_DEPTH_STENCIL_ATTACHMENT_OPTIMAL:
+      return {VK_PIPELINE_STAGE_EARLY_FRAGMENT_TESTS_BIT,
+              VK_ACCESS_DEPTH_STENCIL_ATTACHMENT_WRITE_BIT |
+                  VK_ACCESS_DEPTH_STENCIL_ATTACHMENT_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_COLOR_ATTACHMENT_OPTIMAL:
+      return {VK_PIPELINE_STAGE_COLOR_ATTACHMENT_OUTPUT_BIT,
+              VK_ACCESS_COLOR_ATTACHMENT_WRITE_BIT |
+                  VK_ACCESS_COLOR_ATTACHMENT_READ_BIT};
+
+    default:
+      std::abort();
+    }
+  };
+
+  auto [sourceStage, sourceAccess] = layoutToStageAccess(oldLayout);
+  auto [destinationStage, destinationAccess] = layoutToStageAccess(newLayout);
+
+  barrier.srcAccessMask = sourceAccess;
+  barrier.dstAccessMask = destinationAccess;
+
+  vkCmdPipelineBarrier(commandBuffer, sourceStage, destinationStage, 0, 0,
+                       nullptr, 0, nullptr, 1, &barrier);
+}
+
+struct Cache::Entry {
+  virtual ~Entry() = default;
+
+  Cache::TagId tagId;
+  std::uint64_t baseAddress;
+  Access acquiredAccess = Access::None;
+
+  virtual void flush(Cache::Tag &tag, Scheduler &scheduler,
+                     std::uint64_t beginAddress, std::uint64_t endAddress) {}
+};
+
+struct CachedShader : Cache::Entry {
+  std::uint64_t magic;
+  VkShaderEXT handle;
+  shader::gcn::ShaderInfo info;
+  std::vector<std::pair<std::uint64_t, std::vector<std::byte>>> usedMemory;
+
+  ~CachedShader() {
+    vk::DestroyShaderEXT(vk::context->device, handle, vk::context->allocator);
+  }
+};
+
+struct CachedBuffer : Cache::Entry {
+  vk::Buffer buffer;
+  std::size_t size;
+
+  void flush(Cache::Tag &tag, Scheduler &scheduler, std::uint64_t beginAddress,
+             std::uint64_t endAddress) override {
+    if ((acquiredAccess & Access::Write) == Access::None) {
+      return;
+    }
+
+    // std::printf("writing buffer to memory %lx\n", baseAddress);
+    std::memcpy(RemoteMemory{tag.getVmId()}.getPointer(baseAddress),
+                buffer.getData(), size);
+  }
+};
+
+struct CachedIndexBuffer : Cache::Entry {
+  vk::Buffer buffer;
+  std::size_t size;
+  gnm::IndexType indexType;
+  gnm::PrimitiveType primType;
+};
+
+struct CachedImage : Cache::Entry {
+  vk::Image image;
+  SurfaceInfo info;
+  TileMode acquiredTileMode;
+
+  void flush(Cache::Tag &tag, Scheduler &scheduler, std::uint64_t beginAddress,
+             std::uint64_t endAddress) override {
+    if ((acquiredAccess & Access::Write) == Access::None) {
+      return;
+    }
+
+    // std::printf("writing image to buffer to %lx\n", baseAddress);
+
+    VkImageSubresourceRange subresourceRange{
+        .aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+        .baseMipLevel = 0,
+        .levelCount = image.getMipLevels(),
+        .baseArrayLayer = 0,
+        .layerCount = image.getArrayLayers(),
+    };
+
+    auto transferBuffer = vk::Buffer::Allocate(
+        vk::getDeviceLocalMemory(), info.totalSize,
+        VK_BUFFER_USAGE_TRANSFER_DST_BIT | VK_BUFFER_USAGE_TRANSFER_SRC_BIT);
+    auto tiledBuffer =
+        tag.getBuffer(baseAddress, info.totalSize, Access::Write);
+    auto &tiler = tag.getDevice()->tiler;
+
+    transitionImageLayout(
+        scheduler.getCommandBuffer(), image, VK_IMAGE_LAYOUT_GENERAL,
+        VK_IMAGE_LAYOUT_TRANSFER_SRC_OPTIMAL, subresourceRange);
+
+    for (unsigned mipLevel = 0; mipLevel < image.getMipLevels(); ++mipLevel) {
+      VkBufferImageCopy region = {
+          .bufferRowLength =
+              mipLevel > 0 ? 0 : std::max(info.pitch >> mipLevel, 1u),
+          .imageSubresource =
+              {
+                  .aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+                  .mipLevel = mipLevel,
+                  .baseArrayLayer = 0,
+                  .layerCount = image.getArrayLayers(),
+              },
+          .imageExtent =
+              {
+                  .width = std::max(image.getWidth() >> mipLevel, 1u),
+                  .height = std::max(image.getHeight() >> mipLevel, 1u),
+                  .depth = std::max(image.getDepth() >> mipLevel, 1u),
+              },
+      };
+
+      vkCmdCopyImageToBuffer(scheduler.getCommandBuffer(), image.getHandle(),
+                             VK_IMAGE_LAYOUT_TRANSFER_SRC_OPTIMAL,
+                             transferBuffer.getHandle(), 1, &region);
+
+      tiler.tile(scheduler, info, acquiredTileMode, transferBuffer.getAddress(),
+                 tiledBuffer.deviceAddress, mipLevel, 0,
+                 image.getArrayLayers());
+    }
+
+    transitionImageLayout(scheduler.getCommandBuffer(), image,
+                          VK_IMAGE_LAYOUT_TRANSFER_SRC_OPTIMAL,
+                          VK_IMAGE_LAYOUT_GENERAL, subresourceRange);
+    // scheduler.afterSubmit([transferBuffer = std::move(transferBuffer)] {});
+    scheduler.submit();
+    scheduler.wait();
+  }
+};
+
+struct CachedImageView : Cache::Entry {
+  vk::ImageView view;
+};
+
+ImageKey ImageKey::createFrom(const gnm::TBuffer &buffer) {
+  return {
+      .address = buffer.address(),
+      .type = buffer.type,
+      .dfmt = buffer.dfmt,
+      .nfmt = buffer.nfmt,
+      .tileMode = getDefaultTileModes()[buffer.tiling_idx],
+      .offset = {},
+      .extent =
+          {
+              .width = buffer.width + 1u,
+              .height = buffer.height + 1u,
+              .depth = buffer.depth + 1u,
+          },
+      .pitch = buffer.pitch + 1u,
+      .baseMipLevel = static_cast<std::uint32_t>(buffer.base_level),
+      .mipCount = buffer.last_level - buffer.base_level + 1u,
+      .baseArrayLayer = static_cast<std::uint32_t>(buffer.base_array),
+      .arrayLayerCount = buffer.last_array - buffer.base_array + 1u,
+      .pow2pad = buffer.pow2pad != 0,
+  };
+}
+
+ImageViewKey ImageViewKey::createFrom(const gnm::TBuffer &buffer) {
+  ImageViewKey result{};
+  static_cast<ImageKey &>(result) = ImageKey::createFrom(buffer);
+  result.R = buffer.dst_sel_x;
+  result.G = buffer.dst_sel_y;
+  result.B = buffer.dst_sel_z;
+  result.A = buffer.dst_sel_w;
+  return result;
+}
+
+SamplerKey SamplerKey::createFrom(const gnm::SSampler &sampler) {
+  float lodBias = ((std::int16_t(sampler.lod_bias) << 2) >> 2) / float(256.f);
+  // FIXME: lodBias can be scaled by gnm::TBuffer
+
+  return {
+      .magFilter = toVkFilter(sampler.xy_mag_filter),
+      .minFilter = toVkFilter(sampler.xy_min_filter),
+      .mipmapMode = toVkSamplerMipmapMode(sampler.mip_filter),
+      .addressModeU = toVkSamplerAddressMode(sampler.clamp_x),
+      .addressModeV = toVkSamplerAddressMode(sampler.clamp_y),
+      .addressModeW = toVkSamplerAddressMode(sampler.clamp_z),
+      .mipLodBias = lodBias,
+      .maxAnisotropy = 0, // max_aniso_ratio
+      .compareOp = toVkCompareOp(sampler.depth_compare_func),
+      .minLod = static_cast<float>(sampler.min_lod),
+      .maxLod = static_cast<float>(sampler.max_lod),
+      .borderColor = toVkBorderColor(sampler.border_color_type),
+      .anisotropyEnable = false,
+      .compareEnable = sampler.depth_compare_func != gnm::CompareFunc::Never,
+      .unnormalizedCoordinates = sampler.force_unorm_coords != 0,
+  };
+}
+
+Cache::Shader Cache::Tag::getShader(const ShaderKey &key,
+                                    const ShaderKey *dependedKey) {
+  auto stage = shaderStageToVk(key.stage);
+  if (auto result = findShader(key, dependedKey)) {
+    auto cachedShader = static_cast<CachedShader *>(result.get());
+    mAcquiredResources.push_back(result);
+    return {cachedShader->handle, &cachedShader->info, stage};
+  }
+
+  auto vmId = mParent->mVmIm;
+
+  std::optional<shader::gcn::ConvertedShader> converted;
+
+  {
+    shader::gcn::Context context;
+    auto deserialized = shader::gcn::deserialize(
+        context, key.env, mParent->mDevice->gcnSemantic, key.address,
+        [vmId](std::uint64_t address) -> std::uint32_t {
+          return *RemoteMemory{vmId}.getPointer<std::uint32_t>(address);
+        });
+
+    // deserialized.print(std::cerr, context.ns);
+
+    converted = shader::gcn::convertToSpv(
+        context, deserialized, mParent->mDevice->gcnSemanticModuleInfo,
+        key.stage, key.env);
+    if (!converted) {
+      return {};
+    }
+
+    converted->info.resources.dump();
+    if (!shader::spv::validate(converted->spv)) {
+      shader::spv::dump(converted->spv, true);
+      return {};
+    }
+
+    std::fprintf(stderr, "%s", shader::glsl::decompile(converted->spv).c_str());
+    // if (auto opt = shader::spv::optimize(converted->spv)) {
+    //   converted->spv = std::move(*opt);
+    //   std::fprintf(stderr, "opt: %s",
+    //              shader::glsl::decompile(converted->spv).c_str());
+    // } else {
+    //   std::printf("optimization failed\n");
+    // }
+  }
+
+  VkShaderCreateInfoEXT createInfo{
+      .sType = VK_STRUCTURE_TYPE_SHADER_CREATE_INFO_EXT,
+      .flags = 0,
+      .stage = stage,
+      .codeType = VK_SHADER_CODE_TYPE_SPIRV_EXT,
+      .codeSize = converted->spv.size() * sizeof(converted->spv[0]),
+      .pCode = converted->spv.data(),
+      .pName = "main",
+      .setLayoutCount = static_cast<uint32_t>(
+          stage == VK_SHADER_STAGE_COMPUTE_BIT ? 1
+                                               : Cache::kGraphicsStages.size()),
+      .pSetLayouts = (stage == VK_SHADER_STAGE_COMPUTE_BIT
+                          ? &mParent->mComputeDescriptorSetLayout
+                          : mParent->mGraphicsDescriptorSetLayouts.data())};
+
+  VkShaderEXT handle;
+  VK_VERIFY(vk::CreateShadersEXT(vk::context->device, 1, &createInfo,
+                                 vk::context->allocator, &handle));
+
+  auto result = std::make_shared<CachedShader>();
+  result->baseAddress = key.address;
+  result->tagId = getReadId();
+  result->handle = handle;
+  result->info = std::move(converted->info);
+  readMemory(&result->magic, key.address, sizeof(result->magic));
+
+  for (auto entry : converted->info.memoryMap) {
+    auto address = entry.beginAddress;
+    auto size = entry.endAddress - entry.beginAddress;
+    auto &inserted = result->usedMemory.emplace_back();
+    inserted.first = address;
+    inserted.second.resize(size);
+    readMemory(inserted.second.data(), address, size);
+  }
+
+  mParent->mShaders.map(key.address, key.address + 8, result);
+  mAcquiredResources.push_back(result);
+  return {handle, &result->info, stage};
+}
+
+std::shared_ptr<Cache::Entry>
+Cache::Tag::findShader(const ShaderKey &key, const ShaderKey *dependedKey) {
+  auto data = RemoteMemory{mParent->mVmIm}.getPointer(key.address);
+
+  auto cacheIt = mParent->mShaders.queryArea(key.address);
+
+  if (cacheIt == mParent->mShaders.end() ||
+      cacheIt->get()->baseAddress != key.address) {
+    return {};
+  }
+
+  std::uint64_t magic;
+  readMemory(&magic, key.address, sizeof(magic));
+
+  auto cachedShader = static_cast<CachedShader *>(cacheIt->get());
+  if (cachedShader->magic != magic) {
+    return {};
+  }
+
+  for (auto [index, sgpr] : cachedShader->info.requiredSgprs) {
+    if (index >= key.env.userSgprs.size() || key.env.userSgprs[index] != sgpr) {
+      return {};
+    }
+  }
+
+  for (auto &usedMemory : cachedShader->usedMemory) {
+    if (compareMemory(usedMemory.second.data(), usedMemory.first,
+                      usedMemory.second.size())) {
+      return {};
+    }
+  }
+
+  return cacheIt.get();
+}
+
+Cache::Sampler Cache::Tag::getSampler(const SamplerKey &key) {
+  auto [it, inserted] = getCache()->mSamplers.emplace(key, VK_NULL_HANDLE);
+
+  if (inserted) {
+    VkSamplerCreateInfo info{
+        .sType = VK_STRUCTURE_TYPE_SAMPLER_CREATE_INFO,
+        .magFilter = key.magFilter,
+        .minFilter = key.minFilter,
+        .mipmapMode = key.mipmapMode,
+        .addressModeU = key.addressModeU,
+        .addressModeV = key.addressModeV,
+        .addressModeW = key.addressModeW,
+        .mipLodBias = key.mipLodBias,
+        .anisotropyEnable = key.anisotropyEnable,
+        .maxAnisotropy = key.maxAnisotropy,
+        .compareEnable = key.compareEnable,
+        .compareOp = key.compareOp,
+        .minLod = key.minLod,
+        .maxLod = key.maxLod,
+        .borderColor = key.borderColor,
+        .unnormalizedCoordinates = key.unnormalizedCoordinates,
+    };
+
+    VK_VERIFY(vkCreateSampler(vk::context->device, &info,
+                              vk::context->allocator, &it->second));
+  }
+
+  return {it->second};
+}
+
+Cache::Buffer Cache::Tag::getBuffer(std::uint64_t address, std::uint64_t size,
+                                    Access access) {
+  auto buffer = vk::Buffer::Allocate(
+      vk::getHostVisibleMemory(), size,
+      VK_BUFFER_USAGE_TRANSFER_SRC_BIT | VK_BUFFER_USAGE_TRANSFER_DST_BIT |
+          VK_BUFFER_USAGE_UNIFORM_TEXEL_BUFFER_BIT |
+          VK_BUFFER_USAGE_STORAGE_TEXEL_BUFFER_BIT |
+          VK_BUFFER_USAGE_UNIFORM_BUFFER_BIT |
+          VK_BUFFER_USAGE_STORAGE_BUFFER_BIT |
+          VK_BUFFER_USAGE_INDEX_BUFFER_BIT);
+
+  if ((access & Access::Read) != Access::None) {
+    readMemory(buffer.getData(), address, size);
+  }
+
+  auto cached = std::make_shared<CachedBuffer>();
+  cached->baseAddress = address;
+  cached->acquiredAccess = access;
+  cached->buffer = std::move(buffer);
+  cached->size = size;
+  cached->tagId =
+      (access & Access::Write) != Access::Write ? getWriteId() : getReadId();
+
+  mAcquiredResources.push_back(cached);
+
+  return {
+      .handle = cached->buffer.getHandle(),
+      .offset = 0,
+      .deviceAddress = cached->buffer.getAddress(),
+      .tagId = getReadId(),
+      .data = cached->buffer.getData(),
+  };
+}
+
+Cache::Buffer Cache::Tag::getInternalBuffer(std::uint64_t size) {
+  auto buffer = vk::Buffer::Allocate(
+      vk::getHostVisibleMemory(), size,
+      VK_BUFFER_USAGE_TRANSFER_SRC_BIT | VK_BUFFER_USAGE_TRANSFER_DST_BIT |
+          VK_BUFFER_USAGE_UNIFORM_TEXEL_BUFFER_BIT |
+          VK_BUFFER_USAGE_STORAGE_TEXEL_BUFFER_BIT |
+          VK_BUFFER_USAGE_UNIFORM_BUFFER_BIT |
+          VK_BUFFER_USAGE_STORAGE_BUFFER_BIT |
+          VK_BUFFER_USAGE_INDEX_BUFFER_BIT);
+
+  auto cached = std::make_shared<CachedBuffer>();
+  cached->baseAddress = 0;
+  cached->acquiredAccess = Access::None;
+  cached->buffer = std::move(buffer);
+  cached->size = size;
+  cached->tagId = getReadId();
+
+  mAcquiredResources.push_back(cached);
+
+  return {
+      .handle = cached->buffer.getHandle(),
+      .offset = 0,
+      .deviceAddress = cached->buffer.getAddress(),
+      .tagId = getReadId(),
+      .data = cached->buffer.getData(),
+  };
+}
+
+Cache::IndexBuffer Cache::Tag::getIndexBuffer(std::uint64_t address,
+                                              std::uint32_t indexCount,
+                                              gnm::PrimitiveType primType,
+                                              gnm::IndexType indexType) {
+  unsigned origIndexSize = indexType == gnm::IndexType::Int16 ? 2 : 4;
+  std::uint32_t size = indexCount * origIndexSize;
+
+  if (address == 0) {
+    if (isPrimRequiresConversion(primType)) {
+      getPrimConverterFn(primType, &indexCount);
+      primType = gnm::PrimitiveType::TriList;
+    }
+
+    return {
+        .handle = VK_NULL_HANDLE,
+        .offset = 0,
+        .indexCount = indexCount,
+        .primType = primType,
+        .indexType = indexType,
+    };
+  }
+
+  auto indexBuffer = getBuffer(address, size, Access::Read);
+
+  if (!isPrimRequiresConversion(primType)) {
+    return {
+        .handle = indexBuffer.handle,
+        .offset = indexBuffer.offset,
+        .indexCount = indexCount,
+        .primType = primType,
+        .indexType = indexType,
+    };
+  }
+
+  auto it = mParent->mIndexBuffers.queryArea(address);
+  if (it != mParent->mIndexBuffers.end() && it.beginAddress() == address &&
+      it.endAddress() == address + size) {
+
+    auto &resource = it.get();
+    auto indexBuffer = static_cast<CachedIndexBuffer *>(resource.get());
+    if (indexBuffer->size == size && resource->tagId == indexBuffer->tagId) {
+      mAcquiredResources.push_back(resource);
+      return {
+          .handle = indexBuffer->buffer.getHandle(),
+          .offset = 0,
+          .indexCount = indexCount,
+          .primType = indexBuffer->primType,
+          .indexType = indexBuffer->indexType,
+      };
+    }
+  }
+
+  auto converterFn = getPrimConverterFn(primType, &indexCount);
+  primType = gnm::PrimitiveType::TriList;
+
+  if (indexCount >= 0x10000) {
+    indexType = gnm::IndexType::Int32;
+  }
+
+  unsigned indexSize = indexType == gnm::IndexType::Int16 ? 2 : 4;
+  auto indexBufferSize = indexSize * indexCount;
+
+  auto convertedIndexBuffer = vk::Buffer::Allocate(
+      vk::getHostVisibleMemory(), indexBufferSize,
+      VK_BUFFER_USAGE_TRANSFER_DST_BIT | VK_BUFFER_USAGE_INDEX_BUFFER_BIT);
+
+  void *data = convertedIndexBuffer.getData();
+
+  auto indicies = indexBuffer.data + indexBuffer.offset;
+
+  if (indexSize == 2) {
+    for (std::uint32_t i = 0; i < indexCount; ++i) {
+      auto [dstIndex, srcIndex] = converterFn(i);
+      std::uint32_t origIndex = origIndexSize == 2
+                                    ? ((std::uint16_t *)indicies)[srcIndex]
+                                    : ((std::uint32_t *)indicies)[srcIndex];
+      ((std::uint16_t *)data)[dstIndex] = origIndex;
+    }
+
+  } else {
+    for (std::uint32_t i = 0; i < indexCount; ++i) {
+      auto [dstIndex, srcIndex] = converterFn(i);
+      std::uint32_t origIndex = origIndexSize == 2
+                                    ? ((std::uint16_t *)indicies)[srcIndex]
+                                    : ((std::uint32_t *)indicies)[srcIndex];
+      ((std::uint32_t *)data)[dstIndex] = origIndex;
+    }
+  }
+
+  auto cached = std::make_shared<CachedIndexBuffer>();
+  cached->baseAddress = address;
+  cached->acquiredAccess = Access::Read;
+  cached->buffer = std::move(convertedIndexBuffer);
+  cached->size = size;
+  cached->tagId = indexBuffer.tagId;
+  cached->primType = primType;
+  cached->indexType = indexType;
+
+  mParent->mIndexBuffers.map(address, address + size, cached);
+  mAcquiredResources.push_back(cached);
+
+  return {
+      .handle = cached->buffer.getHandle(),
+      .offset = 0,
+      .indexCount = indexCount,
+      .primType = cached->primType,
+      .indexType = cached->indexType,
+  };
+}
+
+Cache::Image Cache::Tag::getImage(const ImageKey &key, Access access) {
+  auto surfaceInfo = computeSurfaceInfo(
+      key.tileMode, key.type, key.dfmt, key.offset.x + key.extent.width,
+      key.offset.y + key.extent.height, key.offset.z + key.extent.depth,
+      key.pitch, key.baseArrayLayer, key.arrayLayerCount, key.baseMipLevel,
+      key.mipCount, key.pow2pad);
+
+  VkImageUsageFlags usage = VK_IMAGE_USAGE_TRANSFER_DST_BIT |
+              VK_IMAGE_USAGE_TRANSFER_SRC_BIT |
+              VK_IMAGE_USAGE_SAMPLED_BIT // | VK_IMAGE_USAGE_STORAGE_BIT
+      ;
+
+  bool isCompressed =
+      key.dfmt == gnm::kDataFormatBc1 || key.dfmt == gnm::kDataFormatBc2 ||
+      key.dfmt == gnm::kDataFormatBc3 || key.dfmt == gnm::kDataFormatBc4 ||
+      key.dfmt == gnm::kDataFormatBc5 || key.dfmt == gnm::kDataFormatBc6 ||
+      key.dfmt == gnm::kDataFormatBc7 || key.dfmt == gnm::kDataFormatGB_GR ||
+      key.dfmt == gnm::kDataFormatBG_RG;
+
+  if (!isCompressed) {
+    usage |= VK_IMAGE_USAGE_COLOR_ATTACHMENT_BIT;
+  }
+
+  auto image = vk::Image::Allocate(
+      vk::getDeviceLocalMemory(), gnm::toVkImageType(key.type), key.extent,
+      key.mipCount, key.arrayLayerCount, gnm::toVkFormat(key.dfmt, key.nfmt),
+      VK_SAMPLE_COUNT_1_BIT, usage);
+
+  if ((access & Access::Read) != Access::None) {
+    auto tiledBuffer =
+        getBuffer(key.address, surfaceInfo.totalSize, Access::Read);
+
+    auto &tiler = mParent->mDevice->tiler;
+    auto detiledBuffer =
+        vk::Buffer::Allocate(vk::getDeviceLocalMemory(), surfaceInfo.totalSize,
+                             VK_BUFFER_USAGE_2_TRANSFER_DST_BIT_KHR |
+                                 VK_BUFFER_USAGE_2_TRANSFER_SRC_BIT_KHR);
+    VkImageSubresourceRange subresourceRange{
+        .aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+        .baseMipLevel = key.baseMipLevel,
+        .levelCount = key.mipCount,
+        .baseArrayLayer = key.baseArrayLayer,
+        .layerCount = key.arrayLayerCount,
+    };
+
+    std::vector<VkBufferImageCopy> regions;
+    regions.reserve(key.mipCount);
+
+    for (unsigned mipLevel = key.baseMipLevel;
+         mipLevel < key.baseMipLevel + key.mipCount; ++mipLevel) {
+      tiler.detile(*mScheduler, surfaceInfo, key.tileMode,
+                   tiledBuffer.deviceAddress, detiledBuffer.getAddress(),
+                   mipLevel, key.baseArrayLayer, key.arrayLayerCount);
+      regions.push_back({
+          .bufferRowLength =
+              mipLevel > 0 ? 0 : std::max(key.pitch >> mipLevel, 1u),
+          .imageSubresource =
+              {
+                  .aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+                  .mipLevel = mipLevel,
+                  .baseArrayLayer = key.baseArrayLayer,
+                  .layerCount = key.arrayLayerCount,
+              },
+          .imageExtent =
+              {
+                  .width = std::max(key.extent.width >> mipLevel, 1u),
+                  .height = std::max(key.extent.height >> mipLevel, 1u),
+                  .depth = std::max(key.extent.depth >> mipLevel, 1u),
+              },
+      });
+    }
+
+    transitionImageLayout(
+        mScheduler->getCommandBuffer(), image, VK_IMAGE_LAYOUT_UNDEFINED,
+        VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL, subresourceRange);
+
+    vkCmdCopyBufferToImage(mScheduler->getCommandBuffer(),
+                           detiledBuffer.getHandle(), image.getHandle(),
+                           VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL, regions.size(),
+                           regions.data());
+
+    transitionImageLayout(mScheduler->getCommandBuffer(), image,
+                          VK_IMAGE_LAYOUT_UNDEFINED, VK_IMAGE_LAYOUT_GENERAL,
+                          subresourceRange);
+
+    mScheduler->afterSubmit([detiledBuffer = std::move(detiledBuffer)] {});
+  }
+
+  auto cached = std::make_shared<CachedImage>();
+  cached->image = std::move(image);
+  cached->info = std::move(surfaceInfo);
+  cached->baseAddress = key.address;
+  cached->acquiredAccess = access;
+  mAcquiredResources.push_back(cached);
+
+  return {.handle = cached->image.getHandle()};
+}
+
+Cache::ImageView Cache::Tag::getImageView(const ImageViewKey &key,
+                                          Access access) {
+  auto image = getImage(key, access);
+  auto result = vk::ImageView(gnm::toVkImageViewType(key.type), image.handle,
+                              gnm::toVkFormat(key.dfmt, key.nfmt),
+                              {
+                                  .r = gnm::toVkComponentSwizzle(key.R),
+                                  .g = gnm::toVkComponentSwizzle(key.G),
+                                  .b = gnm::toVkComponentSwizzle(key.B),
+                                  .a = gnm::toVkComponentSwizzle(key.A),
+                              },
+                              {
+                                  .aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+                                  .baseMipLevel = key.baseMipLevel,
+                                  .levelCount = key.mipCount,
+                                  .baseArrayLayer = key.baseArrayLayer,
+                                  .layerCount = key.arrayLayerCount,
+                              });
+  auto cached = std::make_shared<CachedImageView>();
+  cached->baseAddress = key.address;
+  cached->acquiredAccess = access;
+  cached->view = std::move(result);
+
+  mAcquiredResources.push_back(cached);
+
+  return {
+      .handle = cached->view.getHandle(),
+      .imageHandle = image.handle,
+  };
+}
+
+void Cache::Tag::readMemory(void *target, std::uint64_t address,
+                            std::uint64_t size) {
+  mParent->flush(*mScheduler, address, size);
+  auto memoryPtr = RemoteMemory{mParent->mVmIm}.getPointer(address);
+  std::memcpy(target, memoryPtr, size);
+}
+
+void Cache::Tag::writeMemory(const void *source, std::uint64_t address,
+                             std::uint64_t size) {
+  mParent->flush(*mScheduler, address, size);
+  auto memoryPtr = RemoteMemory{mParent->mVmIm}.getPointer(address);
+  std::memcpy(memoryPtr, source, size);
+}
+
+int Cache::Tag::compareMemory(const void *source, std::uint64_t address,
+                              std::uint64_t size) {
+  mParent->flush(*mScheduler, address, size);
+  auto memoryPtr = RemoteMemory{mParent->mVmIm}.getPointer(address);
+  return std::memcmp(memoryPtr, source, size);
+}
+
+void Cache::Tag::release() {
+  for (auto ds : mGraphicsDescriptorSets) {
+    getCache()->destroyGraphicsDescriptorSets(ds);
+  }
+
+  for (auto ds : mComputeDescriptorSets) {
+    getCache()->destroyComputeDescriptorSet(ds);
+  }
+
+  mGraphicsDescriptorSets.clear();
+  mComputeDescriptorSets.clear();
+
+  if (mAcquiredResources.empty()) {
+    return;
+  }
+
+  while (!mAcquiredResources.empty()) {
+    auto resource = std::move(mAcquiredResources.back());
+    mAcquiredResources.pop_back();
+    resource->flush(*this, *mScheduler, 0, ~static_cast<std::uint64_t>(0));
+  }
+
+  mScheduler->submit();
+  mScheduler->then([mAcquiredResources = std::move(mAcquiredResources)] {});
+}
+
+Cache::Tag Cache::createTag(Scheduler &scheduler) {
+  auto tag = Tag{this, scheduler, mNextTagId};
+  mNextTagId = static_cast<TagId>(static_cast<std::uint64_t>(mNextTagId) + 2);
+  return tag;
+}
+
+Cache::Cache(Device *device, int vmId) : mDevice(device), mVmIm(vmId) {
+  mMemoryTableBuffer =
+      vk::Buffer::Allocate(vk::getHostVisibleMemory(), 0x10000);
+  mGdsBuffer = vk::Buffer::Allocate(vk::getHostVisibleMemory(), 0x40000);
+
+  {
+    VkDescriptorSetLayoutBinding bindings[kGraphicsStages.size()]
+                                         [kDescriptorBindings.size()];
+
+    for (std::size_t index = 0; auto stage : kGraphicsStages) {
+      fillStageBindings(bindings[index], stage, index);
+      ++index;
+    }
+
+    for (std::size_t index = 0; auto &layout : mGraphicsDescriptorSetLayouts) {
+      VkDescriptorSetLayoutCreateInfo descLayoutInfo{
+          .sType = VK_STRUCTURE_TYPE_DESCRIPTOR_SET_LAYOUT_CREATE_INFO,
+          .bindingCount = static_cast<uint32_t>(
+              index == 0 ? kDescriptorBindings.size() : 1),
+          .pBindings = bindings[index],
+      };
+
+      ++index;
+
+      VK_VERIFY(vkCreateDescriptorSetLayout(vk::context->device,
+                                            &descLayoutInfo,
+                                            vk::context->allocator, &layout));
+    }
+  }
+
+  {
+    VkDescriptorSetLayoutBinding bindings[kDescriptorBindings.size()];
+
+    fillStageBindings(bindings, VK_SHADER_STAGE_COMPUTE_BIT, 0);
+
+    VkDescriptorSetLayoutCreateInfo layoutInfo{
+        .sType = VK_STRUCTURE_TYPE_DESCRIPTOR_SET_LAYOUT_CREATE_INFO,
+        .bindingCount = kDescriptorBindings.size(),
+        .pBindings = bindings,
+    };
+
+    VK_VERIFY(vkCreateDescriptorSetLayout(vk::context->device, &layoutInfo,
+                                          vk::context->allocator,
+                                          &mComputeDescriptorSetLayout));
+  }
+
+  {
+    VkPipelineLayoutCreateInfo pipelineLayoutInfo{
+        .sType = VK_STRUCTURE_TYPE_PIPELINE_LAYOUT_CREATE_INFO,
+        .setLayoutCount =
+            static_cast<uint32_t>(mGraphicsDescriptorSetLayouts.size()),
+        .pSetLayouts = mGraphicsDescriptorSetLayouts.data(),
+    };
+
+    VK_VERIFY(vkCreatePipelineLayout(vk::context->device, &pipelineLayoutInfo,
+                                     vk::context->allocator,
+                                     &mGraphicsPipelineLayout));
+  }
+
+  {
+    VkPipelineLayoutCreateInfo pipelineLayoutInfo{
+        .sType = VK_STRUCTURE_TYPE_PIPELINE_LAYOUT_CREATE_INFO,
+        .setLayoutCount = 1,
+        .pSetLayouts = &mComputeDescriptorSetLayout,
+    };
+
+    VK_VERIFY(vkCreatePipelineLayout(vk::context->device, &pipelineLayoutInfo,
+                                     vk::context->allocator,
+                                     &mComputePipelineLayout));
+  }
+}
+Cache::~Cache() {}
+
+void Cache::addFrameBuffer(Scheduler &scheduler, int index,
+                           std::uint64_t address, std::uint32_t width,
+                           std::uint32_t height, int format,
+                           TileMode tileMode) {}
+
+void Cache::removeFrameBuffer(Scheduler &scheduler, int index) {}
+
+VkImage Cache::getFrameBuffer(Scheduler &scheduler, int index) { return {}; }
+
+static void
+flushCacheImpl(Scheduler &scheduler, Cache::Tag &tag,
+               rx::MemoryTableWithPayload<std::shared_ptr<Cache::Entry>> &table,
+               std::uint64_t beginAddress, std::uint64_t endAddress) {
+  auto beginIt = table.lowerBound(beginAddress);
+  auto endIt = table.lowerBound(endAddress);
+
+  while (beginIt != endIt) {
+    auto cached = beginIt->get();
+    cached->flush(tag, scheduler, beginAddress, endAddress);
+    ++beginIt;
+  }
+}
+
+static void invalidateCacheImpl(
+    Scheduler &scheduler,
+    rx::MemoryTableWithPayload<std::shared_ptr<Cache::Entry>> &table,
+    std::uint64_t beginAddress, std::uint64_t endAddress) {
+  table.unmap(beginAddress, endAddress);
+}
+
+void Cache::invalidate(Scheduler &scheduler, std::uint64_t address,
+                       std::uint64_t size) {
+  auto beginAddress = address;
+  auto endAddress = address + size;
+
+  rx::dieIf(beginAddress >= endAddress,
+            "wrong flush range: address %lx, size %lx", address, size);
+
+  invalidateCacheImpl(scheduler, mBuffers, beginAddress, endAddress);
+  invalidateCacheImpl(scheduler, mImages, beginAddress, endAddress);
+
+  invalidateCacheImpl(scheduler, mSyncTable, beginAddress, endAddress);
+}
+
+void Cache::flush(Scheduler &scheduler, std::uint64_t address,
+                  std::uint64_t size) {
+  auto beginAddress = address;
+  auto endAddress = address + size;
+
+  rx::dieIf(beginAddress >= endAddress,
+            "wrong flush range: address %lx, size %lx", address, size);
+
+  auto tag = createTag(scheduler);
+  flushCacheImpl(scheduler, tag, mBuffers, beginAddress, endAddress);
+  flushCacheImpl(scheduler, tag, mIndexBuffers, beginAddress, endAddress);
+  flushCacheImpl(scheduler, tag, mImages, beginAddress, endAddress);
+  // flushCacheImpl(scheduler, tag, mShaders, beginAddress, endAddress);
+
+  flushCacheImpl(scheduler, tag, mSyncTable, beginAddress, endAddress);
+}
+
+std::array<VkDescriptorSet, Cache::kGraphicsStages.size()>
+Cache::createGraphicsDescriptorSets() {
+  std::lock_guard lock(mDescriptorMtx);
+
+  if (!mGraphicsDescriptorSets.empty()) {
+    auto result = mGraphicsDescriptorSets.back();
+    mGraphicsDescriptorSets.pop_back();
+    return result;
+  }
+
+  if (mGraphicsDescriptorPool == nullptr) {
+    VkDescriptorPoolSize poolSizes[]{
+        {
+            .type = VK_DESCRIPTOR_TYPE_UNIFORM_BUFFER,
+            .descriptorCount = 1,
+        },
+        {
+            .type = VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE,
+            .descriptorCount = 16 * 3,
+        },
+        {
+            .type = VK_DESCRIPTOR_TYPE_SAMPLER,
+            .descriptorCount = 16,
+        },
+        {
+            .type = VK_DESCRIPTOR_TYPE_STORAGE_IMAGE,
+            .descriptorCount = 16,
+        },
+    };
+
+    VkDescriptorPoolCreateInfo info{
+        .sType = VK_STRUCTURE_TYPE_DESCRIPTOR_POOL_CREATE_INFO,
+        .maxSets = Cache::kGraphicsStages.size() * 100,
+        .poolSizeCount = static_cast<uint32_t>(std::size(poolSizes)),
+        .pPoolSizes = poolSizes,
+    };
+
+    VK_VERIFY(vkCreateDescriptorPool(vk::context->device, &info,
+                                     vk::context->allocator,
+                                     &mGraphicsDescriptorPool));
+  }
+
+  VkDescriptorSetAllocateInfo info{
+      .sType = VK_STRUCTURE_TYPE_DESCRIPTOR_SET_ALLOCATE_INFO,
+      .descriptorPool = mGraphicsDescriptorPool,
+      .descriptorSetCount =
+          static_cast<uint32_t>(mGraphicsDescriptorSetLayouts.size()),
+      .pSetLayouts = mGraphicsDescriptorSetLayouts.data(),
+  };
+
+  std::array<VkDescriptorSet, Cache::kGraphicsStages.size()> result;
+  VK_VERIFY(
+      vkAllocateDescriptorSets(vk::context->device, &info, result.data()));
+  return result;
+}
+
+VkDescriptorSet Cache::createComputeDescriptorSet() {
+  std::lock_guard lock(mDescriptorMtx);
+
+  if (!mComputeDescriptorSets.empty()) {
+    auto result = mComputeDescriptorSets.back();
+    mComputeDescriptorSets.pop_back();
+    return result;
+  }
+
+  if (mComputeDescriptorPool == nullptr) {
+    VkDescriptorPoolSize poolSizes[]{
+        {
+            .type = VK_DESCRIPTOR_TYPE_UNIFORM_BUFFER,
+            .descriptorCount = 1,
+        },
+        {
+            .type = VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE,
+            .descriptorCount = 16 * 3,
+        },
+        {
+            .type = VK_DESCRIPTOR_TYPE_SAMPLER,
+            .descriptorCount = 16,
+        },
+        {
+            .type = VK_DESCRIPTOR_TYPE_STORAGE_IMAGE,
+            .descriptorCount = 16,
+        },
+    };
+
+    VkDescriptorPoolCreateInfo info{
+        .sType = VK_STRUCTURE_TYPE_DESCRIPTOR_POOL_CREATE_INFO,
+        .maxSets = 8,
+        .poolSizeCount = static_cast<uint32_t>(std::size(poolSizes)),
+        .pPoolSizes = poolSizes,
+    };
+
+    VK_VERIFY(vkCreateDescriptorPool(vk::context->device, &info,
+                                     vk::context->allocator,
+                                     &mComputeDescriptorPool));
+  }
+
+  VkDescriptorSetAllocateInfo info{
+      .sType = VK_STRUCTURE_TYPE_DESCRIPTOR_SET_ALLOCATE_INFO,
+      .descriptorPool = mComputeDescriptorPool,
+      .descriptorSetCount = 1,
+      .pSetLayouts = &mComputeDescriptorSetLayout,
+  };
+
+  VkDescriptorSet result;
+  VK_VERIFY(vkAllocateDescriptorSets(vk::context->device, &info, &result));
+  return result;
+}
diff --git a/rpcsx-gpu2/Cache.hpp b/rpcsx-gpu2/Cache.hpp
new file mode 100644
index 00000000..4ae2c46e
--- /dev/null
+++ b/rpcsx-gpu2/Cache.hpp
@@ -0,0 +1,333 @@
+#pragma once
+
+#include "Pipe.hpp"
+#include "amdgpu/tiler.hpp"
+#include "gnm/constants.hpp"
+#include "rx/die.hpp"
+#include "shader/Access.hpp"
+#include "shader/GcnConverter.hpp"
+#include <algorithm>
+#include <memory>
+#include <mutex>
+#include <rx/MemoryTable.hpp>
+#include <shader/gcn.hpp>
+#include <vulkan/vulkan_core.h>
+
+namespace amdgpu {
+using Access = shader::Access;
+
+struct ShaderKey {
+  std::uint64_t address;
+  shader::gcn::Stage stage;
+  shader::gcn::Environment env;
+};
+
+struct ImageKey {
+  std::uint64_t address;
+  gnm::TextureType type;
+  gnm::DataFormat dfmt;
+  gnm::NumericFormat nfmt;
+  TileMode tileMode = {};
+  VkOffset3D offset = {};
+  VkExtent3D extent = {1, 1, 1};
+  std::uint32_t pitch = 1;
+  unsigned baseMipLevel = 0;
+  unsigned mipCount = 1;
+  unsigned baseArrayLayer = 0;
+  unsigned arrayLayerCount = 1;
+  bool pow2pad = false;
+
+  static ImageKey createFrom(const gnm::TBuffer &tbuffer);
+};
+
+struct ImageViewKey : ImageKey {
+  gnm::Swizzle R = gnm::Swizzle::R;
+  gnm::Swizzle G = gnm::Swizzle::G;
+  gnm::Swizzle B = gnm::Swizzle::B;
+  gnm::Swizzle A = gnm::Swizzle::A;
+
+  static ImageViewKey createFrom(const gnm::TBuffer &tbuffer);
+};
+
+struct SamplerKey {
+  VkFilter magFilter;
+  VkFilter minFilter;
+  VkSamplerMipmapMode mipmapMode;
+  VkSamplerAddressMode addressModeU;
+  VkSamplerAddressMode addressModeV;
+  VkSamplerAddressMode addressModeW;
+  float mipLodBias;
+  float maxAnisotropy;
+  VkCompareOp compareOp;
+  float minLod;
+  float maxLod;
+  VkBorderColor borderColor;
+  bool anisotropyEnable;
+  bool compareEnable;
+  bool unnormalizedCoordinates;
+
+  static SamplerKey createFrom(const gnm::SSampler &sampler);
+
+  auto operator<=>(const SamplerKey &other) const = default;
+};
+
+struct Cache {
+  static constexpr std::array kGraphicsStages = {
+      VK_SHADER_STAGE_VERTEX_BIT,
+      VK_SHADER_STAGE_GEOMETRY_BIT,
+      VK_SHADER_STAGE_FRAGMENT_BIT,
+      VK_SHADER_STAGE_TESSELLATION_CONTROL_BIT,
+      VK_SHADER_STAGE_TESSELLATION_EVALUATION_BIT,
+  };
+
+  static constexpr std::array kDescriptorBindings = {
+      VK_DESCRIPTOR_TYPE_UNIFORM_BUFFER,
+      VK_DESCRIPTOR_TYPE_SAMPLER,
+      VkDescriptorType(VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE + 1 * 1000),
+      VkDescriptorType(VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE + 2 * 1000),
+      VkDescriptorType(VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE + 3 * 1000),
+      VK_DESCRIPTOR_TYPE_STORAGE_IMAGE,
+  };
+
+  static constexpr int getStageIndex(VkShaderStageFlagBits stage) {
+    auto it = std::find(kGraphicsStages.begin(), kGraphicsStages.end(), stage);
+
+    if (it == kGraphicsStages.end()) {
+      return -1;
+    }
+
+    return it - kGraphicsStages.begin();
+  }
+
+  static constexpr int getDescriptorBinding(VkDescriptorType type, int dim = 0) {
+    auto it =
+        std::find(kDescriptorBindings.begin(), kDescriptorBindings.end(), type + dim * 1000);
+
+    if (it == kDescriptorBindings.end()) {
+      return -1;
+    }
+
+    return it - kDescriptorBindings.begin();
+  }
+
+  enum class TagId : std::uint64_t {};
+  struct Entry;
+
+  int vmId = -1;
+
+  struct Shader {
+    VkShaderEXT handle;
+    shader::gcn::ShaderInfo *info;
+    VkShaderStageFlagBits stage;
+  };
+
+  struct Sampler {
+    VkSampler handle;
+  };
+
+  struct Buffer {
+    VkBuffer handle;
+    std::uint64_t offset;
+    std::uint64_t deviceAddress;
+    TagId tagId;
+    std::byte *data;
+  };
+
+  struct IndexBuffer {
+    VkBuffer handle;
+    std::uint64_t offset;
+    std::uint32_t indexCount;
+    gnm::PrimitiveType primType;
+    gnm::IndexType indexType;
+  };
+
+  struct Image {
+    VkImage handle;
+  };
+
+  struct ImageView {
+    VkImageView handle;
+    VkImage imageHandle;
+  };
+
+  class Tag {
+    Cache *mParent = nullptr;
+    Scheduler *mScheduler = nullptr;
+    TagId mTagId{};
+
+    std::vector<std::shared_ptr<Entry>> mAcquiredResources;
+    std::vector<std::array<VkDescriptorSet, kGraphicsStages.size()>>
+        mGraphicsDescriptorSets;
+
+    std::vector<VkDescriptorSet> mComputeDescriptorSets;
+
+  public:
+    Tag() = default;
+    Tag(Cache *parent, Scheduler &scheduler, TagId id)
+        : mParent(parent), mScheduler(&scheduler), mTagId(id) {}
+    Tag(const Tag &) = delete;
+    Tag(Tag &&other) { other.swap(*this); }
+    Tag &operator=(Tag &&other) {
+      other.swap(*this);
+      return *this;
+    }
+
+    void submitAndWait() {
+      mScheduler->submit();
+      mScheduler->wait();
+    }
+
+    ~Tag() { release(); }
+
+    TagId getReadId() const { return TagId{std::uint64_t(mTagId) - 1}; }
+    TagId getWriteId() const { return mTagId; }
+
+    void swap(Tag &other) {
+      std::swap(mParent, other.mParent);
+      std::swap(mScheduler, other.mScheduler);
+      std::swap(mTagId, other.mTagId);
+      std::swap(mAcquiredResources, other.mAcquiredResources);
+      std::swap(mGraphicsDescriptorSets, other.mGraphicsDescriptorSets);
+      std::swap(mComputeDescriptorSets, other.mComputeDescriptorSets);
+    }
+
+    Cache *getCache() const { return mParent; }
+    Device *getDevice() const { return mParent->mDevice; }
+    int getVmId() const { return mParent->mVmIm; }
+
+    Shader getShader(const ShaderKey &key,
+                     const ShaderKey *dependedKey = nullptr);
+    Sampler getSampler(const SamplerKey &key);
+    Buffer getBuffer(std::uint64_t address, std::uint64_t size, Access access);
+    Buffer getInternalBuffer(std::uint64_t size);
+    IndexBuffer getIndexBuffer(std::uint64_t address, std::uint32_t indexCount,
+                               gnm::PrimitiveType primType,
+                               gnm::IndexType indexType);
+    Image getImage(const ImageKey &key, Access access);
+    ImageView getImageView(const ImageViewKey &key, Access access);
+    void readMemory(void *target, std::uint64_t address, std::uint64_t size);
+    void writeMemory(const void *source, std::uint64_t address,
+                     std::uint64_t size);
+    int compareMemory(const void *source, std::uint64_t address,
+                      std::uint64_t size);
+    void release();
+
+    VkPipelineLayout getGraphicsPipelineLayout() const {
+      return getCache()->getGraphicsPipelineLayout();
+    }
+
+    VkPipelineLayout getComputePipelineLayout() const {
+      return getCache()->getComputePipelineLayout();
+    }
+
+    std::array<VkDescriptorSet, kGraphicsStages.size()>
+    createGraphicsDescriptorSets() {
+      auto result = getCache()->createGraphicsDescriptorSets();
+      mGraphicsDescriptorSets.push_back(result);
+      return result;
+    }
+
+    VkDescriptorSet createComputeDescriptorSet() {
+      auto result = getCache()->createComputeDescriptorSet();
+      mComputeDescriptorSets.push_back(result);
+      return result;
+    }
+
+    std::shared_ptr<Entry> findShader(const ShaderKey &key,
+                                      const ShaderKey *dependedKey = nullptr);
+  };
+
+  Cache(Device *device, int vmId);
+  ~Cache();
+  Tag createTag(Scheduler &scheduler);
+
+  vk::Buffer &getMemoryTableBuffer() { return mMemoryTableBuffer; }
+  vk::Buffer &getGdsBuffer() { return mGdsBuffer; }
+
+  void addFrameBuffer(Scheduler &scheduler, int index, std::uint64_t address,
+                      std::uint32_t width, std::uint32_t height, int format,
+                      TileMode tileMode);
+  void removeFrameBuffer(Scheduler &scheduler, int index);
+  VkImage getFrameBuffer(Scheduler &scheduler, int index);
+  void invalidate(Scheduler &scheduler, std::uint64_t address,
+                  std::uint64_t size);
+
+  void invalidate(Scheduler &scheduler) {
+    invalidate(scheduler, 0, ~static_cast<std::uint64_t>(0));
+  }
+
+  void flush(Scheduler &scheduler, std::uint64_t address, std::uint64_t size);
+  void flush(Scheduler &scheduler) {
+    flush(scheduler, 0, ~static_cast<std::uint64_t>(0));
+  }
+
+  const std::array<VkDescriptorSetLayout, kGraphicsStages.size()> &
+  getGraphicsDescriptorSetLayouts() const {
+    return mGraphicsDescriptorSetLayouts;
+  }
+
+  VkDescriptorSetLayout
+  getGraphicsDescriptorSetLayout(VkShaderStageFlagBits stage) const {
+    int index = getStageIndex(stage);
+    rx::dieIf(index < 0, "getGraphicsDescriptorSetLayout: unexpected stage");
+    return mGraphicsDescriptorSetLayouts[index];
+  }
+
+  VkDescriptorSetLayout getComputeDescriptorSetLayout() const {
+    return mComputeDescriptorSetLayout;
+  }
+  VkPipelineLayout getGraphicsPipelineLayout() const {
+    return mGraphicsPipelineLayout;
+  }
+
+  VkPipelineLayout getComputePipelineLayout() const {
+    return mComputePipelineLayout;
+  }
+
+  std::array<VkDescriptorSet, kGraphicsStages.size()>
+  createGraphicsDescriptorSets();
+  VkDescriptorSet createComputeDescriptorSet();
+
+  void destroyGraphicsDescriptorSets(
+      const std::array<VkDescriptorSet, kGraphicsStages.size()> &set) {
+    std::lock_guard lock(mDescriptorMtx);
+    mGraphicsDescriptorSets.push_back(set);
+  }
+
+  void destroyComputeDescriptorSet(VkDescriptorSet set) {
+    std::lock_guard lock(mDescriptorMtx);
+    mComputeDescriptorSets.push_back(set);
+  }
+
+private:
+  TagId getSyncTag(std::uint64_t address, std::uint64_t size, TagId currentTag);
+
+  Device *mDevice;
+  int mVmIm;
+  TagId mNextTagId{2};
+  vk::Buffer mMemoryTableBuffer;
+  vk::Buffer mGdsBuffer;
+
+  std::mutex mDescriptorMtx;
+  std::array<VkDescriptorSetLayout, kGraphicsStages.size()>
+      mGraphicsDescriptorSetLayouts{};
+  VkDescriptorSetLayout mComputeDescriptorSetLayout{};
+  VkPipelineLayout mGraphicsPipelineLayout{};
+  VkPipelineLayout mComputePipelineLayout{};
+  VkDescriptorPool mGraphicsDescriptorPool{};
+  VkDescriptorPool mComputeDescriptorPool{};
+  std::vector<std::array<VkDescriptorSet, kGraphicsStages.size()>>
+      mGraphicsDescriptorSets;
+  std::vector<VkDescriptorSet> mComputeDescriptorSets;
+  std::map<SamplerKey, VkSampler> mSamplers;
+
+  std::shared_ptr<Entry> mFrameBuffers[10];
+
+  rx::MemoryTableWithPayload<std::shared_ptr<Entry>> mBuffers;
+  rx::MemoryTableWithPayload<std::shared_ptr<Entry>> mIndexBuffers;
+  rx::MemoryTableWithPayload<std::shared_ptr<Entry>> mImages;
+  rx::MemoryTableWithPayload<std::shared_ptr<Entry>> mShaders;
+
+  rx::MemoryTableWithPayload<std::shared_ptr<Entry>> mSyncTable;
+};
+} // namespace amdgpu
diff --git a/rpcsx-gpu2/Device.cpp b/rpcsx-gpu2/Device.cpp
new file mode 100644
index 00000000..d82030a2
--- /dev/null
+++ b/rpcsx-gpu2/Device.cpp
@@ -0,0 +1,508 @@
+#include "Device.hpp"
+#include "Renderer.hpp"
+#include "amdgpu/tiler.hpp"
+#include "gnm/constants.hpp"
+#include "gnm/pm4.hpp"
+#include "rx/bits.hpp"
+#include "rx/die.hpp"
+#include "rx/mem.hpp"
+#include "shader/spv.hpp"
+#include "shaders/rdna-semantic-spirv.hpp"
+#include "vk.hpp"
+#include <fcntl.h>
+#include <sys/mman.h>
+
+using namespace amdgpu;
+
+Device::Device() {
+  if (!shader::spv::validate(g_rdna_semantic_spirv)) {
+    shader::spv::dump(g_rdna_semantic_spirv, true);
+    rx::die("builtin semantic validation failed");
+  }
+
+  if (auto sem = shader::spv::deserialize(
+          shaderSemanticContext, g_rdna_semantic_spirv,
+          shaderSemanticContext.getUnknownLocation())) {
+    auto shaderSemantic = *sem;
+    shader::gcn::canonicalizeSemantic(shaderSemanticContext, shaderSemantic);
+    shader::gcn::collectSemanticModuleInfo(gcnSemanticModuleInfo,
+                                           shaderSemantic);
+    gcnSemantic = shader::gcn::collectSemanticInfo(gcnSemanticModuleInfo);
+  } else {
+    rx::die("failed to deserialize builtin semantics\n");
+  }
+
+  for (int index = 0; auto &cache : caches) {
+    cache.vmId = index++;
+  }
+
+  for (auto &pipe : graphicsPipes) {
+    pipe.device = this;
+  }
+
+  // for (auto &pipe : computePipes) {
+  //   pipe.device = this;
+  // }
+}
+
+Device::~Device() {
+  for (auto fd : dmemFd) {
+    if (fd >= 0) {
+      ::close(fd);
+    }
+  }
+
+  for (auto &[pid, info] : processInfo) {
+    if (info.vmFd >= 0) {
+      ::close(info.vmFd);
+    }
+  }
+}
+
+void Device::mapProcess(std::int64_t pid, int vmId, const char *shmName) {
+  auto &process = processInfo[pid];
+  process.vmId = vmId;
+
+  auto memory = amdgpu::RemoteMemory{vmId};
+
+  std::string pidVmName = shmName;
+  pidVmName += '-';
+  pidVmName += std::to_string(pid);
+  int memoryFd = ::shm_open(pidVmName.c_str(), O_RDWR, S_IRUSR | S_IWUSR);
+  process.vmFd = memoryFd;
+
+  if (memoryFd < 0) {
+    std::printf("failed to process %x shared memory\n", (int)pid);
+    std::abort();
+  }
+
+  for (auto [startAddress, endAddress, slot] : process.vmTable) {
+    auto gpuProt = slot.prot >> 4;
+    if (gpuProt == 0) {
+      continue;
+    }
+
+    auto devOffset = slot.offset + startAddress - slot.baseAddress;
+    int mapFd = memoryFd;
+
+    if (slot.memoryType >= 0) {
+      mapFd = dmemFd[slot.memoryType];
+    }
+
+    auto mmapResult =
+        ::mmap(memory.getPointer(startAddress), endAddress - startAddress,
+               gpuProt, MAP_FIXED | MAP_SHARED, mapFd, devOffset);
+
+    if (mmapResult == MAP_FAILED) {
+      std::printf("failed to map process %x memory, address %lx-%lx, type %x\n",
+                  (int)pid, startAddress, endAddress, slot.memoryType);
+      std::abort();
+    }
+
+    handleProtectChange(vmId, startAddress, endAddress - startAddress,
+                        slot.prot);
+  }
+}
+
+void Device::unmapProcess(std::int64_t pid) {
+  auto &process = processInfo[pid];
+  auto startAddress = static_cast<std::uint64_t>(process.vmId) << 40;
+  auto size = static_cast<std::uint64_t>(1) << 40;
+  rx::mem::reserve(reinterpret_cast<void *>(startAddress), size);
+
+  ::close(process.vmFd);
+  process.vmFd = -1;
+  process.vmId = -1;
+}
+
+void Device::protectMemory(int pid, std::uint64_t address, std::uint64_t size,
+                           int prot) {
+  auto &process = processInfo[pid];
+
+  auto vmSlotIt = process.vmTable.queryArea(address);
+  if (vmSlotIt == process.vmTable.end()) {
+    std::abort();
+  }
+
+  auto vmSlot = (*vmSlotIt).payload;
+
+  process.vmTable.map(address, address + size,
+                      VmMapSlot{
+                          .memoryType = vmSlot.memoryType,
+                          .prot = static_cast<int>(prot),
+                          .offset = vmSlot.offset,
+                          .baseAddress = vmSlot.baseAddress,
+                      });
+
+  if (process.vmId >= 0) {
+    auto memory = amdgpu::RemoteMemory{process.vmId};
+    rx::mem::protect(memory.getPointer(address), size, prot >> 4);
+    handleProtectChange(process.vmId, address, size, prot);
+  }
+}
+
+void Device::onCommandBuffer(std::int64_t pid, int cmdHeader,
+                             std::uint64_t address, std::uint64_t size) {
+  auto &process = processInfo[pid];
+  if (process.vmId < 0) {
+    return;
+  }
+
+  auto memory = RemoteMemory{process.vmId};
+
+  auto op = rx::getBits(cmdHeader, 15, 8);
+
+  if (op == gnm::IT_INDIRECT_BUFFER_CNST) {
+    graphicsPipes[0].setCeQueue(Queue::createFromRange(
+        process.vmId, memory.getPointer<std::uint32_t>(address),
+        size / sizeof(std::uint32_t)));
+  } else if (op == gnm::IT_INDIRECT_BUFFER) {
+    graphicsPipes[0].setDeQueue(
+        Queue::createFromRange(process.vmId,
+                               memory.getPointer<std::uint32_t>(address),
+                               size / sizeof(std::uint32_t)),
+        1);
+  } else {
+    rx::die("unimplemented command buffer %x", cmdHeader);
+  }
+}
+
+bool Device::processPipes() {
+  bool allProcessed = true;
+
+  // for (auto &pipe : computePipes) {
+  //   if (!pipe.processAllRings()) {
+  //     allProcessed = false;
+  //   }
+  // }
+
+  for (auto &pipe : graphicsPipes) {
+    if (!pipe.processAllRings()) {
+      allProcessed = false;
+    }
+  }
+
+  return allProcessed;
+}
+
+static void
+transitionImageLayout(VkCommandBuffer commandBuffer, VkImage image,
+                      VkImageLayout oldLayout, VkImageLayout newLayout,
+                      const VkImageSubresourceRange &subresourceRange) {
+  VkImageMemoryBarrier barrier{};
+  barrier.sType = VK_STRUCTURE_TYPE_IMAGE_MEMORY_BARRIER;
+  barrier.oldLayout = oldLayout;
+  barrier.newLayout = newLayout;
+  barrier.srcQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED;
+  barrier.dstQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED;
+  barrier.image = image;
+  barrier.subresourceRange = subresourceRange;
+
+  auto layoutToStageAccess = [](VkImageLayout layout)
+      -> std::pair<VkPipelineStageFlags, VkAccessFlags> {
+    switch (layout) {
+    case VK_IMAGE_LAYOUT_UNDEFINED:
+    case VK_IMAGE_LAYOUT_PRESENT_SRC_KHR:
+    case VK_IMAGE_LAYOUT_GENERAL:
+      return {VK_PIPELINE_STAGE_TOP_OF_PIPE_BIT, 0};
+
+    case VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL:
+      return {VK_PIPELINE_STAGE_TRANSFER_BIT, VK_ACCESS_TRANSFER_WRITE_BIT};
+
+    case VK_IMAGE_LAYOUT_TRANSFER_SRC_OPTIMAL:
+      return {VK_PIPELINE_STAGE_TRANSFER_BIT, VK_ACCESS_TRANSFER_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_SHADER_READ_ONLY_OPTIMAL:
+      return {VK_PIPELINE_STAGE_FRAGMENT_SHADER_BIT, VK_ACCESS_SHADER_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_DEPTH_STENCIL_ATTACHMENT_OPTIMAL:
+      return {VK_PIPELINE_STAGE_EARLY_FRAGMENT_TESTS_BIT,
+              VK_ACCESS_DEPTH_STENCIL_ATTACHMENT_WRITE_BIT |
+                  VK_ACCESS_DEPTH_STENCIL_ATTACHMENT_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_COLOR_ATTACHMENT_OPTIMAL:
+      return {VK_PIPELINE_STAGE_COLOR_ATTACHMENT_OUTPUT_BIT,
+              VK_ACCESS_COLOR_ATTACHMENT_WRITE_BIT |
+                  VK_ACCESS_COLOR_ATTACHMENT_READ_BIT};
+
+    default:
+      std::abort();
+    }
+  };
+
+  auto [sourceStage, sourceAccess] = layoutToStageAccess(oldLayout);
+  auto [destinationStage, destinationAccess] = layoutToStageAccess(newLayout);
+
+  barrier.srcAccessMask = sourceAccess;
+  barrier.dstAccessMask = destinationAccess;
+
+  vkCmdPipelineBarrier(commandBuffer, sourceStage, destinationStage, 0, 0,
+                       nullptr, 0, nullptr, 1, &barrier);
+}
+
+bool Device::flip(std::int64_t pid, int bufferIndex, std::uint64_t arg,
+                  VkCommandBuffer commandBuffer, VkImage swapchainImage,
+                  VkImageView swapchainImageView, VkFence fence) {
+  auto &pipe = graphicsPipes[0];
+  auto &scheduler = pipe.scheduler;
+  auto &process = processInfo[pid];
+  if (process.vmId < 0) {
+    return false;
+  }
+
+  auto &buffer = process.buffers[bufferIndex];
+  auto &bufferAttr = process.bufferAttributes[buffer.attrId];
+
+  gnm::DataFormat dfmt;
+  gnm::NumericFormat nfmt;
+  CbCompSwap compSwap;
+  switch (bufferAttr.pixelFormat) {
+  case 0x80000000:
+    // bgra
+    dfmt = gnm::kDataFormat8_8_8_8;
+    nfmt = gnm::kNumericFormatSNormNoZero;
+    compSwap = CbCompSwap::Alt;
+    break;
+
+  case 0x80002200:
+    // rgba
+    dfmt = gnm::kDataFormat8_8_8_8;
+    nfmt = gnm::kNumericFormatSNormNoZero;
+    compSwap = CbCompSwap::Std;
+    break;
+
+  case 0x88060000:
+    // bgra
+    dfmt = gnm::kDataFormat2_10_10_10;
+    nfmt = gnm::kNumericFormatSNormNoZero;
+    compSwap = CbCompSwap::Alt;
+    break;
+
+  default:
+    rx::die("unimplemented color buffer format %x", bufferAttr.pixelFormat);
+  }
+
+  // std::printf("displaying buffer %lx\n", buffer.address);
+  VkCommandBufferBeginInfo beginInfo{};
+  beginInfo.sType = VK_STRUCTURE_TYPE_COMMAND_BUFFER_BEGIN_INFO;
+  beginInfo.flags = VK_COMMAND_BUFFER_USAGE_ONE_TIME_SUBMIT_BIT;
+
+  vkBeginCommandBuffer(commandBuffer, &beginInfo);
+
+  auto cacheTag = getCacheTag(process.vmId, scheduler);
+
+  if (true) {
+    transitionImageLayout(commandBuffer, swapchainImage,
+                          VK_IMAGE_LAYOUT_UNDEFINED,
+                          VK_IMAGE_LAYOUT_COLOR_ATTACHMENT_OPTIMAL,
+                          {
+                              .aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+                              .levelCount = 1,
+                              .layerCount = 1,
+                          });
+
+    amdgpu::flip(cacheTag, commandBuffer, vk::context->swapchainExtent,
+                 buffer.address, swapchainImageView,
+                 {bufferAttr.width, bufferAttr.height}, compSwap,
+                 getDefaultTileModes()[13], dfmt, nfmt);
+
+    transitionImageLayout(commandBuffer, swapchainImage,
+                          VK_IMAGE_LAYOUT_COLOR_ATTACHMENT_OPTIMAL,
+                          VK_IMAGE_LAYOUT_PRESENT_SRC_KHR,
+                          {
+                              .aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+                              .levelCount = 1,
+                              .layerCount = 1,
+                          });
+  } else {
+    ImageKey frameKey{
+        .address = buffer.address,
+        .type = gnm::TextureType::Dim2D,
+        .dfmt = dfmt,
+        .nfmt = nfmt,
+        .tileMode = getDefaultTileModes()[13],
+        .extent =
+            {
+                .width = bufferAttr.width,
+                .height = bufferAttr.height,
+                .depth = 1,
+            },
+        .pitch = bufferAttr.width,
+        .mipCount = 1,
+        .arrayLayerCount = 1,
+    };
+
+    auto image = cacheTag.getImage(frameKey, Access::Read);
+
+    scheduler.submit();
+    scheduler.wait();
+
+    transitionImageLayout(commandBuffer, swapchainImage,
+                          VK_IMAGE_LAYOUT_UNDEFINED,
+                          VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL,
+                          {
+                              .aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+                              .levelCount = 1,
+                              .layerCount = 1,
+                          });
+
+    VkImageBlit region{
+        .srcSubresource = {.aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+                           .mipLevel = 0,
+                           .baseArrayLayer = 0,
+                           .layerCount = 1},
+        .srcOffsets = {{},
+                       {static_cast<int32_t>(bufferAttr.width),
+                        static_cast<int32_t>(bufferAttr.height), 1}},
+        .dstSubresource = {.aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+                           .mipLevel = 0,
+                           .baseArrayLayer = 0,
+                           .layerCount = 1},
+        .dstOffsets =
+            {{},
+             {static_cast<int32_t>(vk::context->swapchainExtent.width),
+              static_cast<int32_t>(vk::context->swapchainExtent.height), 1}},
+    };
+
+    vkCmdBlitImage(commandBuffer, image.handle, VK_IMAGE_LAYOUT_GENERAL,
+                   swapchainImage, VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL, 1,
+                   &region, VK_FILTER_LINEAR);
+
+    transitionImageLayout(commandBuffer, swapchainImage,
+                          VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL,
+                          VK_IMAGE_LAYOUT_PRESENT_SRC_KHR,
+                          {
+                              .aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+                              .levelCount = 1,
+                              .layerCount = 1,
+                          });
+  }
+
+  auto submitCompleteTask = scheduler.createExternalSubmit();
+
+  {
+    vkEndCommandBuffer(commandBuffer);
+
+    VkSemaphoreSubmitInfo signalSemSubmitInfos[] = {
+        {
+            .sType = VK_STRUCTURE_TYPE_SEMAPHORE_SUBMIT_INFO,
+            .semaphore = vk::context->renderCompleteSemaphore,
+            .value = 1,
+            .stageMask = VK_PIPELINE_STAGE_2_BOTTOM_OF_PIPE_BIT,
+        },
+        {
+            .sType = VK_STRUCTURE_TYPE_SEMAPHORE_SUBMIT_INFO,
+            .semaphore = scheduler.getSemaphoreHandle(),
+            .value = submitCompleteTask,
+            .stageMask = VK_PIPELINE_STAGE_2_BOTTOM_OF_PIPE_BIT,
+        },
+    };
+
+    VkSemaphoreSubmitInfo waitSemSubmitInfos[] = {
+        {
+            .sType = VK_STRUCTURE_TYPE_SEMAPHORE_SUBMIT_INFO,
+            .semaphore = vk::context->presentCompleteSemaphore,
+            .value = 1,
+            .stageMask = VK_PIPELINE_STAGE_2_ALL_COMMANDS_BIT,
+        },
+        {
+            .sType = VK_STRUCTURE_TYPE_SEMAPHORE_SUBMIT_INFO,
+            .semaphore = scheduler.getSemaphoreHandle(),
+            .value = submitCompleteTask - 1,
+            .stageMask = VK_PIPELINE_STAGE_2_ALL_COMMANDS_BIT,
+        },
+    };
+
+    VkCommandBufferSubmitInfo cmdBufferSubmitInfo{
+        .sType = VK_STRUCTURE_TYPE_COMMAND_BUFFER_SUBMIT_INFO,
+        .commandBuffer = commandBuffer,
+    };
+
+    VkSubmitInfo2 submitInfo{
+        .sType = VK_STRUCTURE_TYPE_SUBMIT_INFO_2,
+        .waitSemaphoreInfoCount = 1,
+        .pWaitSemaphoreInfos = waitSemSubmitInfos,
+        .commandBufferInfoCount = 1,
+        .pCommandBufferInfos = &cmdBufferSubmitInfo,
+        .signalSemaphoreInfoCount = 2,
+        .pSignalSemaphoreInfos = signalSemSubmitInfos,
+    };
+
+    vkQueueSubmit2(vk::context->presentQueue, 1, &submitInfo, fence);
+    // vkQueueWaitIdle(queue);
+  }
+
+  scheduler.then([=, this, cacheTag = std::move(cacheTag)] {
+    bridge->flipBuffer[process.vmId] = bufferIndex;
+    bridge->flipArg[process.vmId] = arg;
+    bridge->flipCount[process.vmId] = bridge->flipCount[process.vmId] + 1;
+
+    auto mem = RemoteMemory{process.vmId};
+    auto bufferInUse =
+        mem.getPointer<std::uint64_t>(bridge->bufferInUseAddress[process.vmId]);
+    if (bufferInUse != nullptr) {
+      bufferInUse[bufferIndex] = 0;
+    }
+  });
+
+  return true;
+}
+
+void Device::mapMemory(std::int64_t pid, std::uint64_t address,
+                       std::uint64_t size, int memoryType, int dmemIndex,
+                       int prot, std::int64_t offset) {
+  auto &process = processInfo[pid];
+
+  process.vmTable.map(address, address + size,
+                      VmMapSlot{
+                          .memoryType = memoryType >= 0 ? dmemIndex : -1,
+                          .prot = prot,
+                          .offset = offset,
+                          .baseAddress = address,
+                      });
+
+  if (process.vmId < 0) {
+    return;
+  }
+
+  auto memory = amdgpu::RemoteMemory{process.vmId};
+
+  int mapFd = process.vmFd;
+
+  if (memoryType >= 0) {
+    mapFd = dmemFd[dmemIndex];
+  }
+
+  auto mmapResult = ::mmap(memory.getPointer(address), size, prot >> 4,
+                           MAP_FIXED | MAP_SHARED, mapFd, offset);
+
+  if (mmapResult == MAP_FAILED) {
+    rx::die("failed to map process %x memory, address %lx-%lx, type %x",
+            (int)pid, address, address + size, memoryType);
+  }
+
+  handleProtectChange(process.vmId, address, size, prot);
+}
+
+void Device::registerBuffer(std::int64_t pid, bridge::CmdBuffer buffer) {
+  auto &process = processInfo[pid];
+
+  if (buffer.attrId >= 10 || buffer.index >= 10) {
+    rx::die("out of buffers %u, %u", buffer.attrId, buffer.index);
+  }
+
+  process.buffers[buffer.index] = buffer;
+}
+
+void Device::registerBufferAttribute(std::int64_t pid,
+                                     bridge::CmdBufferAttribute attr) {
+  auto &process = processInfo[pid];
+  if (attr.attrId >= 10) {
+    rx::die("out of buffer attributes %u", attr.attrId);
+  }
+
+  process.bufferAttributes[attr.attrId] = attr;
+}
+
+void Device::handleProtectChange(int vmId, std::uint64_t address,
+                                 std::uint64_t size, int prot) {}
diff --git a/rpcsx-gpu2/Device.hpp b/rpcsx-gpu2/Device.hpp
new file mode 100644
index 00000000..b4f9db78
--- /dev/null
+++ b/rpcsx-gpu2/Device.hpp
@@ -0,0 +1,91 @@
+#pragma once
+#include "Cache.hpp"
+#include "Pipe.hpp"
+#include "amdgpu/bridge/bridge.hpp"
+#include "amdgpu/tiler_vulkan.hpp"
+#include "gnm/descriptors.hpp"
+#include "rx/MemoryTable.hpp"
+#include "shader/SemanticInfo.hpp"
+#include "shader/SpvConverter.hpp"
+#include "shader/gcn.hpp"
+#include <unordered_map>
+#include <vulkan/vulkan_core.h>
+
+namespace amdgpu {
+
+struct VmMapSlot {
+  int memoryType;
+  int prot;
+  std::int64_t offset;
+  std::uint64_t baseAddress;
+
+  auto operator<=>(const VmMapSlot &) const = default;
+};
+
+struct ProcessInfo {
+  int vmId = -1;
+  int vmFd = -1;
+  amdgpu::bridge::CmdBufferAttribute bufferAttributes[10];
+  amdgpu::bridge::CmdBuffer buffers[10];
+  rx::MemoryTableWithPayload<VmMapSlot> vmTable;
+};
+
+struct RemoteMemory {
+  int vmId;
+
+  template <typename T = void> T *getPointer(std::uint64_t address) const {
+    return address ? reinterpret_cast<T *>(
+                         static_cast<std::uint64_t>(vmId) << 40 | address)
+                   : nullptr;
+  }
+};
+
+struct Device {
+  static constexpr auto kComputePipeCount = 8;
+  static constexpr auto kGfxPipeCount = 2;
+
+  shader::SemanticInfo gcnSemantic;
+  shader::spv::Context shaderSemanticContext;
+  shader::gcn::SemanticModuleInfo gcnSemanticModuleInfo;
+  amdgpu::bridge::BridgeHeader *bridge;
+
+  Registers::Config config;
+
+  GpuTiler tiler;
+
+  GraphicsPipe graphicsPipes[kGfxPipeCount]{0, 1};
+  // ComputePipe computePipes[kComputePipeCount]{0, 1, 2, 3, 4, 5, 6, 7};
+
+  int dmemFd[3] = {-1, -1, -1};
+  std::unordered_map<std::int64_t, ProcessInfo> processInfo;
+
+  Cache caches[6]{
+      {this, 0}, {this, 1}, {this, 2}, {this, 3}, {this, 4}, {this, 5},
+  };
+
+  Device();
+  ~Device();
+
+  Cache::Tag getCacheTag(int vmId, Scheduler &scheduler) {
+    return caches[vmId].createTag(scheduler);
+  }
+
+  void mapProcess(std::int64_t pid, int vmId, const char *shmName);
+  void unmapProcess(std::int64_t pid);
+  void protectMemory(int pid, std::uint64_t address, std::uint64_t size,
+                     int prot);
+  void onCommandBuffer(std::int64_t pid, int cmdHeader, std::uint64_t address,
+                       std::uint64_t size);
+  bool processPipes();
+  bool flip(std::int64_t pid, int bufferIndex, std::uint64_t arg,
+            VkCommandBuffer commandBuffer, VkImage swapchainImage,
+            VkImageView swapchainImageView, VkFence fence);
+  void mapMemory(std::int64_t pid, std::uint64_t address, std::uint64_t size,
+                 int memoryType, int dmemIndex, int prot, std::int64_t offset);
+  void registerBuffer(std::int64_t pid, bridge::CmdBuffer buffer);
+  void registerBufferAttribute(std::int64_t pid,
+                               bridge::CmdBufferAttribute attr);
+  void handleProtectChange(int vmId, std::uint64_t address, std::uint64_t size,
+                           int prot);
+};
+} // namespace amdgpu
diff --git a/rpcsx-gpu2/Pipe.cpp b/rpcsx-gpu2/Pipe.cpp
new file mode 100644
index 00000000..3fe0e6c2
--- /dev/null
+++ b/rpcsx-gpu2/Pipe.cpp
@@ -0,0 +1,987 @@
+#include "Pipe.hpp"
+#include "Device.hpp"
+#include "Registers.hpp"
+#include "Renderer.hpp"
+#include "gnm/mmio.hpp"
+#include "gnm/pm4.hpp"
+#include "vk.hpp"
+#include <cstdio>
+#include <rx/bits.hpp>
+#include <rx/die.hpp>
+#include <vulkan/vulkan_core.h>
+
+using namespace amdgpu;
+
+static Scheduler createGfxScheduler(int index) {
+  auto queue = vk::context->presentQueue;
+  auto family = vk::context->presentQueueFamily;
+
+  if (index != 0) {
+    for (auto [otherQueue, otherFamily] : vk::context->graphicsQueues) {
+      if (family != otherFamily) {
+        queue = otherQueue;
+        family = otherFamily;
+      }
+    }
+  }
+
+  return Scheduler{queue, family};
+}
+
+static Scheduler createComputeScheduler(int index) {
+  auto &compQueues = vk::context->computeQueues;
+  auto [queue, family] = compQueues[index % compQueues.size()];
+
+  return Scheduler{queue, family};
+}
+
+static bool compare(int cmpFn, std::uint32_t poll, std::uint32_t mask,
+                    std::uint32_t ref) {
+  poll &= mask;
+  ref &= mask;
+
+  switch (cmpFn) {
+  case 0:
+    return true;
+  case 1:
+    return poll < ref;
+  case 2:
+    return poll <= ref;
+  case 3:
+    return poll == ref;
+  case 4:
+    return poll != ref;
+  case 5:
+    return poll >= ref;
+  case 6:
+    return poll > ref;
+  }
+
+  return false;
+}
+
+ComputePipe::ComputePipe(int index) : scheduler(createComputeScheduler(index)) {
+  for (auto &handler : commandHandlers) {
+    handler = &ComputePipe::unknownPacket;
+  }
+
+  commandHandlers[gnm::IT_NOP] = &ComputePipe::handleNop;
+}
+
+bool ComputePipe::processAllRings() {
+  bool allProcessed = true;
+
+  for (auto &ring : queues) {
+    processRing(ring);
+
+    if (ring.rptr != ring.wptr) {
+      allProcessed = false;
+      break;
+    }
+  }
+
+  return allProcessed;
+}
+
+void ComputePipe::processRing(Queue &queue) {
+  while (queue.rptr != queue.wptr) {
+    if (queue.rptr >= queue.base + queue.size) {
+      queue.rptr = queue.base;
+    }
+
+    auto header = *queue.rptr;
+    auto type = rx::getBits(header, 31, 30);
+
+    if (type == 3) {
+      auto op = rx::getBits(header, 15, 8);
+      auto len = rx::getBits(header, 29, 16) + 2;
+
+      // std::fprintf(stderr, "queue %d: %s\n", queue.indirectLevel,
+      //              gnm::pm4OpcodeToString(op));
+
+      if (op == gnm::IT_COND_EXEC) {
+        rx::die("unimplemented COND_EXEC");
+      }
+
+      auto handler = commandHandlers[op];
+      if (!(this->*handler)(queue)) {
+        return;
+      }
+
+      queue.rptr += len;
+      continue;
+    }
+
+    if (type == 2) {
+      ++queue.rptr;
+      continue;
+    }
+
+    rx::die("unexpected pm4 packet type %u", type);
+  }
+}
+
+bool ComputePipe::unknownPacket(Queue &queue) {
+  auto op = rx::getBits(queue.rptr[0], 15, 8);
+
+  rx::die("unimplemented compute pm4 packet: %s, queue %u\n",
+          gnm::pm4OpcodeToString(op), queue.indirectLevel);
+
+  return true;
+}
+
+bool ComputePipe::handleNop(Queue &queue) { return true; }
+
+GraphicsPipe::GraphicsPipe(int index) : scheduler(createGfxScheduler(index)) {
+  for (auto &processorHandlers : commandHandlers) {
+    for (auto &handler : processorHandlers) {
+      handler = &GraphicsPipe::unknownPacket;
+    }
+
+    processorHandlers[gnm::IT_NOP] = &GraphicsPipe::handleNop;
+  }
+
+  auto &dataHandlers = commandHandlers[2];
+  auto &deHandlers = commandHandlers[1];
+  auto &ceHandlers = commandHandlers[0];
+
+  deHandlers[gnm::IT_SET_BASE] = &GraphicsPipe::setBase;
+  deHandlers[gnm::IT_CLEAR_STATE] = &GraphicsPipe::clearState;
+
+  deHandlers[gnm::IT_INDEX_BUFFER_SIZE] = &GraphicsPipe::indexBufferSize;
+  deHandlers[gnm::IT_DISPATCH_DIRECT] = &GraphicsPipe::dispatchDirect;
+  deHandlers[gnm::IT_DISPATCH_INDIRECT] = &GraphicsPipe::dispatchIndirect;
+
+  // IT_ATOMIC_GDS
+  // IT_OCCLUSION_QUERY
+  deHandlers[gnm::IT_SET_PREDICATION] = &GraphicsPipe::setPredication;
+
+  // IT_REG_RMW
+
+  // IT_COND_EXEC
+  // IT_PRED_EXEC
+
+  deHandlers[gnm::IT_DRAW_INDIRECT] = &GraphicsPipe::drawIndirect;
+  deHandlers[gnm::IT_DRAW_INDEX_INDIRECT] = &GraphicsPipe::drawIndexIndirect;
+  deHandlers[gnm::IT_INDEX_BASE] = &GraphicsPipe::indexBase;
+  deHandlers[gnm::IT_DRAW_INDEX_2] = &GraphicsPipe::drawIndex2;
+
+  deHandlers[gnm::IT_CONTEXT_CONTROL] = &GraphicsPipe::contextControl;
+
+  deHandlers[gnm::IT_INDEX_TYPE] = &GraphicsPipe::indexType;
+  // IT_DRAW_INDIRECT_MULTI
+  deHandlers[gnm::IT_DRAW_INDEX_AUTO] = &GraphicsPipe::drawIndexAuto;
+  deHandlers[gnm::IT_NUM_INSTANCES] = &GraphicsPipe::numInstances;
+  deHandlers[gnm::IT_DRAW_INDEX_MULTI_AUTO] = &GraphicsPipe::drawIndexMultiAuto;
+
+  // IT_INDIRECT_BUFFER_CNST
+  // IT_STRMOUT_BUFFER_UPDATE
+
+  deHandlers[gnm::IT_DRAW_INDEX_OFFSET_2] = &GraphicsPipe::drawIndexOffset2;
+  deHandlers[gnm::IT_DRAW_PREAMBLE] = &GraphicsPipe::drawPreamble;
+
+  deHandlers[gnm::IT_WRITE_DATA] = &GraphicsPipe::writeData;
+  deHandlers[gnm::IT_MEM_SEMAPHORE] = &GraphicsPipe::memSemaphore;
+  // IT_COPY_DW
+  deHandlers[gnm::IT_WAIT_REG_MEM] = &GraphicsPipe::waitRegMem;
+  deHandlers[gnm::IT_INDIRECT_BUFFER] = &GraphicsPipe::indirectBuffer;
+  // IT_COPY_DATA
+  deHandlers[gnm::IT_PFP_SYNC_ME] = &GraphicsPipe::pfpSyncMe;
+  // IT_SURFACE_SYNC
+  deHandlers[gnm::IT_COND_WRITE] = &GraphicsPipe::condWrite;
+  deHandlers[gnm::IT_EVENT_WRITE] = &GraphicsPipe::eventWrite;
+  deHandlers[gnm::IT_EVENT_WRITE_EOP] = &GraphicsPipe::eventWriteEop;
+  deHandlers[gnm::IT_EVENT_WRITE_EOS] = &GraphicsPipe::eventWriteEos;
+  deHandlers[gnm::IT_RELEASE_MEM] = &GraphicsPipe::releaseMem;
+  // IT_PREAMBLE_CNTL
+  deHandlers[gnm::IT_DMA_DATA] = &GraphicsPipe::dmaData;
+  deHandlers[gnm::IT_ACQUIRE_MEM] = &GraphicsPipe::acquireMem;
+  // IT_REWIND
+
+  // IT_LOAD_UCONFIG_REG
+  // IT_LOAD_SH_REG
+  // IT_LOAD_CONFIG_REG
+  // IT_LOAD_CONTEXT_REG
+  deHandlers[gnm::IT_SET_CONFIG_REG] = &GraphicsPipe::setConfigReg;
+  deHandlers[gnm::IT_SET_CONTEXT_REG] = &GraphicsPipe::setContextReg;
+  // IT_SET_CONTEXT_REG_INDIRECT
+  deHandlers[gnm::IT_SET_SH_REG] = &GraphicsPipe::setShReg;
+  // IT_SET_SH_REG_OFFSET
+  // IT_SET_QUEUE_REG
+  deHandlers[gnm::IT_SET_UCONFIG_REG] = &GraphicsPipe::setUConfigReg;
+  // IT_SCRATCH_RAM_WRITE
+  // IT_SCRATCH_RAM_READ
+  deHandlers[gnm::IT_INCREMENT_DE_COUNTER] = &GraphicsPipe::incrementDeCounter;
+  deHandlers[gnm::IT_WAIT_ON_CE_COUNTER] = &GraphicsPipe::waitOnCeCounter;
+  deHandlers[gnm::IT_SET_CE_DE_COUNTERS] = &GraphicsPipe::setCeDeCounters;
+  // IT_WAIT_ON_AVAIL_BUFFER
+  // IT_SWITCH_BUFFER
+  // IT_SET_RESOURCES
+  // IT_MAP_PROCESS
+  // IT_MAP_QUEUES
+  // IT_UNMAP_QUEUES
+  // IT_QUERY_STATUS
+  // IT_RUN_LIST
+  // IT_DISPATCH_DRAW_PREAMBLE
+  // IT_DISPATCH_DRAW
+
+  ceHandlers[gnm::IT_WAIT_ON_DE_COUNTER_DIFF] =
+      &GraphicsPipe::waitOnDeCounterDiff;
+  ceHandlers[gnm::IT_INCREMENT_CE_COUNTER] = &GraphicsPipe::incrementCeCounter;
+  ceHandlers[gnm::IT_LOAD_CONST_RAM] = &GraphicsPipe::loadConstRam;
+  ceHandlers[gnm::IT_WRITE_CONST_RAM] = &GraphicsPipe::writeConstRam;
+  ceHandlers[gnm::IT_DUMP_CONST_RAM] = &GraphicsPipe::dumpConstRam;
+}
+
+void GraphicsPipe::setCeQueue(Queue queue) {
+  queue.indirectLevel = -1;
+  ceQueue = queue;
+}
+
+void GraphicsPipe::setDeQueue(Queue queue, int ring) {
+  rx::dieIf(ring > 2, "out of indirect gfx rings, %u", ring);
+  queue.indirectLevel = 2 - ring;
+  deQueues[ring] = queue;
+}
+
+std::uint32_t *GraphicsPipe::getMmRegister(std::uint32_t dwAddress) {
+  // if (dwAddress >= Registers::Config::kMmioOffset &&
+  //     dwAddress < Registers::Config::kMmioOffset +
+  //     sizeof(Registers::Config) / sizeof(std::uint32_t)) {
+  //   return reinterpret_cast<std::uint32_t *>(&config) + (dwAddress -
+  //   Registers::Config::kMmioOffset);
+  // }
+
+  if (dwAddress >= Registers::ShaderConfig::kMmioOffset &&
+      dwAddress < Registers::ShaderConfig::kMmioOffset +
+                      sizeof(Registers::ShaderConfig) / sizeof(std::uint32_t)) {
+    return reinterpret_cast<std::uint32_t *>(&sh) +
+           (dwAddress - Registers::ShaderConfig::kMmioOffset);
+  }
+
+  if (dwAddress >= Registers::UConfig::kMmioOffset &&
+      dwAddress < Registers::UConfig::kMmioOffset +
+                      sizeof(Registers::UConfig) / sizeof(std::uint32_t)) {
+    return reinterpret_cast<std::uint32_t *>(&uConfig) +
+           (dwAddress - Registers::UConfig::kMmioOffset);
+  }
+
+  if (dwAddress >= Registers::Context::kMmioOffset &&
+      dwAddress < Registers::Context::kMmioOffset +
+                      sizeof(Registers::Context) / sizeof(std::uint32_t)) {
+    return reinterpret_cast<std::uint32_t *>(&context) +
+           (dwAddress - Registers::Context::kMmioOffset);
+  }
+
+  rx::die("unexpected memory mapped register address %x, %s", dwAddress,
+          gnm::mmio::registerName(dwAddress));
+}
+
+bool GraphicsPipe::processAllRings() {
+  bool allProcessed = true;
+
+  if (ceQueue.rptr != ceQueue.wptr) {
+    processRing(ceQueue);
+
+    if (ceQueue.rptr != ceQueue.wptr) {
+      allProcessed = false;
+    }
+  }
+
+  for (int i = 0; i < 3; ++i) {
+    auto &queue = deQueues[i];
+    processRing(queue);
+
+    if (queue.rptr != queue.wptr) {
+      allProcessed = false;
+      break;
+    }
+  }
+
+  return allProcessed;
+}
+
+void GraphicsPipe::processRing(Queue &queue) {
+  auto cp = 1;
+  if (queue.indirectLevel < 0) {
+    cp = 0;
+  } else if (queue.indirectLevel == 2) {
+    cp = 2;
+  }
+
+  while (queue.rptr != queue.wptr) {
+    if (queue.rptr >= queue.base + queue.size) {
+      queue.rptr = queue.base;
+    }
+
+    auto header = *queue.rptr;
+    auto type = rx::getBits(header, 31, 30);
+
+    if (type == 3) {
+      auto op = rx::getBits(header, 15, 8);
+      auto len = rx::getBits(header, 29, 16) + 2;
+
+      // std::fprintf(stderr, "queue %d: %s\n", queue.indirectLevel,
+      //              gnm::pm4OpcodeToString(op));
+
+      if (op == gnm::IT_COND_EXEC) {
+        rx::die("unimplemented COND_EXEC");
+      }
+
+      auto handler = commandHandlers[cp][op];
+      if (!(this->*handler)(queue)) {
+        return;
+      }
+
+      queue.rptr += len;
+
+      if (op == gnm::IT_INDIRECT_BUFFER || op == gnm::IT_INDIRECT_BUFFER_CNST) {
+        break;
+      }
+
+      continue;
+    }
+
+    if (type == 2) {
+      ++queue.rptr;
+      continue;
+    }
+
+    rx::die("unexpected pm4 packet type %u", type);
+  }
+}
+
+bool GraphicsPipe::handleNop(Queue &queue) { return true; }
+
+bool GraphicsPipe::setBase(Queue &queue) {
+  auto baseIndex = queue.rptr[1] & 0xf;
+
+  switch (baseIndex) {
+  case 0: {
+    auto address0 = queue.rptr[2] & ~3;
+    auto address1 = queue.rptr[3] & ((1 << 16) - 1);
+
+    displayListPatchBase =
+        address0 | (static_cast<std::uint64_t>(address1) << 32);
+    break;
+  }
+  case 1: {
+    auto address0 = queue.rptr[2] & ~3;
+    auto address1 = queue.rptr[3] & ((1 << 16) - 1);
+
+    drawIndexIndirPatchBase =
+        address0 | (static_cast<std::uint64_t>(address1) << 32);
+    break;
+  }
+
+  case 2: {
+    auto cs1Index = queue.rptr[2] & ((1 << 16) - 1);
+    auto cs2Index = queue.rptr[3] & ((1 << 16) - 1);
+    gdsPartitionBases[0] = cs1Index;
+    gdsPartitionBases[1] = cs2Index;
+    break;
+  }
+
+  case 3: {
+    auto cs1Index = queue.rptr[2] & ((1 << 16) - 1);
+    auto cs2Index = queue.rptr[3] & ((1 << 16) - 1);
+    cePartitionBases[0] = cs1Index;
+    cePartitionBases[1] = cs2Index;
+    break;
+  }
+
+  default:
+    rx::die("pm4: unknown SET_BASE index %u", baseIndex);
+  }
+
+  return true;
+}
+
+bool GraphicsPipe::clearState(Queue &queue) {
+  context = Registers::Context::Default;
+  return true;
+}
+
+bool GraphicsPipe::contextControl(Queue &queue) { return true; }
+bool GraphicsPipe::acquireMem(Queue &queue) { return true; }
+bool GraphicsPipe::releaseMem(Queue &queue) {
+  auto eventCntl = queue.rptr[1];
+  auto dataCntl = queue.rptr[2];
+  auto addressLo = queue.rptr[3] & ~3;
+  auto addressHi = queue.rptr[3] & ~3;
+  auto dataLo = queue.rptr[4];
+  auto dataHi = queue.rptr[5];
+
+  auto eventIndex = rx::getBits(eventCntl, 11, 8);
+  auto eventType = rx::getBits(eventCntl, 5, 0);
+  auto dataSel = rx::getBits(dataCntl, 31, 29);
+  auto intSel = rx::getBits(dataCntl, 25, 24);
+
+  auto address = addressLo | (static_cast<std::uint64_t>(addressHi) << 32);
+  auto pointer = RemoteMemory{queue.vmId}.getPointer<std::uint64_t>(address);
+
+  context.vgtEventInitiator = eventType;
+
+  switch (dataSel) {
+  case 0: // none
+    break;
+  case 1: // 32 bit, low
+    *reinterpret_cast<std::uint32_t *>(pointer) = dataLo;
+    break;
+  case 2: // 64 bit
+    *pointer = dataLo | (static_cast<std::uint64_t>(dataHi) << 32);
+    break;
+  case 3: // 64 bit, global GPU clock
+    *pointer = std::chrono::duration_cast<std::chrono::nanoseconds>(
+                   std::chrono::system_clock::now().time_since_epoch())
+                   .count();
+    break;
+  case 4: // 64 bit, perf counter
+    *pointer = std::chrono::duration_cast<std::chrono::nanoseconds>(
+                   std::chrono::steady_clock::now().time_since_epoch())
+                   .count();
+    break;
+
+  default:
+    rx::die("unimplemented event release mem data %#x", dataSel);
+  }
+
+  return true;
+}
+
+bool GraphicsPipe::drawPreamble(Queue &queue) { return true; }
+
+bool GraphicsPipe::indexBufferSize(Queue &queue) {
+  vgtIndexBufferSize = queue.rptr[1];
+  return true;
+}
+bool GraphicsPipe::dispatchDirect(Queue &queue) {
+  auto dimX = queue.rptr[1];
+  auto dimY = queue.rptr[2];
+  auto dimZ = queue.rptr[3];
+  auto dispatchInitiator = queue.rptr[4];
+  sh.compute.computeDispatchInitiator = dispatchInitiator;
+
+  // FIXME
+  return true;
+}
+bool GraphicsPipe::dispatchIndirect(Queue &queue) {
+  auto offset = queue.rptr[1];
+  auto dispatchInitiator = queue.rptr[2];
+
+  sh.compute.computeDispatchInitiator = dispatchInitiator;
+  auto buffer = RemoteMemory{queue.vmId}.getPointer<std::uint32_t>(
+      drawIndexIndirPatchBase + offset);
+
+  auto dimX = buffer[0];
+  auto dimY = buffer[1];
+  auto dimZ = buffer[2];
+
+  // FIXME
+  return true;
+}
+
+bool GraphicsPipe::setPredication(Queue &queue) {
+  auto startAddressLo = queue.rptr[1] & ~0xf;
+  auto predProperties = queue.rptr[2];
+
+  auto startAddressHi = rx::getBits(predProperties, 15, 0);
+  auto predBool = rx::getBit(predProperties, 8);
+  auto hint = rx::getBit(predProperties, 12);
+  auto predOp = rx::getBits(predProperties, 18, 16);
+  auto cont = rx::getBit(predProperties, 31);
+
+  switch (predOp) {
+  case 0: // clear predicate
+  case 1: // set ZPass predicate
+  case 2: // set PrimCount predicate
+    break;
+  }
+
+  // TODO
+
+  return true;
+}
+bool GraphicsPipe::drawIndirect(Queue &queue) {
+  auto dataOffset = queue.rptr[1];
+  auto baseVtxLoc = queue.rptr[2] & ((1 << 16) - 1);
+  auto startInstLoc = queue.rptr[3] & ((1 << 16) - 1);
+  auto drawInitiator = queue.rptr[4];
+
+  context.vgtDrawInitiator = drawInitiator;
+
+  auto buffer = RemoteMemory{queue.vmId}.getPointer<std::uint32_t>(
+      drawIndexIndirPatchBase + dataOffset);
+
+  std::uint32_t vertexCountPerInstance = buffer[0];
+  std::uint32_t instanceCount = buffer[1];
+  std::uint32_t startVertexLocation = buffer[2];
+  std::uint32_t startInstanceLocation = buffer[3];
+
+  // FIXME
+  rx::die("drawIndirect");
+  return true;
+}
+bool GraphicsPipe::drawIndexIndirect(Queue &queue) {
+  auto dataOffset = queue.rptr[1];
+  auto baseVtxLoc = queue.rptr[2] & ((1 << 16) - 1);
+  auto drawInitiator = queue.rptr[3];
+
+  auto buffer = RemoteMemory{queue.vmId}.getPointer<std::uint32_t>(
+      drawIndexIndirPatchBase + dataOffset);
+
+  context.vgtDrawInitiator = drawInitiator;
+
+  std::uint32_t indexCountPerInstance = buffer[0];
+  std::uint32_t instanceCount = buffer[1];
+  std::uint32_t startIndexLocation = buffer[2];
+  std::uint32_t baseVertexLocation = buffer[3];
+  std::uint32_t startInstanceLocation = buffer[4];
+
+  // FIXME
+  rx::die("drawIndexIndirect");
+  return true;
+}
+bool GraphicsPipe::indexBase(Queue &queue) {
+  auto addressLo = queue.rptr[1] << 1;
+  auto addressHi = queue.rptr[2] & ((1 << 16) - 1);
+  auto address = addressLo | (static_cast<std::uint64_t>(addressHi) << 32);
+  vgtIndexBase = address;
+  return true;
+}
+bool GraphicsPipe::drawIndex2(Queue &queue) {
+  auto maxSize = queue.rptr[1];
+  auto indexOffset = queue.rptr[2];
+  auto indexCount = queue.rptr[3];
+  auto drawInitiator = queue.rptr[4];
+
+  context.vgtDrawInitiator = drawInitiator;
+  uConfig.vgtNumIndices = indexCount;
+
+  draw(*this, queue.vmId, 0, indexCount, 0, uConfig.vgtNumInstances,
+       vgtIndexBase + indexOffset, maxSize);
+  return true;
+}
+bool GraphicsPipe::indexType(Queue &queue) {
+  uConfig.vgtIndexType = static_cast<gnm::IndexType>(queue.rptr[1] & 1);
+  return true;
+}
+bool GraphicsPipe::drawIndexAuto(Queue &queue) {
+  auto indexCount = queue.rptr[1];
+  auto drawInitiator = queue.rptr[2];
+
+  uConfig.vgtNumIndices = indexCount;
+  context.vgtDrawInitiator = drawInitiator;
+
+  draw(*this, queue.vmId, 0, indexCount, 0, uConfig.vgtNumInstances, 0, 0);
+  return true;
+}
+bool GraphicsPipe::numInstances(Queue &queue) {
+  uConfig.vgtNumInstances = std::max(queue.rptr[1], 1u);
+  return true;
+}
+bool GraphicsPipe::drawIndexMultiAuto(Queue &queue) {
+  auto primCount = queue.rptr[1];
+  auto drawInitiator = queue.rptr[2];
+  auto control = queue.rptr[3];
+
+  auto indexOffset = rx::getBits(control, 15, 0);
+  auto primType = rx::getBits(control, 20, 16);
+  auto indexCount = rx::getBits(control, 31, 21);
+
+  context.vgtDrawInitiator = drawInitiator;
+  uConfig.vgtPrimitiveType = static_cast<gnm::PrimitiveType>(primType);
+  uConfig.vgtNumIndices = indexCount;
+
+  // FIXME
+  return true;
+}
+bool GraphicsPipe::drawIndexOffset2(Queue &queue) {
+  auto maxSize = queue.rptr[1];
+  auto indexOffset = queue.rptr[2];
+  auto indexCount = queue.rptr[3];
+  auto drawInitiator = queue.rptr[4];
+
+  context.vgtDrawInitiator = drawInitiator;
+  // FIXME
+  return true;
+}
+bool GraphicsPipe::writeData(Queue &queue) {
+  auto len = rx::getBits(queue.rptr[0], 29, 16) - 1;
+  auto control = queue.rptr[1];
+  auto dstAddressLo = queue.rptr[2];
+  auto dstAddressHi = queue.rptr[3];
+  auto data = queue.rptr + 4;
+
+  auto engineSel = rx::getBits(control, 31, 30);
+  auto wrConfirm = rx::getBit(control, 20);
+  auto wrOneAddress = rx::getBit(control, 16);
+  auto dstSel = rx::getBits(control, 11, 8);
+
+  std::uint32_t *dstPointer = nullptr;
+
+  switch (dstSel) {
+  case 0: // memory mapped register
+    dstPointer = getMmRegister(dstAddressLo & ((1 << 16) - 1));
+    break;
+
+  case 1:   // memory sync
+  case 5: { // memory async
+    auto address =
+        (dstAddressLo & ~3) | (static_cast<std::uint64_t>(dstAddressHi) << 32);
+    dstPointer = RemoteMemory{queue.vmId}.getPointer<std::uint32_t>(address);
+    break;
+  }
+
+  default:
+    rx::die("unimplemented write data, dst sel = %#x", dstSel);
+  }
+
+  if (wrOneAddress) {
+    for (std::uint32_t i = 0; i < len; ++i) {
+      *dstPointer = data[i];
+    }
+  } else {
+    std::memcpy(dstPointer, data, len * sizeof(std::uint32_t));
+  }
+
+  return true;
+}
+bool GraphicsPipe::memSemaphore(Queue &queue) {
+  // FIXME
+  return true;
+}
+bool GraphicsPipe::waitRegMem(Queue &queue) {
+  auto engine = rx::getBit(queue.rptr[1], 8);
+  auto memSpace = rx::getBit(queue.rptr[1], 4);
+  auto function = rx::getBits(queue.rptr[1], 2, 0);
+  auto pollAddressLo = queue.rptr[2];
+  auto pollAddressHi = queue.rptr[3] & ((1 << 16) - 1);
+  auto reference = queue.rptr[4];
+  auto mask = queue.rptr[5];
+  auto pollInterval = queue.rptr[6];
+
+  std::uint32_t pollData;
+
+  if (memSpace == 0) {
+    pollData = *getMmRegister(pollAddressLo & ((1 << 16) - 1));
+  } else {
+    auto pollAddress = (pollAddressLo & ~3) |
+                       (static_cast<std::uint64_t>(pollAddressHi) << 32);
+    pollData = *RemoteMemory{queue.vmId}.getPointer<std::uint32_t>(pollAddress);
+  }
+
+  return compare(function, pollData, mask, reference);
+}
+bool GraphicsPipe::indirectBuffer(Queue &queue) {
+  rx::dieIf(queue.indirectLevel < 0, "unexpected indirect buffer from CP");
+
+  auto addressLo = queue.rptr[1] & ~3;
+  auto addressHi = queue.rptr[2] & ((1 << 16) - 1);
+  auto vmId = queue.rptr[3] >> 24;
+  auto ibSize = queue.rptr[4] & ((1 << 20) - 1);
+  auto address = addressLo | (static_cast<std::uint64_t>(addressHi) << 32);
+
+  auto rptr = RemoteMemory{queue.vmId}.getPointer<std::uint32_t>(address);
+  setDeQueue(Queue::createFromRange(queue.vmId, rptr, ibSize),
+             queue.indirectLevel + 1);
+  return true;
+}
+bool GraphicsPipe::pfpSyncMe(Queue &queue) {
+  // TODO
+  return true;
+}
+bool GraphicsPipe::condWrite(Queue &queue) {
+  auto writeSpace = rx::getBit(queue.rptr[1], 8);
+  auto pollSpace = rx::getBit(queue.rptr[1], 4);
+  auto function = rx::getBits(queue.rptr[1], 2, 0);
+  auto pollAddressLo = queue.rptr[2];
+  auto pollAddressHi = queue.rptr[3] & ((1 << 16) - 1);
+  auto reference = queue.rptr[4];
+  auto mask = queue.rptr[5];
+  auto writeAddressLo = queue.rptr[6];
+  auto writeAddressHi = queue.rptr[7] & ((1 << 16) - 1);
+  auto writeData = queue.rptr[8];
+
+  std::uint32_t pollData;
+
+  if (pollSpace == 0) {
+    pollData = *getMmRegister(pollAddressLo & ((1 << 16) - 1));
+  } else {
+    auto pollAddress = (pollAddressLo & ~3) |
+                       (static_cast<std::uint64_t>(pollAddressHi) << 32);
+    pollData = *RemoteMemory{queue.vmId}.getPointer<std::uint32_t>(pollAddress);
+  }
+
+  if (compare(function, pollData, mask, reference)) {
+    if (writeSpace == 0) {
+      *getMmRegister(writeAddressLo & ((1 << 16) - 1)) = writeData;
+    } else {
+      auto writeAddress = (writeAddressLo & ~3) |
+                          (static_cast<std::uint64_t>(writeAddressHi) << 32);
+
+      *RemoteMemory{queue.vmId}.getPointer<std::uint32_t>(writeAddress) =
+          writeData;
+    }
+  }
+
+  return true;
+}
+
+bool GraphicsPipe::eventWrite(Queue &queue) {
+  enum {
+    kEventZPassDone = 1,
+    kEventSamplePipelineStat = 2,
+    kEventSampleStreamOutStat = 3,
+    kEventPartialFlush = 4,
+  };
+
+  auto eventCntl = queue.rptr[1];
+  auto invL2 = rx::getBit(eventCntl, 20);
+  auto eventIndex = rx::getBits(eventCntl, 11, 8);
+  auto eventType = rx::getBits(eventCntl, 5, 0);
+
+  context.vgtEventInitiator = eventType;
+
+  if (eventIndex == kEventZPassDone || eventIndex == kEventSamplePipelineStat ||
+      eventIndex == kEventSampleStreamOutStat) {
+    auto addressLo = queue.rptr[2] & ~7;
+    auto addressHi = queue.rptr[3] & ((1 << 16) - 1);
+    auto address = addressLo | (static_cast<std::uint64_t>(addressHi) << 32);
+    rx::die("unimplemented event write, event index %#x, address %lx",
+            eventIndex, address);
+    return true;
+  }
+
+  // FIXME
+  return true;
+}
+
+bool GraphicsPipe::eventWriteEop(Queue &queue) {
+  auto eventCntl = queue.rptr[1];
+  auto addressLo = queue.rptr[2] & ~3;
+  auto dataCntl = queue.rptr[3];
+  auto dataLo = queue.rptr[4];
+  auto dataHi = queue.rptr[5];
+
+  auto invL2 = rx::getBit(eventCntl, 20);
+  auto eventIndex = rx::getBits(eventCntl, 11, 8);
+  auto eventType = rx::getBits(eventCntl, 5, 0);
+  auto dataSel = rx::getBits(dataCntl, 31, 29);
+  auto intSel = rx::getBits(dataCntl, 25, 24);
+  auto addressHi = rx::getBits(dataCntl, 15, 0);
+
+  auto address = addressLo | (static_cast<std::uint64_t>(addressHi) << 32);
+  auto pointer = RemoteMemory{queue.vmId}.getPointer<std::uint64_t>(address);
+
+  context.vgtEventInitiator = eventType;
+
+  switch (dataSel) {
+  case 0: // none
+    break;
+  case 1: // 32 bit, low
+    *reinterpret_cast<std::uint32_t *>(pointer) = dataLo;
+    break;
+  case 2: // 64 bit
+    *pointer = dataLo | (static_cast<std::uint64_t>(dataHi) << 32);
+    break;
+  case 3: // 64 bit, global GPU clock
+    *pointer = std::chrono::duration_cast<std::chrono::nanoseconds>(
+                   std::chrono::system_clock::now().time_since_epoch())
+                   .count();
+    break;
+  case 4: // 64 bit, perf counter
+    *pointer = std::chrono::duration_cast<std::chrono::nanoseconds>(
+                   std::chrono::steady_clock::now().time_since_epoch())
+                   .count();
+    break;
+
+  default:
+    rx::die("unimplemented event write eop data %#x", dataSel);
+  }
+
+  return true;
+}
+
+bool GraphicsPipe::eventWriteEos(Queue &queue) {
+  auto eventCntl = queue.rptr[1];
+  auto addressLo = queue.rptr[2] & ~3;
+  auto cmdInfo = queue.rptr[3];
+  auto dataInfo = queue.rptr[4];
+
+  auto eventIndex = rx::getBits(eventCntl, 11, 8);
+  auto eventType = rx::getBits(eventCntl, 5, 0);
+  auto cmd = rx::getBits(cmdInfo, 31, 29);
+  auto addressHi = rx::getBits(cmdInfo, 15, 0);
+
+  auto address = addressLo | (static_cast<std::uint64_t>(addressHi) << 32);
+  auto pointer = RemoteMemory{queue.vmId}.getPointer<std::uint32_t>(address);
+
+  context.vgtEventInitiator = eventType;
+
+  switch (cmd) {
+  case 1: { // store GDS data to memory
+    auto sizeDw = rx::getBits(dataInfo, 31, 16);
+    auto gdsIndexDw = rx::getBits(dataInfo, 15, 0);
+    rx::die("unimplemented event write eos gds data");
+    break;
+  }
+
+  case 2: // after GDS writes confirm, store 32 bit DATA to memory as fence
+    *pointer = dataInfo;
+    break;
+
+  default:
+    rx::die("unexpected event write eos command: %#x", cmd);
+  }
+  return true;
+}
+
+bool GraphicsPipe::dmaData(Queue &queue) {
+  // FIXME
+  return true;
+}
+
+bool GraphicsPipe::setConfigReg(Queue &queue) {
+  rx::dieIf(queue.indirectLevel != 0, "setConfigReg from queue %d",
+            queue.indirectLevel);
+
+  auto len = rx::getBits(queue.rptr[0], 29, 16);
+  auto offset = queue.rptr[1];
+  auto data = queue.rptr + 2;
+
+  rx::dieIf(
+      (offset + len) * sizeof(std::uint32_t) > sizeof(device->config),
+      "out of Config regs, offset: %u, count %u, %s\n", offset, len,
+      gnm::mmio::registerName(decltype(device->config)::kMmioOffset + offset));
+
+  std::memcpy(reinterpret_cast<std::uint32_t *>(&device->config) + offset, data,
+              sizeof(std::uint32_t) * len);
+
+  return true;
+}
+
+bool GraphicsPipe::setShReg(Queue &queue) {
+  auto len = rx::getBits(queue.rptr[0], 29, 16);
+  auto offset = queue.rptr[1];
+  auto data = queue.rptr + 2;
+
+  rx::dieIf((offset + len) * sizeof(std::uint32_t) > sizeof(sh),
+            "out of SH regs, offset: %u, count %u, %s\n", offset, len,
+            gnm::mmio::registerName(decltype(sh)::kMmioOffset + offset));
+
+  std::memcpy(reinterpret_cast<std::uint32_t *>(&sh) + offset, data,
+              sizeof(std::uint32_t) * len);
+
+  return true;
+}
+
+bool GraphicsPipe::setUConfigReg(Queue &queue) {
+  auto len = rx::getBits(queue.rptr[0], 29, 16);
+  auto offset = queue.rptr[1];
+  auto data = queue.rptr + 2;
+
+  rx::dieIf((offset + len) * sizeof(std::uint32_t) > sizeof(uConfig),
+            "out of UConfig regs, offset: %u, count %u, %s\n", offset, len,
+            gnm::mmio::registerName(decltype(uConfig)::kMmioOffset + offset));
+
+  std::memcpy(reinterpret_cast<std::uint32_t *>(&uConfig) + offset, data,
+              sizeof(std::uint32_t) * len);
+
+  return true;
+}
+
+bool GraphicsPipe::setContextReg(Queue &queue) {
+  auto len = rx::getBits(queue.rptr[0], 29, 16);
+  auto offset = queue.rptr[1];
+  auto data = queue.rptr + 2;
+
+  rx::dieIf((offset + len) * sizeof(std::uint32_t) > sizeof(context),
+            "out of Context regs, offset: %u, count %u, %s\n", offset, len,
+            gnm::mmio::registerName(decltype(context)::kMmioOffset + offset));
+
+  std::memcpy(reinterpret_cast<std::uint32_t *>(&context) + offset, data,
+              sizeof(std::uint32_t) * len);
+
+  // for (std::size_t i = 0; i < len; ++i) {
+  //   std::fprintf(stderr,
+  //       "writing to %s value %x\n",
+  //       gnm::mmio::registerName(decltype(context)::kMmioOffset + offset + i),
+  //       data[i]);
+  // }
+  return true;
+}
+
+bool GraphicsPipe::setCeDeCounters(Queue &queue) {
+  auto counterLo = queue.rptr[1];
+  auto counterHi = queue.rptr[2];
+  auto counter = counterLo | (static_cast<std::uint64_t>(counterHi) << 32);
+  deCounter = counter;
+  ceCounter = counter;
+  return true;
+}
+
+bool GraphicsPipe::waitOnCeCounter(Queue &queue) {
+  auto counterLo = queue.rptr[1];
+  auto counterHi = queue.rptr[2];
+  auto counter = counterLo | (static_cast<std::uint64_t>(counterHi) << 32);
+  return deCounter >= counter;
+}
+
+bool GraphicsPipe::waitOnDeCounterDiff(Queue &queue) {
+  auto waitDiff = queue.rptr[1];
+  auto diff = ceCounter - deCounter;
+  return diff < waitDiff;
+}
+
+bool GraphicsPipe::incrementCeCounter(Queue &queue) {
+  ceCounter++;
+  return true;
+}
+
+bool GraphicsPipe::incrementDeCounter(Queue &queue) {
+  deCounter++;
+  return true;
+}
+
+bool GraphicsPipe::loadConstRam(Queue &queue) {
+  std::uint32_t addressLo = queue.rptr[1];
+  std::uint32_t addressHi = queue.rptr[2];
+  std::uint32_t numDw = queue.rptr[3] & ((1 << 15) - 1);
+  std::uint32_t offset =
+      (queue.rptr[4] & ((1 << 16) - 1)) / sizeof(std::uint32_t);
+  auto address = addressLo | (static_cast<std::uint64_t>(addressHi) << 32);
+  std::memcpy(constantMemory + offset,
+              RemoteMemory{queue.vmId}.getPointer(address),
+              numDw * sizeof(std::uint32_t));
+
+  return true;
+}
+
+bool GraphicsPipe::writeConstRam(Queue &queue) {
+  std::uint32_t offset =
+      (queue.rptr[1] & ((1 << 16) - 1)) / sizeof(std::uint32_t);
+  std::uint32_t data = queue.rptr[2];
+  std::memcpy(constantMemory + offset, &data, sizeof(std::uint32_t));
+  return true;
+}
+
+bool GraphicsPipe::dumpConstRam(Queue &queue) {
+  std::uint32_t offset =
+      (queue.rptr[1] & ((1 << 16) - 1)) / sizeof(std::uint32_t);
+  std::uint32_t numDw = queue.rptr[2] & ((1 << 15) - 1);
+  std::uint32_t addressLo = queue.rptr[3];
+  std::uint32_t addressHi = queue.rptr[4];
+  auto address = addressLo | (static_cast<std::uint64_t>(addressHi) << 32);
+  std::memcpy(RemoteMemory{queue.vmId}.getPointer(address),
+              constantMemory + offset, numDw * sizeof(std::uint32_t));
+
+  return true;
+}
+
+bool GraphicsPipe::unknownPacket(Queue &queue) {
+  auto op = rx::getBits(queue.rptr[0], 15, 8);
+
+  rx::die("unimplemented gfx pm4 packet: %s, queue %u\n",
+          gnm::pm4OpcodeToString(op), queue.indirectLevel);
+}
diff --git a/rpcsx-gpu2/Pipe.hpp b/rpcsx-gpu2/Pipe.hpp
new file mode 100644
index 00000000..4ac6a696
--- /dev/null
+++ b/rpcsx-gpu2/Pipe.hpp
@@ -0,0 +1,135 @@
+#pragma once
+#include "Registers.hpp"
+#include "Scheduler.hpp"
+
+#include <cstdint>
+#include <vulkan/vulkan_core.h>
+
+namespace amdgpu {
+class Device;
+
+struct Queue {
+  int vmId = -1;
+  int indirectLevel = -1;
+  std::uint32_t *doorbell{};
+  std::uint32_t *base{};
+  std::uint64_t size{};
+  std::uint32_t *rptr{};
+  std::uint32_t *wptr{};
+
+  static Queue createFromRange(int vmId, std::uint32_t *base,
+                               std::uint64_t size, int indirectLevel = 0,
+                               std::uint32_t *doorbell = nullptr) {
+    Queue result;
+    result.vmId = vmId;
+    result.indirectLevel = indirectLevel;
+    result.doorbell = doorbell;
+    result.base = base;
+    result.size = size;
+    result.rptr = base;
+    result.wptr = base + size;
+    return result;
+  }
+};
+
+struct ComputePipe {
+  Device *device;
+  Scheduler scheduler;
+
+  using CommandHandler = bool (ComputePipe::*)(Queue &);
+  CommandHandler commandHandlers[255];
+  Queue queues[8];
+  Registers::ComputeConfig computeConfig;
+
+  ComputePipe(int index);
+
+  bool processAllRings();
+  void processRing(Queue &queue);
+  void mapQueue(int queueId, Queue queue);
+
+  bool setShReg(Queue &queue);
+  bool unknownPacket(Queue &queue);
+  bool handleNop(Queue &queue);
+};
+
+struct GraphicsPipe {
+  Device *device;
+  Scheduler scheduler;
+
+  std::uint64_t ceCounter = 0;
+  std::uint64_t deCounter = 0;
+  std::uint64_t displayListPatchBase = 0;
+  std::uint64_t drawIndexIndirPatchBase = 0;
+  std::uint64_t gdsPartitionBases[2]{};
+  std::uint64_t cePartitionBases[2]{};
+  std::uint64_t vgtIndexBase = 0;
+  std::uint32_t vgtIndexBufferSize = 0;
+
+  std::uint32_t constantMemory[(48 * 1024) / sizeof(std::uint32_t)]{};
+
+  Registers::ShaderConfig sh;
+  Registers::Context context;
+  Registers::UConfig uConfig;
+
+  Queue deQueues[3];
+  Queue ceQueue;
+
+  using CommandHandler = bool (GraphicsPipe::*)(Queue &);
+  CommandHandler commandHandlers[3][255];
+
+  GraphicsPipe(int index);
+
+  void setCeQueue(Queue queue);
+  void setDeQueue(Queue queue, int ring);
+
+  bool processAllRings();
+  void processRing(Queue &queue);
+
+  bool drawPreamble(Queue &queue);
+  bool indexBufferSize(Queue &queue);
+  bool handleNop(Queue &queue);
+  bool contextControl(Queue &queue);
+  bool acquireMem(Queue &queue);
+  bool releaseMem(Queue &queue);
+  bool dispatchDirect(Queue &queue);
+  bool dispatchIndirect(Queue &queue);
+  bool writeData(Queue &queue);
+  bool memSemaphore(Queue &queue);
+  bool waitRegMem(Queue &queue);
+  bool indirectBuffer(Queue &queue);
+  bool condWrite(Queue &queue);
+  bool eventWrite(Queue &queue);
+  bool eventWriteEop(Queue &queue);
+  bool eventWriteEos(Queue &queue);
+  bool dmaData(Queue &queue);
+  bool setBase(Queue &queue);
+  bool clearState(Queue &queue);
+  bool setPredication(Queue &queue);
+  bool drawIndirect(Queue &queue);
+  bool drawIndexIndirect(Queue &queue);
+  bool indexBase(Queue &queue);
+  bool drawIndex2(Queue &queue);
+  bool indexType(Queue &queue);
+  bool drawIndexAuto(Queue &queue);
+  bool numInstances(Queue &queue);
+  bool drawIndexMultiAuto(Queue &queue);
+  bool drawIndexOffset2(Queue &queue);
+  bool pfpSyncMe(Queue &queue);
+  bool setCeDeCounters(Queue &queue);
+  bool waitOnCeCounter(Queue &queue);
+  bool waitOnDeCounterDiff(Queue &queue);
+  bool incrementCeCounter(Queue &queue);
+  bool incrementDeCounter(Queue &queue);
+  bool loadConstRam(Queue &queue);
+  bool writeConstRam(Queue &queue);
+  bool dumpConstRam(Queue &queue);
+  bool setConfigReg(Queue &queue);
+  bool setShReg(Queue &queue);
+  bool setUConfigReg(Queue &queue);
+  bool setContextReg(Queue &queue);
+
+  bool unknownPacket(Queue &queue);
+
+  std::uint32_t *getMmRegister(std::uint32_t dwAddress);
+};
+} // namespace amdgpu
\ No newline at end of file
diff --git a/rpcsx-gpu2/Registers.cpp b/rpcsx-gpu2/Registers.cpp
new file mode 100644
index 00000000..6a834ff3
--- /dev/null
+++ b/rpcsx-gpu2/Registers.cpp
@@ -0,0 +1,52 @@
+#include "Registers.hpp"
+
+amdgpu::Registers::Context amdgpu::Registers::Context::Default = [] {
+  amdgpu::Registers::Context result{};
+  result.paScScreenScissor.bottom = 0x4000;
+  result.paScScreenScissor.right = 0x4000;
+
+  result.paScWindowScissor.top = 0x8000;
+  result.paScWindowScissor.bottom = 0x4000;
+  result.paScWindowScissor.right = 0x4000;
+
+  for (auto &clipRect : result.paScClipRect) {
+    clipRect.bottom = 0x4000;
+    clipRect.right = 0x4000;
+  }
+
+  result.unk_8c = 0xaa99aaaa;
+  result.paScGenericScissor.top = 0x8000;
+  result.paScGenericScissor.bottom = 0x4000;
+  result.paScGenericScissor.right = 0x4000;
+
+  for (auto &vportScissor : result.paScVportScissor) {
+    vportScissor.top = 0x8000;
+    vportScissor.bottom = 0x4000;
+    vportScissor.right = 0x4000;
+  }
+
+  for (auto &vportZ : result.paScVportZ) {
+    vportZ.min = 0.0f;
+    vportZ.max = 1.0f;
+  }
+
+  result.unk_d4 = 0x2a00161a;
+  result.spiPsInControl = 2;
+  result.paClClipCntl = 0x0009'0000;
+  result.paSuScModeCntl.polyMode = gnm::PolyMode::Dual;
+  result.vgtGsPerEs = 256;
+  result.vgtEsPerGs = 128;
+  result.vgtGsPerVs = 2;
+  result.iaMultiVgtParam = 0xff;
+  result.unk_2f7 = 0x00001000;
+  result.paSuVtxCntl.pixCenterHalf = true;
+  result.paSuVtxCntl.roundMode = gnm::RoundMode::RoundToEven;
+  result.paClGbVertClipAdj = 1.0f;
+  result.paClGbVertDiscAdj = 1.0f;
+  result.paClGbHorzClipAdj = 1.0f;
+  result.paClGbHorzDiscAdj = 1.0f;
+  result.unk_316 = 0xe;
+  result.vgtOutDeallocCntl = 0x10;
+  return result;
+}();
+
diff --git a/rpcsx-gpu2/Registers.hpp b/rpcsx-gpu2/Registers.hpp
new file mode 100644
index 00000000..65adffe7
--- /dev/null
+++ b/rpcsx-gpu2/Registers.hpp
@@ -0,0 +1,931 @@
+#pragma once
+
+#include "amdgpu/tiler.hpp"
+#include "gnm/constants.hpp"
+#include <array>
+#include <cstdint>
+#include <type_traits>
+
+namespace amdgpu {
+enum class Engine {
+  ME,
+  PFP,
+  CE,
+};
+
+enum class EventIndex {
+  OTHER,
+  ZPASS_DONE,
+  SAMAPE_PIPELINE_STAT,
+  SAMPLE_STREAM_OUT_STATS,
+  CS_VS_PS_PARTIAL_FLUSH,
+  ANY_EOP_TIMESTAMP,
+  CS_PS_EOS,
+};
+
+enum class ProtectionFaultAccess : std::uint32_t {
+  Read = 0,
+  Write = 1,
+};
+
+namespace detail {
+#pragma pack(push, 1)
+template <std::size_t Count> struct Padding {
+private:
+  std::uint32_t _[Count];
+};
+} // namespace detail
+
+template <std::size_t Offset, typename ImplT = std::uint32_t>
+struct Register : detail::Padding<Offset>, ImplT {
+  Register() = default;
+  Register(const Register &) = default;
+  Register &operator=(const Register &) = default;
+
+  Register &operator=(const ImplT &newValue) {
+    *static_cast<ImplT *>(this) = newValue;
+    return *this;
+  }
+};
+
+template <std::size_t Offset, typename ImplT>
+  requires(std::is_integral_v<ImplT> || std::is_floating_point_v<ImplT> ||
+           std::is_enum_v<ImplT>)
+struct Register<Offset, ImplT> : detail::Padding<Offset> {
+  ImplT value;
+
+  Register() = default;
+  Register(const Register &) = default;
+  Register &operator=(const Register &) = default;
+  Register &operator=(ImplT newValue) {
+    value = newValue;
+    return *this;
+  }
+
+  operator ImplT() { return value; }
+};
+
+struct CbColorAttrib {
+  union {
+    struct {
+      std::uint32_t tileModeIndex : 5;
+      std::uint32_t fmaskTileModeIndex : 4;
+      std::uint32_t : 3;
+      std::uint32_t numSamples : 3;
+      std::uint32_t numFragments : 2;
+      std::uint32_t forceDstAlpha1 : 1;
+    };
+
+    std::uint32_t raw;
+  };
+};
+
+struct CbColorView {
+  union {
+    struct {
+      std::uint32_t sliceStart : 11;
+      std::uint32_t : 2;
+      std::uint32_t sliceMax : 11;
+    };
+    std::uint32_t raw;
+  };
+};
+
+struct CbColorControl {
+  union {
+    struct {
+      std::uint32_t : 3;
+      std::uint32_t degammaEnable : 1;
+      gnm::CbMode mode : 3;
+      std::uint32_t : 9;
+      std::uint32_t rop3 : 8;
+    };
+    std::uint32_t raw;
+  };
+};
+
+struct CbShaderMask {
+  union {
+    struct {
+      std::uint32_t output0Enable : 4;
+      std::uint32_t output1Enable : 4;
+      std::uint32_t output2Enable : 4;
+      std::uint32_t output3Enable : 4;
+      std::uint32_t output4Enable : 4;
+      std::uint32_t output5Enable : 4;
+      std::uint32_t output6Enable : 4;
+      std::uint32_t output7Enable : 4;
+    };
+    std::uint32_t raw;
+  };
+};
+
+struct CbTargetMask {
+  union {
+    struct {
+      std::uint32_t target0Enable : 4;
+      std::uint32_t target1Enable : 4;
+      std::uint32_t target2Enable : 4;
+      std::uint32_t target3Enable : 4;
+      std::uint32_t target4Enable : 4;
+      std::uint32_t target5Enable : 4;
+      std::uint32_t target6Enable : 4;
+      std::uint32_t target7Enable : 4;
+    };
+    std::uint32_t raw;
+  };
+};
+
+enum class CbCompSwap : std::uint32_t {
+  Std,
+  Alt,
+  StdRev,
+  AltRev,
+};
+
+struct CbColorInfo {
+  union {
+    struct {
+      std::uint32_t endian : 2;
+      gnm::DataFormat dfmt : 5;
+      std::uint32_t linearGeneral : 1;
+      gnm::NumericFormat nfmt : 3;
+      CbCompSwap compSwap : 2;
+      std::uint32_t fastClear : 1;
+      std::uint32_t compression : 1;
+      std::uint32_t blendClamp : 1;
+      std::uint32_t blendBypass : 1;
+      std::uint32_t simpleFloat : 1;
+      std::uint32_t roundMode : 1;
+      std::uint32_t cmaskIsLinear : 1;
+      std::uint32_t blendOptDontRdDst : 3;
+      std::uint32_t blendOptDiscardPixel : 3;
+    };
+
+    std::uint32_t raw;
+  };
+};
+
+struct CbColor {
+  std::uint32_t base;
+  std::uint32_t pitch;
+  std::uint32_t slice;
+  CbColorView view;
+  CbColorInfo info;
+  CbColorAttrib attrib;
+  std::uint32_t dccBase;
+  std::uint32_t cmask;
+  std::uint32_t cmaskSlice : 14;
+  std::uint32_t fmask;
+  std::uint32_t fmaskSlice;
+  std::uint32_t clearWord0;
+  std::uint32_t clearWord1;
+  std::uint32_t clearWord2;
+  std::uint32_t clearWord3;
+};
+
+struct PaClVport {
+  float xScale;
+  float xOffset;
+  float yScale;
+  float yOffset;
+  float zScale;
+  float zOffset;
+};
+
+struct PaScVportZ {
+  float min;
+  float max;
+};
+
+struct PaScRect {
+  std::uint16_t left;
+  std::uint16_t top;
+  std::uint16_t right;
+  std::uint16_t bottom;
+};
+
+struct SpiShaderPgm {
+  std::uint32_t rsrc3;
+  std::uint64_t address;
+
+  union {
+    struct {
+      std::uint32_t vgprs : 6;
+      std::uint32_t sgprs : 4;
+      std::uint32_t priority : 2;
+      std::uint32_t floatMode : 8;
+      std::uint32_t priv : 1;
+      std::uint32_t dx10Clamp : 1;
+      std::uint32_t debugMode : 1;
+      std::uint32_t ieeeMode : 1;
+    };
+
+    struct {
+      std::uint32_t : 24;
+      std::uint32_t cuGroupEnable : 1;
+    } es;
+
+    struct {
+      std::uint32_t : 24;
+      std::uint32_t cuGroupEnable : 1;
+    } gs;
+
+    struct {
+      std::uint32_t : 24;
+      std::uint32_t vgprCompCnt : 2;
+    } ls;
+
+    struct {
+      std::uint32_t : 24;
+      std::uint32_t cuGroupDisable : 1;
+    } ps;
+
+    struct {
+      std::uint32_t : 24;
+      std::uint32_t vgprCompCnt : 2;
+      std::uint32_t cuGroupEnable : 1;
+    } vs;
+
+    std::uint8_t getVGprCount() const { return (vgprs + 1) * 4; }
+    std::uint8_t getSGprCount() const { return (sgprs + 1) * 8; }
+
+    std::uint32_t raw;
+  } rsrc1;
+
+  union {
+    struct {
+      std::uint32_t scratchEn : 1;
+      std::uint32_t userSgpr : 5;
+      std::uint32_t trapPresent : 1;
+    };
+
+    struct {
+      std::uint32_t : 7;
+      std::uint32_t ocLdsEn : 1;
+      std::uint32_t soBase0En : 1;
+      std::uint32_t soBase1En : 1;
+      std::uint32_t soBase2En : 1;
+      std::uint32_t soBase3En : 1;
+      std::uint32_t soEn : 1;
+      std::uint32_t excpEn : 7;
+    } vs;
+
+    struct {
+      std::uint32_t : 7;
+      std::uint32_t ocLdsEn : 1;
+      std::uint32_t excpEn : 7;
+    } es;
+
+    struct {
+      std::uint32_t : 7;
+      std::uint32_t excpEn : 7;
+    } gs;
+
+    struct {
+      std::uint32_t : 7;
+      std::uint32_t ocLdsEn : 1;
+      std::uint32_t tgSizeEn : 1;
+      std::uint32_t excpEn : 7;
+    } hs;
+
+    struct {
+      std::uint32_t : 7;
+      std::uint32_t ldsSize : 9;
+      std::uint32_t excpEn : 7;
+    } ls;
+    std::uint32_t raw;
+  } rsrc2;
+
+  std::array<std::uint32_t, 16> userData;
+};
+
+struct VmProtectionFault {
+  std::uint32_t protection : 8;
+  std::uint32_t : 4;
+  std::uint32_t client : 8;
+  std::uint32_t : 4;
+  ProtectionFaultAccess rw : 1;
+  std::uint32_t vmid : 4;
+  std::uint32_t : 3;
+};
+
+enum class LsStage : std::uint32_t {
+  LsOff,
+  LsOn,
+  CsOn,
+};
+
+enum class EsStage : std::uint32_t {
+  EsOff,
+  EsDs,
+  EsReal,
+};
+
+enum class VsStage : std::uint32_t {
+  VsReal,
+  VsDs,
+  VsCopy,
+};
+
+struct VgtShaderStagesEn {
+  union {
+    struct {
+      LsStage lsEn : 2;
+      bool hsEn : 1;
+      EsStage esEn : 2;
+      bool gsEn : 1;
+      VsStage vsEn : 2;
+      bool dynamicHs : 1;
+    };
+    std::uint32_t raw;
+  };
+};
+
+struct FbInfo {
+  std::uint16_t base; // address >> 24
+  std::uint16_t unk;
+};
+
+struct DbDepthControl {
+  union {
+    struct {
+      bool stencilEnable : 1;
+      bool depthEnable : 1;
+      bool depthWriteEnable : 1;
+      bool depthBoundsEnable : 1;
+      gnm::CompareFunc zFunc : 3;
+      bool backFaceEnable : 1;
+      gnm::CompareFunc stencilFunc : 3;
+      std::uint32_t : 9;
+      gnm::CompareFunc stencilFuncBackFace : 3;
+      std::uint32_t : 7;
+      bool enableColorWritesOnDepthFail : 1;
+      bool disableColorWritesOnDepthPass : 1;
+    };
+
+    std::uint32_t raw;
+  };
+};
+
+struct DbZInfo {
+  union {
+    struct {
+      gnm::ZFormat format : 2;
+      std::uint32_t numSamples : 2;
+      std::uint32_t : 16;
+      std::uint32_t tileModeIndex : 3;
+      std::uint32_t : 4;
+      bool allowExpClear : 1;
+      std::uint32_t readSize : 1; // 0 - 256 bit, 1 - 512 bit
+      bool tileSurfaceEnable : 1;
+      std::uint32_t : 1;
+      bool zRangePrecision : 1;
+    };
+
+    std::uint32_t raw;
+  };
+};
+
+struct DbRenderControl {
+  union {
+    struct {
+      bool depthClearEnable : 1;
+      bool stencilClearEnable : 1;
+      bool depthCopy : 1;
+      bool stencilCopy : 1;
+      bool resummarizeEnable : 1;
+      bool stencilCompressDisable : 1;
+      bool depthCompressDisable : 1;
+      bool copyCentroid : 1;
+      std::uint32_t copySample : 4;
+    };
+
+    std::uint32_t raw;
+  };
+};
+
+struct CbBlendControl {
+  union {
+    struct {
+      gnm::BlendMultiplier colorSrcBlend : 5;
+      gnm::BlendFunc colorCombFcn : 3;
+      gnm::BlendMultiplier colorDstBlend : 5;
+      std::uint32_t : 3;
+      gnm::BlendMultiplier alphaSrcBlend : 5;
+      gnm::BlendFunc alphaCombFcn : 3;
+      gnm::BlendMultiplier alphaDstBlend : 5;
+
+      bool separateAlphaBlend : 1;
+      bool enable : 1;
+      bool disableRop3 : 1;
+    };
+
+    std::uint32_t raw;
+  };
+};
+
+struct PaSuScModeCntl {
+  union {
+    struct {
+      bool cullFront : 1;
+      bool cullBack : 1;
+      gnm::Face face : 1;
+      gnm::PolyMode polyMode : 2;
+      gnm::PolyModePtype polyModeFrontPtype : 3;
+      gnm::PolyModePtype polyModeBackPtype : 3;
+      bool polyOffsetFrontEnable : 1;
+      bool polyOffsetBackEnable : 1;
+      bool polyOffsetParaEnable : 1;
+      std::uint32_t : 2;
+      bool vtxWindowOffsetEnable : 1;
+      std::uint32_t : 2;
+      bool provokingVtxLast : 1;
+      bool perspCorrDis : 1;
+      bool multiPrimIbEna : 1;
+    };
+
+    std::uint32_t raw;
+  };
+};
+
+struct PaSuVtxCntl {
+  union {
+    struct {
+      bool pixCenterHalf : 1;
+      gnm::RoundMode roundMode : 2;
+      gnm::QuantMode quantMode : 3;
+    };
+
+    std::uint32_t raw;
+  };
+};
+
+struct SpiPsInput {
+  union {
+    struct {
+      bool perspSampleEna : 1;
+      bool perspCenterEna : 1;
+      bool perspCentroidEna : 1;
+      bool perspPullModelEna : 1;
+      bool linearSampleEna : 1;
+      bool linearCenterEna : 1;
+      bool linearCentroidEna : 1;
+      bool lineStippleTexEna : 1;
+      bool posXFloatEna : 1;
+      bool posYFloatEna : 1;
+      bool posZFloatEna : 1;
+      bool posWFloatEna : 1;
+      bool frontFaceEna : 1;
+      bool ancillaryEna : 1;
+      bool sampleCoverageEna : 1;
+      bool posFixedPtEna : 1;
+    };
+
+    std::uint32_t raw;
+  };
+};
+
+enum class SpiPsDefaultVal : std::uint8_t {
+  X0_Y0_Z0_W0,
+  X0_Y0_Z0_W1,
+  X1_Y1_Z1_W0,
+  X1_Y1_Z1_W1,
+};
+
+struct SpiPsInputCntl {
+  union {
+    struct {
+      std::uint32_t offset : 4;
+      bool useDefaultVal : 1;
+      std::uint32_t : 3;
+      SpiPsDefaultVal defaultVal : 2;
+      bool flatShade : 1;
+      std::uint32_t : 2;
+      std::uint32_t cylWrap : 4;
+      bool ptSpriteTex : 1;
+    };
+
+    std::uint32_t raw;
+  };
+};
+struct Registers {
+  static constexpr auto kRegisterCount = 0xf000;
+
+  struct Config {
+    static constexpr auto kMmioOffset = 0x2000;
+
+    Register<0xad, std::array<std::uint32_t, 3>> cpPrtLodStatsCntls;
+    Register<0x1c0> cpRbRptr;
+    Register<0x1bf> cpRb1Rptr;
+    Register<0x1be> cpRb2Rptr;
+    Register<0x232> vgtEsGsRingSize;
+    Register<0x233> vgtGsVsRingSize;
+    Register<0x262> vgtTfRingSize;
+    Register<0x26e> vgtTfMemoryBase;
+    Register<0x3c0, std::array<std::uint32_t, 4>> sqBufRsrcWords;
+    Register<0x3c4, std::array<std::uint32_t, 7>> sqImgRsrcWords;
+    Register<0x3cc, std::array<std::uint32_t, 4>> sqImgSampWords;
+    Register<0x644, std::array<TileMode, 32>> gbTileModes;
+    Register<0x664, std::array<MacroTileMode, 16>> gbMacroTileModes;
+  };
+
+  struct ComputeConfig {
+    static constexpr auto kMmioOffset = 0x2e00;
+
+    std::uint32_t computeDispatchInitiator;
+    std::uint32_t _pad0[6];
+    std::uint32_t computeNumThreadX;
+    std::uint32_t computeNumThreadY;
+    std::uint32_t computeNumThreadZ;
+    std::uint32_t _pad1[2];
+    std::uint32_t computePgmLo;
+    std::uint32_t computePgmHi;
+    std::uint32_t _pad2[4];
+    std::uint32_t computePgmRsrc1;
+    std::uint32_t computePgmRsrc2;
+    std::uint32_t _pad3[1];
+    std::uint32_t computeResourceLimits;
+    std::uint32_t computeStaticThreadMgmtSe0;
+    std::uint32_t computeStaticThreadMgmtSe1;
+    std::uint32_t computeTmpRingSize;
+    std::uint32_t _pad4[39];
+    std::array<std::uint32_t, 16> userData;
+  };
+
+  struct ShaderConfig {
+    static constexpr auto kMmioOffset = 0x2c00;
+
+    union {
+      Register<0x7, SpiShaderPgm> spiShaderPgmPs;
+      Register<0x47, SpiShaderPgm> spiShaderPgmVs;
+      Register<0x87, SpiShaderPgm> spiShaderPgmGs;
+      Register<0xc7, SpiShaderPgm> spiShaderPgmEs;
+      Register<0x107, SpiShaderPgm> spiShaderPgmHs;
+      Register<0x147, SpiShaderPgm> spiShaderPgmLs;
+      Register<0x200, ComputeConfig> compute;
+    };
+  };
+
+  struct Context {
+    static constexpr auto kMmioOffset = 0xa000;
+    static Context Default;
+
+    union {
+      Register<0x0, DbRenderControl> dbRenderControl;
+      Register<0x1> dbCountControl;
+      Register<0x2> dbDepthView;
+      Register<0x3> dbRenderOverride;
+      Register<0x4> dbRenderOverride2;
+      Register<0x5> dbHTileDataBase;
+      Register<0x8, float> dbDepthBoundsMin;
+      Register<0x9, float> dbDepthBoundsMax;
+      Register<0xa> dbStencilClear;
+      Register<0xb, float> dbDepthClear;
+      Register<0xc, PaScRect> paScScreenScissor;
+      Register<0xf> dbDepthInfo;
+      Register<0x10, DbZInfo> dbZInfo;
+      Register<0x11> dbStencilInfo;
+      Register<0x12> dbZReadBase;
+      Register<0x13> dbStencilReadBase;
+      Register<0x14> dbZWriteBase;
+      Register<0x15> dbStencilWriteBase;
+      Register<0x16> dbDepthSize;
+      Register<0x17> dbDepthSlice;
+      Register<0x20> taBcBaseAddr;
+      Register<0x80> paScWindowOffset;
+      Register<0x81, PaScRect> paScWindowScissor;
+      Register<0x83> paScClipRectRule;
+      Register<0x84, std::array<PaScRect, 4>> paScClipRect;
+      Register<0x8c> unk_8c;
+      Register<0x8d> paSuHardwareScreenOffset;
+      Register<0x8e, CbTargetMask> cbTargetMask;
+      Register<0x8f, CbShaderMask> cbShaderMask;
+      Register<0x90, PaScRect> paScGenericScissor;
+      Register<0x94, std::array<PaScRect, 16>> paScVportScissor;
+      Register<0xb4, std::array<PaScVportZ, 16>> paScVportZ;
+      Register<0xd4> unk_d4;
+      Register<0xd8> cpPerfMonCntxCntl;
+      Register<0x100> vgtMaxVtxIndx;
+      Register<0x101> vgtMinVtxIndx;
+      Register<0x102> vgtIndxOffset;
+      Register<0x103> vgtMultiPrimIbResetIndx;
+      Register<0x105, float> cbBlendRed;
+      Register<0x106, float> cbBlendGreen;
+      Register<0x107, float> cbBlendBlue;
+      Register<0x108, float> cbBlendAlpha;
+      Register<0x10b> dbStencilControl;
+      Register<0x10c> dbStencilRefMask;
+      Register<0x10d> dbStencilRefMaskBf;
+      Register<0x10f, std::array<PaClVport, 16>> paClVports;
+      Register<0x16f> paClUcp0X;
+      Register<0x170> paClUcp0Y;
+      Register<0x171> paClUcp0Z;
+      Register<0x172> paClUcp0W;
+      Register<0x191, std::array<SpiPsInputCntl, 32>> spiPsInputCntl;
+      Register<0x1b1> spiVsOutConfig;
+      Register<0x1b3, SpiPsInput> spiPsInputEna;
+      Register<0x1b4, SpiPsInput> spiPsInputAddr;
+      Register<0x1b6> spiPsInControl;
+      Register<0x1b8> spiBarycCntl;
+      Register<0x1ba> spiTmpRingSize;
+      Register<0x1c3> spiShaderPosFormat;
+      Register<0x1c4> spiShaderZFormat;
+      Register<0x1c5> spiShaderColFormat;
+      Register<0x1e0, std::array<CbBlendControl, 8>> cbBlendControl;
+      Register<0x1f9> vgtDmaBaseHi;
+      Register<0x1fa> vgtDmaBase;
+      Register<0x1fc> vgtDrawInitiator;
+      Register<0x1fd> vgtImmedData;
+      Register<0x200, DbDepthControl> dbDepthControl;
+      Register<0x201> dbEqaa;
+      Register<0x202, CbColorControl> cbColorControl;
+      Register<0x203> dbShaderControl;
+      Register<0x204> paClClipCntl;
+      Register<0x205, PaSuScModeCntl> paSuScModeCntl;
+      Register<0x206> paClVteCntl;
+      Register<0x207> paClVsOutCntl;
+      Register<0x280> paSuPointSize;
+      Register<0x281> paSuPointMinmax;
+      Register<0x282> paSuLineCntl;
+      Register<0x284> vgtOutputPathCntl;
+      Register<0x286> vgtHosMaxTessLevel;
+      Register<0x287> vgtHosMinTessLevel;
+      Register<0x290> vgtGsMode;
+      Register<0x291> vgtGsOnChipCntl;
+      Register<0x292> paScModeCntl0;
+      Register<0x293> paScModeCntl1;
+      Register<0x295> vgtGsPerEs;
+      Register<0x296> vgtEsPerGs;
+      Register<0x297> vgtGsPerVs;
+      Register<0x298, std::array<std::uint32_t, 3>> vgtGsVsRingOffsets;
+      Register<0x29b> vgtGsOutPrimType;
+      Register<0x29d> vgtDmaSize;
+      Register<0x29e> vgtDmaMaxSize;
+      Register<0x29f> vgtDmaIndexType;
+      Register<0x2a1> vgtPrimitiveIdEn;
+      Register<0x2a2> vgtDmaNumInstances;
+      Register<0x2a4> vgtEventInitiator;
+      Register<0x2a5> vgtMultiPrimIbResetEn;
+      Register<0x2a8> vgtInstanceStepRate0;
+      Register<0x2a9> vgtInstanceStepRate1;
+      Register<0x2aa> iaMultiVgtParam;
+      Register<0x2ab> vgtEsGsRingItemSize;
+      Register<0x2ac> vgtGsVsRingItemSize;
+      Register<0x2ad> vgtReuseOff;
+      Register<0x2ae> vgtVtxCntEn;
+      Register<0x2af> dbHTileSurface;
+      Register<0x2b0> dbSResultsCompareState0;
+      Register<0x2b1> dbSResultsCompareState1;
+      Register<0x2b4> vgtStrmOutBufferSize0;
+      Register<0x2b5> vgtStrmOutVtxStride0;
+      Register<0x2b8> vgtStrmOutBufferSize1;
+      Register<0x2b9> vgtStrmOutVtxStride1;
+      Register<0x2bc> vgtStrmOutBufferSize2;
+      Register<0x2bd> vgtStrmOutVtxStride2;
+      Register<0x2c0> vgtStrmOutBufferSize3;
+      Register<0x2c1> vgtStrmOutVtxStride3;
+      Register<0x2ca> vgtStrmOutDrawOpaqueOffset;
+      Register<0x2cb> vgtStrmOutDrawOpaqueBufferFilledSize;
+      Register<0x2cc> vgtStrmOutDrawOpaqueVertexStride;
+      Register<0x2ce> vgtGsMaxVertOut;
+      Register<0x2d5, VgtShaderStagesEn> vgtShaderStagesEn;
+      Register<0x2d6> vgtLsHsConfig;
+      Register<0x2d7, std::array<std::uint32_t, 4>> vgtGsVertItemSizes;
+      Register<0x2db> vgtTfParam;
+      Register<0x2dc> dbAlphaToMask;
+      Register<0x2dd> vgtDispatchDrawIndex;
+      Register<0x2de> paSuPolyOffsetDbFmtCntl;
+      Register<0x2df> paSuPolyOffsetClamp;
+      Register<0x2e0> paSuPolyOffsetFrontScale;
+      Register<0x2e1> paSuPolyOffsetFrontOffset;
+      Register<0x2e2> paSuPolyOffsetBackScale;
+      Register<0x2e3> paSuPolyOffsetBackOffset;
+      Register<0x2e4> vgtGsInstanceCnt;
+      Register<0x2e5> vgtStrmOutConfig;
+      Register<0x2e6> vgtStrmOutBufferConfig;
+      Register<0x2f5> paScCentroidPriority0;
+      Register<0x2f6> paScCentroidPriority1;
+      Register<0x2f7> unk_2f7;
+      Register<0x2f8> paScAaConfig;
+      Register<0x2f9, PaSuVtxCntl> paSuVtxCntl;
+      Register<0x2fa, float> paClGbVertClipAdj;
+      Register<0x2fb, float> paClGbVertDiscAdj;
+      Register<0x2fc, float> paClGbHorzClipAdj;
+      Register<0x2fd, float> paClGbHorzDiscAdj;
+      Register<0x2fe, std::array<std::uint32_t, 4>> paScAaSampleLocsPixelX0Y0;
+      Register<0x302, std::array<std::uint32_t, 4>> paScAaSampleLocsPixelX1Y0;
+      Register<0x306, std::array<std::uint32_t, 4>> paScAaSampleLocsPixelX0Y1;
+      Register<0x30a, std::array<std::uint32_t, 4>> paScAaSampleLocsPixelX1Y1;
+      Register<0x30e> paScAaMaskX0Y0_X1Y0;
+      Register<0x30f> paScAaMaskX0Y1_X1Y1;
+      Register<0x316> unk_316;
+      Register<0x317> vgtOutDeallocCntl;
+      Register<0x318, std::array<CbColor, 8>> cbColor;
+    };
+  };
+
+  struct UConfig {
+    static constexpr auto kMmioOffset = 0xc000;
+
+    union {
+      Register<0x3f> cpStrmOutCntl;
+      Register<0x79> cpCoherBaseHi;
+      Register<0x7d> cpCoherSize;
+      Register<0x7e> cpCoherBase;
+      Register<0x8b> cpDmaReadTags;
+      Register<0x8c> cpCoherSizeHi;
+      Register<0x200> grbmGfxIndex;
+      Register<0x242, gnm::PrimitiveType> vgtPrimitiveType;
+      Register<0x243, gnm::IndexType> vgtIndexType;
+      Register<0x24c> vgtNumIndices;
+      Register<0x24d> vgtNumInstances;
+      Register<0x340, std::array<std::uint32_t, 4>> sqThreadTraceUserdata;
+      Register<0x41d> gdsOaCntl;
+      Register<0x41e> gdsOaCounter;
+      Register<0x41f> gdsOaAddress;
+    };
+  };
+
+  struct Counters {
+    static constexpr auto kMmioOffset = 0xd000;
+
+    union {
+      Register<0x0, std::uint64_t> cpgPerfCounter1;
+      Register<0x2, std::uint64_t> cpgPerfCounter0;
+      Register<0x4, std::uint64_t> cpcPerfCounter1;
+      Register<0x6, std::uint64_t> cpcPerfCounter0;
+      Register<0x8, std::uint64_t> cpfPerfCounter1;
+      Register<0xa, std::uint64_t> cpfPerfCounter0;
+      Register<0x80, std::array<std::uint64_t, 4>> wdPerfCounters;
+      Register<0x88, std::array<std::uint64_t, 4>> iaPerfCounters;
+      Register<0x90, std::array<std::uint64_t, 4>> vgtPerfCounters;
+      Register<0x100, std::array<std::uint64_t, 4>> paSuPerfCounters;
+      Register<0x140, std::array<std::uint64_t, 8>> paScPerfCounters;
+      Register<0x180> spiPerfCounter0Hi;
+      Register<0x181> spiPerfCounter0Lo;
+      Register<0x182> spiPerfCounter1Hi;
+      Register<0x183> spiPerfCounter1Lo;
+      Register<0x184> spiPerfCounter2Hi;
+      Register<0x185> spiPerfCounter2Lo;
+      Register<0x186> spiPerfCounter3Hi;
+      Register<0x187> spiPerfCounter3Lo;
+      Register<0x188> spiPerfCounter4Hi;
+      Register<0x189> spiPerfCounter4Lo;
+      Register<0x18a> spiPerfCounter5Hi;
+      Register<0x18b> spiPerfCounter5Lo;
+      Register<0x1c0, std::array<std::uint64_t, 16>> sqPerfCounters;
+      Register<0x240, std::array<std::uint64_t, 4>> sxPerfCounters;
+      Register<0x280, std::array<std::uint64_t, 4>> gdsPerfCounters;
+      Register<0x2c0, std::array<std::uint64_t, 2>> taPerfCounters;
+      Register<0x300, std::array<std::uint64_t, 2>> tdPerfCounters;
+      Register<0x340, std::array<std::uint64_t, 4>> tcpPerfCounters;
+      Register<0x380, std::array<std::uint64_t, 4>> tccPerfCounters;
+      Register<0x390, std::array<std::uint64_t, 4>> tcaPerfCounters;
+      Register<0x3a0, std::array<std::uint64_t, 4>> tcsPerfCounters;
+      Register<0x406, std::array<std::uint64_t, 4>> cbPerfCounters;
+      Register<0x440, std::array<std::uint64_t, 4>> dbPerfCounters;
+      Register<0x800> cpgPerfCounter1Select;
+      Register<0x801> cpgPerfCounter0Select1;
+      Register<0x802> cpgPerfCounter0Select;
+      Register<0x803> cpcPerfCounter1Select;
+      Register<0x804> cpcPerfCounter0Select1;
+      Register<0x805> cpfPerfCounter1Select;
+      Register<0x806> cpfPerfCounter0Select1;
+      Register<0x807> cpfPerfCounter0Select;
+      Register<0x808> cpPerfMonCntl;
+      Register<0x809> cpcPerfCounter0Select;
+      Register<0x880> wdPerfCounter0Select;
+      Register<0x881> wdPerfCounter1Select;
+      Register<0x882> wdPerfCounter2Select;
+      Register<0x883> wdPerfCounter3Select;
+      Register<0x884> iaPerfCounter0Select;
+      Register<0x885> iaPerfCounter1Select;
+      Register<0x886> iaPerfCounter2Select;
+      Register<0x887> iaPerfCounter3Select;
+      Register<0x888> iaPerfCounter0Select1;
+      Register<0x88c> vgtPerfCounter0Select;
+      Register<0x88d> vgtPerfCounter1Select;
+      Register<0x88e> vgtPerfCounter2Select;
+      Register<0x88f> vgtPerfCounter3Select;
+      Register<0x890> vgtPerfCounter0Select1;
+      Register<0x891> vgtPerfCounter1Select1;
+      Register<0x900> paSuPerfCounter0Select;
+      Register<0x901> paSuPerfCounter0Select1;
+      Register<0x902> paSuPerfCounter1Select;
+      Register<0x903> paSuPerfCounter1Select1;
+      Register<0x904> paSuPerfCounter2Select;
+      Register<0x905> paSuPerfCounter3Select;
+      Register<0x940> paScPerfCounter0Select;
+      Register<0x941> paScPerfCounter0Select1;
+      Register<0x942> paScPerfCounter1Select;
+      Register<0x943> paScPerfCounter2Select;
+      Register<0x944> paScPerfCounter3Select;
+      Register<0x945> paScPerfCounter4Select;
+      Register<0x946> paScPerfCounter5Select;
+      Register<0x947> paScPerfCounter6Select;
+      Register<0x948> paScPerfCounter7Select;
+      Register<0x980> spiPerfCounter0Select;
+      Register<0x981> spiPerfCounter1Select;
+      Register<0x982> spiPerfCounter2Select;
+      Register<0x983> spiPerfCounter3Select;
+      Register<0x984> spiPerfCounter0Select1;
+      Register<0x985> spiPerfCounter1Select1;
+      Register<0x986> spiPerfCounter2Select1;
+      Register<0x987> spiPerfCounter3Select1;
+      Register<0x988> spiPerfCounter4Select;
+      Register<0x989> spiPerfCounter5Select;
+      Register<0x98a> spiPerfCounterBins;
+      Register<0x9c0, std::array<std::uint32_t, 16>> sqPerfCountersSelect;
+      Register<0x9e0> sqPerfCounterCtrl;
+      Register<0xa40> sxPerfCounter0Select;
+      Register<0xa41> sxPerfCounter1Select;
+      Register<0xa42> sxPerfCounter2Select;
+      Register<0xa43> sxPerfCounter3Select;
+      Register<0xa44> sxPerfCounter0Select1;
+      Register<0xa45> sxPerfCounter1Select1;
+      Register<0xa80> gdsPerfCounter0Select;
+      Register<0xa81> gdsPerfCounter1Select;
+      Register<0xa82> gdsPerfCounter2Select;
+      Register<0xa83> gdsPerfCounter3Select;
+      Register<0xa84> gdsPerfCounter0Select1;
+      Register<0xac0> taPerfCounter0Select;
+      Register<0xac1> taPerfCounter0Select1;
+      Register<0xac2> taPerfCounter1Select;
+      Register<0xb00> tdPerfCounter0Select;
+      Register<0xb01> tdPerfCounter0Select1;
+      Register<0xb02> tdPerfCounter1Select;
+      Register<0xb40> tcpPerfCounter0Select;
+      Register<0xb41> tcpPerfCounter0Select1;
+      Register<0xb42> tcpPerfCounter1Select;
+      Register<0xb43> tcpPerfCounter1Select1;
+      Register<0xb44> tcpPerfCounter2Select;
+      Register<0xb45> tcpPerfCounter3Select;
+      Register<0xb80> tccPerfCounter0Select;
+      Register<0xb81> tccPerfCounter0Select1;
+      Register<0xb82> tccPerfCounter1Select;
+      Register<0xb83> tccPerfCounter1Select1;
+      Register<0xb84> tccPerfCounter2Select;
+      Register<0xb85> tccPerfCounter3Select;
+      Register<0xb90> tcaPerfCounter0Select;
+      Register<0xb91> tcaPerfCounter0Select1;
+      Register<0xb92> tcaPerfCounter1Select;
+      Register<0xb93> tcaPerfCounter1Select1;
+      Register<0xb94> tcaPerfCounter2Select;
+      Register<0xb95> tcaPerfCounter3Select;
+      Register<0xba0> tcsPerfCounter0Select;
+      Register<0xba1> tcsPerfCounter0Select1;
+      Register<0xba2> tcsPerfCounter1Select;
+      Register<0xba3> tcsPerfCounter2Select;
+      Register<0xba4> tcsPerfCounter3Select;
+      Register<0xc00> cbPerfCounterFilter;
+      Register<0xc01> cbPerfCounter0Select;
+      Register<0xc02> cbPerfCounter0Select1;
+      Register<0xc03> cbPerfCounter1Select;
+      Register<0xc04> cbPerfCounter2Select;
+      Register<0xc05> cbPerfCounter3Select;
+      Register<0xc40> dbPerfCounter0Select;
+      Register<0xc41> dbPerfCounter0Select1;
+      Register<0xc42> dbPerfCounter1Select;
+      Register<0xc43> dbPerfCounter1Select1;
+      Register<0xc44> dbPerfCounter2Select;
+      Register<0xc46> dbPerfCounter3Select;
+    };
+  };
+
+  union {
+    Register<0x50c, std::uint32_t> vmContext0ProtectionIntrCtl;
+    Register<0x50d, std::uint32_t> vmContext1ProtectionIntrCtl;
+    Register<0x536, VmProtectionFault> vmContext0ProtectionFault;
+    Register<0x537, VmProtectionFault> vmContext1ProtectionFault;
+    Register<0x53e, std::uint32_t>
+        vmContext0ProtectionFaultPage; // address >> 12
+    Register<0x53f, std::uint32_t>
+        vmContext1ProtectionFaultPage; // address >> 12
+    Register<0x809, FbInfo> fbInfo;
+    Register<0xf82, std::uint32_t> ihRptr;
+    Register<0xf83, std::uint32_t> ihWptr;
+
+    Register<Config::kMmioOffset, Config> config;
+    Register<ShaderConfig::kMmioOffset, ShaderConfig> sh;
+
+    Register<0x3045> cpRbWptr;
+    Register<0x3064> cpRb1Wptr;
+    Register<0x3069> cpRb2Wptr;
+    Register<0x3049> cpIntCntl;
+    Register<0x304a> cpIntStatus;
+    Register<0x306a, std::array<std::uint32_t, 3>> cpIntCntlRings;
+    Register<0x306d, std::array<std::uint32_t, 3>> cpIntStatusRings;
+    Register<0x324b> cpHqdQueuePriority;
+    Register<0x324c> cpHqdQuantum;
+
+    Register<Context::kMmioOffset, Context> context;
+    Register<UConfig::kMmioOffset, UConfig> uconfig;
+    Register<Counters::kMmioOffset, Counters> counters;
+
+    std::uint32_t raw[kRegisterCount];
+  };
+};
+
+#pragma pack(pop)
+} // namespace amdgpu
\ No newline at end of file
diff --git a/rpcsx-gpu2/Renderer.cpp b/rpcsx-gpu2/Renderer.cpp
new file mode 100644
index 00000000..bc521208
--- /dev/null
+++ b/rpcsx-gpu2/Renderer.cpp
@@ -0,0 +1,1273 @@
+#include "Renderer.hpp"
+#include "Device.hpp"
+#include "gnm/descriptors.hpp"
+#include "rx/MemoryTable.hpp"
+
+#include <amdgpu/tiler.hpp>
+#include <gnm/constants.hpp>
+#include <gnm/vulkan.hpp>
+#include <shader/Evaluator.hpp>
+#include <shader/dialect.hpp>
+#include <shader/gcn.hpp>
+#include <shaders/fill_red.frag.h>
+#include <shaders/flip.frag.h>
+#include <shaders/flip.vert.h>
+#include <shaders/rect_list.geom.h>
+
+#include <bit>
+#include <vulkan/vulkan_core.h>
+
+using namespace shader;
+
+namespace gnm {
+VkRect2D toVkRect2D(amdgpu::PaScRect rect) {
+  return {
+      .offset =
+          {
+              .x = rect.left,
+              .y = rect.top,
+          },
+      .extent =
+          {
+              .width = static_cast<uint32_t>(rect.right - rect.left),
+              .height = static_cast<uint32_t>(rect.bottom - rect.top),
+          },
+  };
+}
+
+amdgpu::PaScRect intersection(amdgpu::PaScRect rect, amdgpu::PaScRect scissor) {
+  amdgpu::PaScRect result{
+      .left = std::max(rect.left, scissor.left),
+      .top = std::max(rect.top, scissor.top),
+      .right = std::min(rect.right, scissor.right),
+      .bottom = std::min(rect.bottom, scissor.bottom),
+  };
+
+  result.top = std::min(result.top, result.bottom);
+  result.bottom = std::max(result.top, result.bottom);
+  result.left = std::min(result.left, result.right);
+  result.right = std::max(result.left, result.right);
+  return result;
+}
+} // namespace gnm
+
+struct MemoryTableSlot {
+  std::uint64_t address;
+  union {
+    struct {
+      std::uint64_t size : 40;
+      std::uint64_t flags : 4;
+    };
+    std::uint64_t sizeAndFlags;
+  };
+  std::uint64_t deviceAddress;
+};
+struct MemoryTable {
+  std::uint32_t count;
+  std::uint32_t pad;
+  MemoryTableSlot slots[];
+};
+
+static VkShaderEXT getPrimTypeRectGeomShader(amdgpu::Cache &cache) {
+  static VkShaderEXT shader = VK_NULL_HANDLE;
+  if (shader != VK_NULL_HANDLE) {
+    return shader;
+  }
+
+  VkShaderCreateInfoEXT createInfo{
+      .sType = VK_STRUCTURE_TYPE_SHADER_CREATE_INFO_EXT,
+      .stage = VK_SHADER_STAGE_GEOMETRY_BIT,
+      .codeType = VK_SHADER_CODE_TYPE_SPIRV_EXT,
+      .codeSize = sizeof(spirv_rect_list_geom),
+      .pCode = spirv_rect_list_geom,
+      .pName = "main",
+      .setLayoutCount =
+          static_cast<uint32_t>(cache.getGraphicsDescriptorSetLayouts().size()),
+      .pSetLayouts = cache.getGraphicsDescriptorSetLayouts().data()};
+
+  VK_VERIFY(vk::CreateShadersEXT(vk::context->device, 1, &createInfo,
+                                 vk::context->allocator, &shader));
+  return shader;
+}
+
+static VkShaderEXT getFillRedFragShader(amdgpu::Cache &cache) {
+  static VkShaderEXT shader = VK_NULL_HANDLE;
+  if (shader != VK_NULL_HANDLE) {
+    return shader;
+  }
+
+  VkShaderCreateInfoEXT createInfo{
+      .sType = VK_STRUCTURE_TYPE_SHADER_CREATE_INFO_EXT,
+      .stage = VK_SHADER_STAGE_FRAGMENT_BIT,
+      .codeType = VK_SHADER_CODE_TYPE_SPIRV_EXT,
+      .codeSize = sizeof(spirv_fill_red_frag),
+      .pCode = spirv_fill_red_frag,
+      .pName = "main",
+      .setLayoutCount =
+          static_cast<uint32_t>(cache.getGraphicsDescriptorSetLayouts().size()),
+      .pSetLayouts = cache.getGraphicsDescriptorSetLayouts().data()};
+
+  VK_VERIFY(vk::CreateShadersEXT(vk::context->device, 1, &createInfo,
+                                 vk::context->allocator, &shader));
+  return shader;
+}
+
+static VkShaderEXT getFlipVertexShader(amdgpu::Cache &cache) {
+  static VkShaderEXT shader = VK_NULL_HANDLE;
+  if (shader != VK_NULL_HANDLE) {
+    return shader;
+  }
+
+  VkShaderCreateInfoEXT createInfo{
+      .sType = VK_STRUCTURE_TYPE_SHADER_CREATE_INFO_EXT,
+      .stage = VK_SHADER_STAGE_VERTEX_BIT,
+      .codeType = VK_SHADER_CODE_TYPE_SPIRV_EXT,
+      .codeSize = sizeof(spirv_flip_vert),
+      .pCode = spirv_flip_vert,
+      .pName = "main",
+      .setLayoutCount =
+          static_cast<uint32_t>(cache.getGraphicsDescriptorSetLayouts().size()),
+      .pSetLayouts = cache.getGraphicsDescriptorSetLayouts().data()};
+
+  VK_VERIFY(vk::CreateShadersEXT(vk::context->device, 1, &createInfo,
+                                 vk::context->allocator, &shader));
+  return shader;
+}
+
+static VkShaderEXT getFlipFragmentShader(amdgpu::Cache &cache) {
+  static VkShaderEXT shader = VK_NULL_HANDLE;
+  if (shader != VK_NULL_HANDLE) {
+    return shader;
+  }
+
+  VkShaderCreateInfoEXT createInfo{
+      .sType = VK_STRUCTURE_TYPE_SHADER_CREATE_INFO_EXT,
+      .stage = VK_SHADER_STAGE_FRAGMENT_BIT,
+      .codeType = VK_SHADER_CODE_TYPE_SPIRV_EXT,
+      .codeSize = sizeof(spirv_flip_frag),
+      .pCode = spirv_flip_frag,
+      .pName = "main",
+      .setLayoutCount =
+          static_cast<uint32_t>(cache.getGraphicsDescriptorSetLayouts().size()),
+      .pSetLayouts = cache.getGraphicsDescriptorSetLayouts().data()};
+
+  VK_VERIFY(vk::CreateShadersEXT(vk::context->device, 1, &createInfo,
+                                 vk::context->allocator, &shader));
+  return shader;
+}
+
+static VkPrimitiveTopology toVkPrimitiveType(gnm::PrimitiveType type) {
+  switch (type) {
+  case gnm::PrimitiveType::PointList:
+    return VK_PRIMITIVE_TOPOLOGY_POINT_LIST;
+  case gnm::PrimitiveType::LineList:
+    return VK_PRIMITIVE_TOPOLOGY_LINE_LIST;
+  case gnm::PrimitiveType::LineStrip:
+    return VK_PRIMITIVE_TOPOLOGY_LINE_STRIP;
+  case gnm::PrimitiveType::TriList:
+    return VK_PRIMITIVE_TOPOLOGY_TRIANGLE_LIST;
+  case gnm::PrimitiveType::TriFan:
+    return VK_PRIMITIVE_TOPOLOGY_TRIANGLE_FAN;
+  case gnm::PrimitiveType::TriStrip:
+    return VK_PRIMITIVE_TOPOLOGY_TRIANGLE_STRIP;
+  case gnm::PrimitiveType::Patch:
+    return VK_PRIMITIVE_TOPOLOGY_PATCH_LIST;
+  case gnm::PrimitiveType::LineListAdjacency:
+    return VK_PRIMITIVE_TOPOLOGY_LINE_LIST_WITH_ADJACENCY;
+  case gnm::PrimitiveType::LineStripAdjacency:
+    return VK_PRIMITIVE_TOPOLOGY_LINE_STRIP_WITH_ADJACENCY;
+  case gnm::PrimitiveType::TriListAdjacency:
+    return VK_PRIMITIVE_TOPOLOGY_TRIANGLE_LIST_WITH_ADJACENCY;
+  case gnm::PrimitiveType::TriStripAdjacency:
+    return VK_PRIMITIVE_TOPOLOGY_TRIANGLE_STRIP_WITH_ADJACENCY;
+  case gnm::PrimitiveType::LineLoop:
+    return VK_PRIMITIVE_TOPOLOGY_LINE_STRIP; // FIXME
+
+  case gnm::PrimitiveType::RectList:
+  case gnm::PrimitiveType::QuadList:
+  case gnm::PrimitiveType::QuadStrip:
+  case gnm::PrimitiveType::Polygon:
+    return VK_PRIMITIVE_TOPOLOGY_TRIANGLE_LIST;
+
+  default:
+    rx::die("toVkPrimitiveType: unexpected primitive type %u",
+            static_cast<unsigned>(type));
+  }
+}
+
+struct ShaderResources : eval::Evaluator {
+  amdgpu::Cache::Tag *cacheTag;
+  shader::eval::Evaluator evaluator;
+  std::map<std::uint32_t, std::uint32_t> slotResources;
+  std::span<const std::uint32_t> userSgprs;
+
+  rx::MemoryTableWithPayload<Access> bufferMemoryTable;
+  std::vector<std::pair<std::uint32_t, std::uint64_t>> resourceSlotToAddress;
+  std::vector<amdgpu::Cache::Sampler> samplerResources;
+  std::vector<amdgpu::Cache::ImageView> imageResources[3];
+
+  using Evaluator::eval;
+
+  ShaderResources() = default;
+
+  void loadResources(shader::gcn::Resources &res,
+                     std::span<const std::uint32_t> userSgprs) {
+    this->userSgprs = userSgprs;
+    for (auto &pointer : res.pointers) {
+      auto pointerBase = eval(pointer.base).zExtScalar();
+      auto pointerOffset = eval(pointer.offset).zExtScalar();
+
+      if (!pointerBase || !pointerOffset) {
+        res.dump();
+        rx::die("failed to evaluate pointer");
+      }
+
+      bufferMemoryTable.map(*pointerBase,
+                            *pointerBase + *pointerOffset + pointer.size,
+                            Access::Read);
+      resourceSlotToAddress.push_back({pointer.resourceSlot, *pointerBase});
+    }
+
+    for (auto &bufferRes : res.buffers) {
+      auto word0 = eval(bufferRes.words[0]).zExtScalar();
+      auto word1 = eval(bufferRes.words[1]).zExtScalar();
+      auto word2 = eval(bufferRes.words[2]).zExtScalar();
+      auto word3 = eval(bufferRes.words[3]).zExtScalar();
+
+      if (!word0 || !word1 || !word2 || !word3) {
+        res.dump();
+        rx::die("failed to evaluate V#");
+      }
+
+      gnm::VBuffer buffer{};
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer), &*word0,
+                  sizeof(std::uint32_t));
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer) + 1, &*word1,
+                  sizeof(std::uint32_t));
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer) + 2, &*word2,
+                  sizeof(std::uint32_t));
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer) + 3, &*word3,
+                  sizeof(std::uint32_t));
+
+      bufferMemoryTable.map(buffer.address(), buffer.address() + buffer.size(),
+                            bufferRes.access);
+      resourceSlotToAddress.push_back(
+          {bufferRes.resourceSlot, buffer.address()});
+    }
+
+    for (auto &texture : res.textures) {
+      auto word0 = eval(texture.words[0]).zExtScalar();
+      auto word1 = eval(texture.words[1]).zExtScalar();
+      auto word2 = eval(texture.words[2]).zExtScalar();
+      auto word3 = eval(texture.words[3]).zExtScalar();
+
+      if (!word0 || !word1 || !word2 || !word3) {
+        res.dump();
+        rx::die("failed to evaluate 128 bit T#");
+      }
+
+      gnm::TBuffer buffer{};
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer), &*word0,
+                  sizeof(std::uint32_t));
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer) + 1, &*word1,
+                  sizeof(std::uint32_t));
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer) + 2, &*word2,
+                  sizeof(std::uint32_t));
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer) + 3, &*word3,
+                  sizeof(std::uint32_t));
+
+      if (texture.words[4] != nullptr) {
+        auto word4 = eval(texture.words[4]).zExtScalar();
+        auto word5 = eval(texture.words[5]).zExtScalar();
+        auto word6 = eval(texture.words[6]).zExtScalar();
+        auto word7 = eval(texture.words[7]).zExtScalar();
+
+        if (!word4 || !word5 || !word6 || !word7) {
+          res.dump();
+          rx::die("failed to evaluate 256 bit T#");
+        }
+
+        std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer) + 4, &*word4,
+                    sizeof(std::uint32_t));
+        std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer) + 5, &*word5,
+                    sizeof(std::uint32_t));
+        std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer) + 6, &*word6,
+                    sizeof(std::uint32_t));
+        std::memcpy(reinterpret_cast<std::uint32_t *>(&buffer) + 7, &*word7,
+                    sizeof(std::uint32_t));
+      }
+
+      std::vector<amdgpu::Cache::ImageView> *resources = nullptr;
+
+      switch (buffer.type) {
+      case gnm::TextureType::Array1D:
+      case gnm::TextureType::Dim1D:
+        resources = &imageResources[0];
+        break;
+      case gnm::TextureType::Dim2D:
+      case gnm::TextureType::Array2D:
+      case gnm::TextureType::Msaa2D:
+      case gnm::TextureType::MsaaArray2D:
+      case gnm::TextureType::Cube:
+        resources = &imageResources[1];
+        break;
+      case gnm::TextureType::Dim3D:
+        resources = &imageResources[2];
+        break;
+      }
+
+      rx::dieIf(resources == nullptr,
+                "ShaderResources: unexpected texture type %u",
+                static_cast<unsigned>(buffer.type));
+
+      slotResources[texture.resourceSlot] = resources->size();
+      resources->push_back(cacheTag->getImageView(
+          amdgpu::ImageViewKey::createFrom(buffer), texture.access));
+    }
+
+    for (auto &sampler : res.samplers) {
+      auto word0 = eval(sampler.words[0]).zExtScalar();
+      auto word1 = eval(sampler.words[1]).zExtScalar();
+      auto word2 = eval(sampler.words[2]).zExtScalar();
+      auto word3 = eval(sampler.words[3]).zExtScalar();
+
+      if (!word0 || !word1 || !word2 || !word3) {
+        res.dump();
+        rx::die("failed to evaluate S#");
+      }
+
+      gnm::SSampler sSampler{};
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&sSampler), &*word0,
+                  sizeof(std::uint32_t));
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&sSampler) + 1, &*word1,
+                  sizeof(std::uint32_t));
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&sSampler) + 2, &*word2,
+                  sizeof(std::uint32_t));
+      std::memcpy(reinterpret_cast<std::uint32_t *>(&sSampler) + 3, &*word3,
+                  sizeof(std::uint32_t));
+
+      if (sampler.unorm) {
+        sSampler.force_unorm_coords = true;
+      }
+
+      slotResources[sampler.resourceSlot] = samplerResources.size();
+      samplerResources.push_back(
+          cacheTag->getSampler(amdgpu::SamplerKey::createFrom(sSampler)));
+    }
+  }
+
+  void buildMemoryTable(MemoryTable &memoryTable) {
+    memoryTable.count = 0;
+
+    for (auto p : bufferMemoryTable) {
+      auto size = p.endAddress - p.beginAddress;
+      auto buffer = cacheTag->getBuffer(p.beginAddress, size, p.payload);
+
+      auto memoryTableSlot = memoryTable.count;
+      memoryTable.slots[memoryTable.count++] = {
+          .address = p.beginAddress,
+          .size = size,
+          .flags = static_cast<uint8_t>(p.payload),
+          .deviceAddress = buffer.deviceAddress,
+      };
+
+      for (auto [slot, address] : resourceSlotToAddress) {
+        if (address >= p.beginAddress && address < p.endAddress) {
+          slotResources[slot] = memoryTableSlot;
+        }
+      }
+    }
+  }
+
+  std::uint32_t getResourceSlot(std::uint32_t id) {
+    if (auto it = slotResources.find(id); it != slotResources.end()) {
+      return it->second;
+    }
+    return -1;
+  }
+
+  template <typename T> T readPointer(std::uint64_t address) {
+    T result{};
+    cacheTag->readMemory(&result, address, sizeof(result));
+    return result;
+  }
+
+  eval::Value eval(ir::InstructionId instId,
+                   std::span<const ir::Operand> operands) override {
+    if (instId == ir::amdgpu::POINTER) {
+      auto type = operands[0].getAsValue();
+      auto loadSize = *operands[1].getAsInt32();
+      auto base = eval(operands[2]).zExtScalar();
+      auto offset = eval(operands[3]).zExtScalar();
+
+      if (!base || !offset) {
+        rx::die("failed to evaluate pointer dependency");
+      }
+
+      eval::Value result;
+      auto address = *base + *offset;
+
+      switch (loadSize) {
+      case 1:
+        result = readPointer<std::uint8_t>(address);
+        break;
+      case 2:
+        result = readPointer<std::uint16_t>(address);
+        break;
+      case 4:
+        result = readPointer<std::uint32_t>(address);
+        break;
+      case 8:
+        result = readPointer<std::uint64_t>(address);
+        break;
+      case 12:
+        result = readPointer<u32vec3>(address);
+        break;
+      case 16:
+        result = readPointer<u32vec4>(address);
+        break;
+      case 32:
+        result = readPointer<std::array<std::uint32_t, 8>>(address);
+        break;
+      default:
+        rx::die("unexpected pointer load size");
+      }
+
+      return result;
+    }
+
+    if (instId == ir::amdgpu::VBUFFER) {
+      rx::die("resource depends on buffer value");
+    }
+
+    if (instId == ir::amdgpu::TBUFFER) {
+      rx::die("resource depends on texture value");
+    }
+
+    if (instId == ir::amdgpu::SAMPLER) {
+      rx::die("resource depends on sampler value");
+    }
+
+    if (instId == ir::amdgpu::USER_SGPR) {
+      auto index = static_cast<std::uint32_t>(*operands[1].getAsInt32());
+      rx::dieIf(index >= userSgprs.size(), "out of user sgprs");
+      return userSgprs[index];
+    }
+
+    if (instId == ir::amdgpu::IMM) {
+      auto address = static_cast<std::uint64_t>(*operands[1].getAsInt64());
+
+      std::uint32_t result;
+      cacheTag->readMemory(&result, address, sizeof(result));
+      return result;
+    }
+
+    return Evaluator::eval(instId, operands);
+  }
+};
+
+void amdgpu::draw(GraphicsPipe &pipe, int vmId, std::uint32_t firstVertex,
+                  std::uint32_t vertexCount, std::uint32_t firstInstance,
+                  std::uint32_t instanceCount, std::uint64_t indiciesAddress,
+                  std::uint32_t indexCount) {
+  if (pipe.uConfig.vgtPrimitiveType == gnm::PrimitiveType::None) {
+    return;
+  }
+
+  auto cacheTag = pipe.device->getCacheTag(vmId, pipe.scheduler);
+  auto targetMask = pipe.context.cbTargetMask.raw;
+
+  VkRenderingAttachmentInfo colorAttachments[8]{};
+  VkBool32 colorBlendEnable[8]{};
+  VkColorBlendEquationEXT colorBlendEquation[8]{};
+  VkColorComponentFlags colorWriteMask[8]{};
+  VkViewport viewPorts[8]{};
+  VkRect2D viewPortScissors[8]{};
+  unsigned renderTargets = 0;
+
+  for (auto &cbColor : pipe.context.cbColor) {
+    if (targetMask == 0) {
+      break;
+    }
+
+    auto viewPortScissor = pipe.context.paScScreenScissor;
+    // viewPortScissor = gnm::intersection(
+    //     viewPortScissor, pipe.context.paScVportScissor[renderTargets]);
+    // viewPortScissor =
+    //     gnm::intersection(viewPortScissor, pipe.context.paScWindowScissor);
+    // viewPortScissor =
+    //     gnm::intersection(viewPortScissor, pipe.context.paScGenericScissor);
+
+    auto viewPortRect = gnm::toVkRect2D(viewPortScissor);
+
+    viewPorts[renderTargets].x = viewPortRect.offset.x;
+    viewPorts[renderTargets].y = viewPortRect.offset.y;
+    viewPorts[renderTargets].width = viewPortRect.extent.width;
+    viewPorts[renderTargets].height = viewPortRect.extent.height;
+    viewPorts[renderTargets].minDepth =
+        pipe.context.paScVportZ[renderTargets].min;
+    viewPorts[renderTargets].maxDepth =
+        pipe.context.paScVportZ[renderTargets].max;
+
+    auto vkViewPortScissor = gnm::toVkRect2D(viewPortScissor);
+    viewPortScissors[renderTargets] = vkViewPortScissor;
+
+    ImageViewKey renderTargetInfo{};
+    renderTargetInfo.type = gnm::TextureType::Dim2D;
+    renderTargetInfo.pitch = vkViewPortScissor.extent.width;
+    renderTargetInfo.address = cbColor.base << 8;
+    renderTargetInfo.extent.width = vkViewPortScissor.extent.width;
+    renderTargetInfo.extent.height = vkViewPortScissor.extent.height;
+    renderTargetInfo.extent.depth = 1;
+    renderTargetInfo.dfmt = cbColor.info.dfmt;
+    renderTargetInfo.nfmt = cbColor.info.nfmt;
+    renderTargetInfo.mipCount = 1;
+    renderTargetInfo.arrayLayerCount = 1;
+
+    renderTargetInfo.tileMode =
+        cbColor.info.linearGeneral
+            ? TileMode{.raw = 0}
+            : getDefaultTileModes()[/*cbColor.attrib.tileModeIndex*/
+                                    13];
+
+    // std::printf("draw to %lx\n", renderTargetInfo.address);
+
+    auto access = Access::None;
+
+    if (!cbColor.info.fastClear) {
+      access |= Access::Read;
+    }
+    if (targetMask & 0xf) {
+      access |= Access::Write;
+    }
+
+    auto imageView = cacheTag.getImageView(renderTargetInfo, access);
+
+    colorAttachments[renderTargets] = {
+        .sType = VK_STRUCTURE_TYPE_RENDERING_ATTACHMENT_INFO,
+        .imageView = imageView.handle,
+        .imageLayout = VK_IMAGE_LAYOUT_GENERAL,
+        .loadOp = cbColor.info.fastClear ? VK_ATTACHMENT_LOAD_OP_CLEAR
+                                         : VK_ATTACHMENT_LOAD_OP_LOAD,
+        .storeOp = VK_ATTACHMENT_STORE_OP_STORE,
+
+        .clearValue =
+            {
+                .color =
+                    {
+                        .uint32 =
+                            {
+                                cbColor.clearWord0,
+                                cbColor.clearWord1,
+                                cbColor.clearWord2,
+                            },
+                    },
+            },
+    };
+
+    auto &blendControl = pipe.context.cbBlendControl[renderTargets];
+
+    colorBlendEnable[renderTargets] = blendControl.enable;
+    colorBlendEquation[renderTargets] = VkColorBlendEquationEXT{
+        .srcColorBlendFactor = gnm::toVkBlendFactor(blendControl.colorSrcBlend),
+        .dstColorBlendFactor = gnm::toVkBlendFactor(blendControl.colorDstBlend),
+        .colorBlendOp = gnm::toVkBlendOp(blendControl.colorCombFcn),
+        .srcAlphaBlendFactor =
+            blendControl.separateAlphaBlend
+                ? gnm::toVkBlendFactor(blendControl.alphaSrcBlend)
+                : gnm::toVkBlendFactor(blendControl.colorSrcBlend),
+        .dstAlphaBlendFactor =
+            blendControl.separateAlphaBlend
+                ? gnm::toVkBlendFactor(blendControl.alphaDstBlend)
+                : gnm::toVkBlendFactor(blendControl.colorDstBlend),
+        .alphaBlendOp = blendControl.separateAlphaBlend
+                            ? gnm::toVkBlendOp(blendControl.alphaCombFcn)
+                            : gnm::toVkBlendOp(blendControl.colorCombFcn),
+    };
+
+    colorWriteMask[renderTargets] =
+        ((targetMask & 1) ? VK_COLOR_COMPONENT_R_BIT : 0) |
+        ((targetMask & 2) ? VK_COLOR_COMPONENT_G_BIT : 0) |
+        ((targetMask & 4) ? VK_COLOR_COMPONENT_B_BIT : 0) |
+        ((targetMask & 8) ? VK_COLOR_COMPONENT_A_BIT : 0);
+
+    renderTargets++;
+    targetMask >>= 4;
+  }
+
+  //   if (pipe.context.cbTargetMask == 0) {
+  //     return;
+  //   }
+
+  //   auto cache = pipe.device->getCache(vmId);
+
+  if (indiciesAddress == 0) {
+    indexCount = vertexCount;
+  }
+
+  auto indexBuffer = cacheTag.getIndexBuffer(indiciesAddress, indexCount,
+                                             pipe.uConfig.vgtPrimitiveType,
+                                             pipe.uConfig.vgtIndexType);
+
+  auto stages = Cache::kGraphicsStages;
+  VkShaderEXT shaders[stages.size()]{};
+
+  auto pipelineLayout = cacheTag.getGraphicsPipelineLayout();
+  auto descriptorSets = cacheTag.createGraphicsDescriptorSets();
+
+  std::vector<std::uint32_t *> descriptorBuffers;
+  auto &memoryTableBuffer = cacheTag.getCache()->getMemoryTableBuffer();
+  std::uint64_t memoryTableAddress = memoryTableBuffer.getAddress();
+  auto memoryTable = std::bit_cast<MemoryTable *>(memoryTableBuffer.getData());
+
+  std::uint64_t gdsAddress = cacheTag.getCache()->getGdsBuffer().getAddress();
+  ShaderResources shaderResources;
+  shaderResources.cacheTag = &cacheTag;
+
+  struct MemoryTableConfigSlot {
+    std::uint32_t bufferIndex;
+    std::uint32_t configIndex;
+    std::uint32_t resourceSlot;
+  };
+  std::vector<MemoryTableConfigSlot> memoryTableConfigSlots;
+
+  auto addShader = [&](const SpiShaderPgm &pgm, shader::gcn::Stage stage) {
+    shader::gcn::Environment env{
+        .vgprCount = pgm.rsrc1.getVGprCount(),
+        .sgprCount = pgm.rsrc1.getSGprCount(),
+        .userSgprs = std::span(pgm.userData.data(), pgm.rsrc2.userSgpr),
+        .supportsBarycentric = vk::context->supportsBarycentric,
+        .supportsInt8 = vk::context->supportsInt8,
+        .supportsInt64Atomics = vk::context->supportsInt64Atomics,
+        // .supportsBarycentric = false,
+        // .supportsInt8 = false,
+        // .supportsInt64Atomics = false,
+    };
+
+    auto shader = cacheTag.getShader({
+        .address = pgm.address << 8,
+        .stage = stage,
+        .env = env,
+    });
+
+    shaderResources.loadResources(
+        shader.info->resources,
+        std::span(pgm.userData.data(), pgm.rsrc2.userSgpr));
+
+    const auto &configSlots = shader.info->configSlots;
+
+    auto configSize = configSlots.size() * sizeof(std::uint32_t);
+    auto configBuffer = cacheTag.getInternalBuffer(configSize);
+
+    auto configPtr = reinterpret_cast<std::uint32_t *>(configBuffer.data);
+
+    shader::gcn::PsVGprInput
+        psVgprInput[static_cast<std::size_t>(shader::gcn::PsVGprInput::Count)];
+    std::size_t psVgprInputs = 0;
+
+    if (stage == shader::gcn::Stage::Ps) {
+      SpiPsInput spiInputAddr = pipe.context.spiPsInputAddr;
+
+      if (spiInputAddr.perspSampleEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::IPerspSample;
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::JPerspSample;
+      }
+      if (spiInputAddr.perspCenterEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::IPerspCenter;
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::JPerspCenter;
+      }
+      if (spiInputAddr.perspCentroidEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::IPerspCentroid;
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::JPerspCentroid;
+      }
+      if (spiInputAddr.perspPullModelEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::IW;
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::JW;
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::_1W;
+      }
+      if (spiInputAddr.linearSampleEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::ILinearSample;
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::JLinearSample;
+      }
+      if (spiInputAddr.linearCenterEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::ILinearCenter;
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::JLinearCenter;
+      }
+      if (spiInputAddr.linearCentroidEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::ILinearCentroid;
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::JLinearCentroid;
+      }
+      if (spiInputAddr.posXFloatEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::X;
+      }
+      if (spiInputAddr.posYFloatEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::Y;
+      }
+      if (spiInputAddr.posZFloatEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::Z;
+      }
+      if (spiInputAddr.posWFloatEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::W;
+      }
+      if (spiInputAddr.frontFaceEna) {
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::FrontFace;
+      }
+      if (spiInputAddr.ancillaryEna) {
+        rx::die("unimplemented ancillary fs input");
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::Ancillary;
+      }
+      if (spiInputAddr.sampleCoverageEna) {
+        rx::die("unimplemented sample coverage fs input");
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::SampleCoverage;
+      }
+      if (spiInputAddr.posFixedPtEna) {
+        rx::die("unimplemented pos fixed fs input");
+        psVgprInput[psVgprInputs++] = shader::gcn::PsVGprInput::PosFixed;
+      }
+    }
+
+    for (std::size_t index = 0; const auto &slot : configSlots) {
+      switch (slot.type) {
+      case shader::gcn::ConfigType::Imm:
+        cacheTag.readMemory(&configPtr[index], slot.data,
+                            sizeof(std::uint32_t));
+        break;
+      case shader::gcn::ConfigType::UserSgpr:
+        configPtr[index] = pgm.userData[slot.data];
+        break;
+      case shader::gcn::ConfigType::ViewPortOffsetX:
+        configPtr[index] = std::bit_cast<std::uint32_t>(
+            pipe.context.paClVports[0].xOffset / (viewPorts[0].width / 2.f) -
+            1);
+        break;
+      case shader::gcn::ConfigType::ViewPortOffsetY:
+        configPtr[index] = std::bit_cast<std::uint32_t>(
+            pipe.context.paClVports[0].yOffset / (viewPorts[0].height / 2.f) -
+            1);
+        break;
+      case shader::gcn::ConfigType::ViewPortOffsetZ:
+        configPtr[index] =
+            std::bit_cast<std::uint32_t>(pipe.context.paClVports[0].zOffset);
+        break;
+      case shader::gcn::ConfigType::ViewPortScaleX:
+        configPtr[index] = std::bit_cast<std::uint32_t>(
+            pipe.context.paClVports[0].xScale / (viewPorts[0].width / 2.f));
+        break;
+      case shader::gcn::ConfigType::ViewPortScaleY:
+        configPtr[index] = std::bit_cast<std::uint32_t>(
+            pipe.context.paClVports[0].yScale / (viewPorts[0].height / 2.f));
+        break;
+      case shader::gcn::ConfigType::ViewPortScaleZ:
+        configPtr[index] =
+            std::bit_cast<std::uint32_t>(pipe.context.paClVports[0].zScale);
+        break;
+      case shader::gcn::ConfigType::PsInputVGpr:
+        if (slot.data > psVgprInputs) {
+          configPtr[index] = ~0;
+        } else {
+          configPtr[index] =
+              std::bit_cast<std::uint32_t>(psVgprInput[slot.data]);
+        }
+        break;
+      case shader::gcn::ConfigType::VsPrimType:
+        if (indexBuffer.handle == VK_NULL_HANDLE &&
+            pipe.uConfig.vgtPrimitiveType != indexBuffer.primType) {
+          configPtr[index] =
+              static_cast<std::uint32_t>(pipe.uConfig.vgtPrimitiveType.value);
+        } else {
+          configPtr[index] = 0;
+        }
+        break;
+
+      case shader::gcn::ConfigType::ResourceSlot:
+        memoryTableConfigSlots.push_back({
+            .bufferIndex = static_cast<std::uint32_t>(descriptorBuffers.size()),
+            .configIndex = static_cast<std::uint32_t>(index),
+            .resourceSlot = static_cast<std::uint32_t>(slot.data),
+        });
+        break;
+
+      case shader::gcn::ConfigType::MemoryTable:
+        if (slot.data == 0) {
+          configPtr[index] = static_cast<std::uint32_t>(memoryTableAddress);
+        } else {
+          configPtr[index] =
+              static_cast<std::uint32_t>(memoryTableAddress >> 32);
+        }
+        break;
+      case shader::gcn::ConfigType::Gds:
+        if (slot.data == 0) {
+          configPtr[index] = static_cast<std::uint32_t>(gdsAddress);
+        } else {
+          configPtr[index] = static_cast<std::uint32_t>(gdsAddress >> 32);
+        }
+        break;
+
+      case shader::gcn::ConfigType::CbCompSwap:
+        configPtr[index] = std::bit_cast<std::uint32_t>(
+            pipe.context.cbColor[slot.data].info.compSwap);
+        break;
+      }
+
+      ++index;
+    }
+
+    VkDescriptorBufferInfo bufferInfo{
+        .buffer = configBuffer.handle,
+        .offset = configBuffer.offset,
+        .range = configSize,
+    };
+
+    auto stageIndex = Cache::getStageIndex(shader.stage);
+
+    VkWriteDescriptorSet writeDescSet{
+        .sType = VK_STRUCTURE_TYPE_WRITE_DESCRIPTOR_SET,
+        .dstSet = descriptorSets[stageIndex],
+        .dstBinding = 0,
+        .descriptorCount = 1,
+        .descriptorType = VK_DESCRIPTOR_TYPE_UNIFORM_BUFFER,
+        .pBufferInfo = &bufferInfo,
+    };
+
+    vkUpdateDescriptorSets(vk::context->device, 1, &writeDescSet, 0, nullptr);
+
+    shaders[stageIndex] = shader.handle
+                              ? shader.handle
+                              : getFillRedFragShader(*cacheTag.getCache());
+    descriptorBuffers.push_back(configPtr);
+  };
+
+  if (pipe.context.vgtShaderStagesEn.vsEn == amdgpu::VsStage::VsReal) {
+    addShader(pipe.sh.spiShaderPgmVs, shader::gcn::Stage::VsVs);
+  }
+
+  if (true) {
+    addShader(pipe.sh.spiShaderPgmPs, shader::gcn::Stage::Ps);
+  } else {
+    shaders[Cache::getStageIndex(VK_SHADER_STAGE_FRAGMENT_BIT)] =
+        getFillRedFragShader(*cacheTag.getCache());
+  }
+
+  if (pipe.uConfig.vgtPrimitiveType == gnm::PrimitiveType::RectList) {
+    shaders[Cache::getStageIndex(VK_SHADER_STAGE_GEOMETRY_BIT)] =
+        getPrimTypeRectGeomShader(*cacheTag.getCache());
+  }
+
+  if (indiciesAddress == 0) {
+    vertexCount = indexBuffer.indexCount;
+  }
+
+  auto commandBuffer = pipe.scheduler.getCommandBuffer();
+
+  VkRenderingInfo renderInfo{
+      .sType = VK_STRUCTURE_TYPE_RENDERING_INFO,
+      .renderArea = gnm::toVkRect2D(pipe.context.paScScreenScissor),
+      .layerCount = 1,
+      .colorAttachmentCount = renderTargets,
+      .pColorAttachments = colorAttachments,
+      //   .pDepthAttachment = &depthAttachment,
+      //   .pStencilAttachment = &stencilAttachment,
+  };
+
+  vkCmdBeginRendering(commandBuffer, &renderInfo);
+  vkCmdSetRasterizerDiscardEnable(commandBuffer, VK_FALSE);
+
+  vkCmdSetViewportWithCount(commandBuffer, renderTargets, viewPorts);
+  vkCmdSetScissorWithCount(commandBuffer, renderTargets, viewPortScissors);
+
+  vk::CmdSetColorBlendEnableEXT(commandBuffer, 0, renderTargets,
+                                colorBlendEnable);
+  vk::CmdSetColorBlendEquationEXT(commandBuffer, 0, renderTargets,
+                                  colorBlendEquation);
+
+  vk::CmdSetDepthClampEnableEXT(commandBuffer, VK_FALSE);
+  vkCmdSetDepthCompareOp(commandBuffer,
+                         gnm::toVkCompareOp(pipe.context.dbDepthControl.zFunc));
+  vkCmdSetDepthTestEnable(commandBuffer, pipe.context.dbDepthControl.depthEnable
+                                             ? VK_TRUE
+                                             : VK_FALSE);
+  vkCmdSetDepthWriteEnable(
+      commandBuffer,
+      pipe.context.dbDepthControl.depthWriteEnable ? VK_TRUE : VK_FALSE);
+  vkCmdSetDepthBounds(commandBuffer, pipe.context.dbDepthBoundsMin,
+                      pipe.context.dbDepthBoundsMax);
+  vkCmdSetDepthBoundsTestEnable(
+      commandBuffer,
+      pipe.context.dbDepthControl.depthBoundsEnable ? VK_TRUE : VK_FALSE);
+  //   vkCmdSetStencilOp(commandBuffer, VK_STENCIL_FACE_FRONT_AND_BACK,
+  //                     VK_STENCIL_OP_KEEP, VK_STENCIL_OP_KEEP,
+  //                     VK_STENCIL_OP_KEEP, VK_COMPARE_OP_ALWAYS);
+
+  vkCmdSetDepthBiasEnable(commandBuffer, VK_FALSE);
+  vkCmdSetDepthBias(commandBuffer, 0, 1, 1);
+  vkCmdSetPrimitiveRestartEnable(commandBuffer, VK_FALSE);
+
+  vk::CmdSetAlphaToOneEnableEXT(commandBuffer, VK_FALSE);
+
+  vk::CmdSetLogicOpEnableEXT(commandBuffer, VK_FALSE);
+  vk::CmdSetLogicOpEXT(commandBuffer, VK_LOGIC_OP_AND);
+  vk::CmdSetPolygonModeEXT(commandBuffer, VK_POLYGON_MODE_FILL);
+  vk::CmdSetRasterizationSamplesEXT(commandBuffer, VK_SAMPLE_COUNT_1_BIT);
+  VkSampleMask sampleMask = ~0;
+  vk::CmdSetSampleMaskEXT(commandBuffer, VK_SAMPLE_COUNT_1_BIT, &sampleMask);
+  vk::CmdSetTessellationDomainOriginEXT(
+      commandBuffer, VK_TESSELLATION_DOMAIN_ORIGIN_LOWER_LEFT);
+  vk::CmdSetAlphaToCoverageEnableEXT(commandBuffer, VK_FALSE);
+  vk::CmdSetVertexInputEXT(commandBuffer, 0, nullptr, 0, nullptr);
+  vk::CmdSetColorWriteMaskEXT(commandBuffer, 0, renderTargets, colorWriteMask);
+
+  vkCmdSetStencilCompareMask(commandBuffer, VK_STENCIL_FACE_FRONT_AND_BACK, 0);
+  vkCmdSetStencilWriteMask(commandBuffer, VK_STENCIL_FACE_FRONT_AND_BACK, 0);
+  vkCmdSetStencilReference(commandBuffer, VK_STENCIL_FACE_FRONT_AND_BACK, 0);
+
+  VkCullModeFlags cullMode = VK_CULL_MODE_NONE;
+  if (pipe.context.paSuScModeCntl.cullBack) {
+    cullMode |= VK_CULL_MODE_BACK_BIT;
+  }
+  if (pipe.context.paSuScModeCntl.cullFront) {
+    cullMode |= VK_CULL_MODE_FRONT_BIT;
+  }
+
+  vkCmdSetCullMode(commandBuffer, cullMode);
+  vkCmdSetFrontFace(commandBuffer,
+                    gnm::toVkFrontFace(pipe.context.paSuScModeCntl.face));
+
+  vkCmdSetPrimitiveTopology(commandBuffer,
+                            toVkPrimitiveType(pipe.uConfig.vgtPrimitiveType));
+  vkCmdSetStencilTestEnable(commandBuffer, VK_FALSE);
+
+  vkCmdBindDescriptorSets(commandBuffer, VK_PIPELINE_BIND_POINT_GRAPHICS,
+                          pipelineLayout, 0, descriptorSets.size(),
+                          descriptorSets.data(), 0, nullptr);
+
+  vk::CmdBindShadersEXT(commandBuffer, stages.size(), stages.data(), shaders);
+
+  shaderResources.buildMemoryTable(*memoryTable);
+
+  for (auto &sampler : shaderResources.samplerResources) {
+    uint32_t index = &sampler - shaderResources.samplerResources.data();
+
+    VkDescriptorImageInfo samplerInfo{.sampler = sampler.handle};
+
+    VkWriteDescriptorSet writeDescSet{
+        .sType = VK_STRUCTURE_TYPE_WRITE_DESCRIPTOR_SET,
+        .dstSet = descriptorSets[0],
+        .dstBinding = Cache::getDescriptorBinding(VK_DESCRIPTOR_TYPE_SAMPLER),
+        .dstArrayElement = index,
+        .descriptorCount = 1,
+        .descriptorType = VK_DESCRIPTOR_TYPE_SAMPLER,
+        .pImageInfo = &samplerInfo,
+    };
+
+    vkUpdateDescriptorSets(vk::context->device, 1, &writeDescSet, 0, nullptr);
+  }
+
+  for (auto &imageResources : shaderResources.imageResources) {
+    auto dim = (&imageResources - shaderResources.imageResources) + 1;
+    for (auto &image : imageResources) {
+      uint32_t index = &image - imageResources.data();
+
+      VkDescriptorImageInfo imageInfo{
+          .imageView = image.handle,
+          .imageLayout = VK_IMAGE_LAYOUT_GENERAL,
+      };
+
+      VkWriteDescriptorSet writeDescSet{
+          .sType = VK_STRUCTURE_TYPE_WRITE_DESCRIPTOR_SET,
+          .dstSet = descriptorSets[0],
+          .dstBinding = static_cast<uint32_t>(Cache::getDescriptorBinding(
+              VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE, dim)),
+          .dstArrayElement = index,
+          .descriptorCount = 1,
+          .descriptorType = VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE,
+          .pImageInfo = &imageInfo,
+      };
+
+      vkUpdateDescriptorSets(vk::context->device, 1, &writeDescSet, 0, nullptr);
+    }
+  }
+
+  for (auto &mtConfig : memoryTableConfigSlots) {
+    auto config = descriptorBuffers[mtConfig.bufferIndex];
+    config[mtConfig.configIndex] =
+        shaderResources.getResourceSlot(mtConfig.resourceSlot);
+  }
+
+  if (indexBuffer.handle != VK_NULL_HANDLE) {
+    vkCmdBindIndexBuffer(commandBuffer, indexBuffer.handle, indexBuffer.offset,
+                         gnm::toVkIndexType(indexBuffer.indexType));
+    vkCmdDrawIndexed(commandBuffer, indexCount, instanceCount, 0, firstVertex,
+                     firstInstance);
+  } else {
+    vkCmdDraw(commandBuffer, vertexCount, instanceCount, firstVertex,
+              firstInstance);
+  }
+
+  vkCmdEndRendering(commandBuffer);
+  pipe.scheduler.submit();
+  pipe.scheduler.then([=, cacheTag = std::move(cacheTag),
+                       shaderResources = std::move(shaderResources)] {});
+}
+
+static void
+transitionImageLayout(VkCommandBuffer commandBuffer, VkImage image,
+                      VkImageLayout oldLayout, VkImageLayout newLayout,
+                      const VkImageSubresourceRange &subresourceRange) {
+  VkImageMemoryBarrier barrier{};
+  barrier.sType = VK_STRUCTURE_TYPE_IMAGE_MEMORY_BARRIER;
+  barrier.oldLayout = oldLayout;
+  barrier.newLayout = newLayout;
+  barrier.srcQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED;
+  barrier.dstQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED;
+  barrier.image = image;
+  barrier.subresourceRange = subresourceRange;
+
+  auto layoutToStageAccess = [](VkImageLayout layout)
+      -> std::pair<VkPipelineStageFlags, VkAccessFlags> {
+    switch (layout) {
+    case VK_IMAGE_LAYOUT_UNDEFINED:
+    case VK_IMAGE_LAYOUT_PRESENT_SRC_KHR:
+    case VK_IMAGE_LAYOUT_GENERAL:
+      return {VK_PIPELINE_STAGE_TOP_OF_PIPE_BIT, 0};
+
+    case VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL:
+      return {VK_PIPELINE_STAGE_TRANSFER_BIT, VK_ACCESS_TRANSFER_WRITE_BIT};
+
+    case VK_IMAGE_LAYOUT_TRANSFER_SRC_OPTIMAL:
+      return {VK_PIPELINE_STAGE_TRANSFER_BIT, VK_ACCESS_TRANSFER_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_SHADER_READ_ONLY_OPTIMAL:
+      return {VK_PIPELINE_STAGE_FRAGMENT_SHADER_BIT, VK_ACCESS_SHADER_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_DEPTH_STENCIL_ATTACHMENT_OPTIMAL:
+      return {VK_PIPELINE_STAGE_EARLY_FRAGMENT_TESTS_BIT,
+              VK_ACCESS_DEPTH_STENCIL_ATTACHMENT_WRITE_BIT |
+                  VK_ACCESS_DEPTH_STENCIL_ATTACHMENT_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_COLOR_ATTACHMENT_OPTIMAL:
+      return {VK_PIPELINE_STAGE_COLOR_ATTACHMENT_OUTPUT_BIT,
+              VK_ACCESS_COLOR_ATTACHMENT_WRITE_BIT |
+                  VK_ACCESS_COLOR_ATTACHMENT_READ_BIT};
+
+    default:
+      std::abort();
+    }
+  };
+
+  auto [sourceStage, sourceAccess] = layoutToStageAccess(oldLayout);
+  auto [destinationStage, destinationAccess] = layoutToStageAccess(newLayout);
+
+  barrier.srcAccessMask = sourceAccess;
+  barrier.dstAccessMask = destinationAccess;
+
+  vkCmdPipelineBarrier(commandBuffer, sourceStage, destinationStage, 0, 0,
+                       nullptr, 0, nullptr, 1, &barrier);
+}
+
+void amdgpu::flip(Cache::Tag &cacheTag, VkCommandBuffer commandBuffer,
+                  VkExtent2D targetExtent, std::uint64_t address,
+                  VkImageView target, VkExtent2D imageExtent,
+                  CbCompSwap compSwap, TileMode tileMode, gnm::DataFormat dfmt,
+                  gnm::NumericFormat nfmt) {
+  auto pipelineLayout = cacheTag.getGraphicsPipelineLayout();
+  auto descriptorSets = cacheTag.createGraphicsDescriptorSets();
+
+  ImageViewKey framebuffer{};
+  framebuffer.type = gnm::TextureType::Dim2D;
+  framebuffer.pitch = imageExtent.width;
+  framebuffer.address = address;
+  framebuffer.extent.width = imageExtent.width;
+  framebuffer.extent.height = imageExtent.height;
+  framebuffer.extent.depth = 1;
+  framebuffer.dfmt = dfmt;
+  framebuffer.nfmt = nfmt;
+  framebuffer.mipCount = 1;
+  framebuffer.arrayLayerCount = 1;
+  framebuffer.tileMode = tileMode;
+
+  switch (compSwap) {
+  case CbCompSwap::Std:
+    framebuffer.R = gnm::Swizzle::R;
+    framebuffer.G = gnm::Swizzle::G;
+    framebuffer.B = gnm::Swizzle::B;
+    framebuffer.A = gnm::Swizzle::A;
+    break;
+  case CbCompSwap::Alt:
+    framebuffer.R = gnm::Swizzle::B;
+    framebuffer.G = gnm::Swizzle::G;
+    framebuffer.B = gnm::Swizzle::R;
+    framebuffer.A = gnm::Swizzle::A;
+    break;
+  case CbCompSwap::StdRev:
+    framebuffer.R = gnm::Swizzle::A;
+    framebuffer.G = gnm::Swizzle::B;
+    framebuffer.B = gnm::Swizzle::G;
+    framebuffer.A = gnm::Swizzle::R;
+    break;
+  case CbCompSwap::AltRev:
+    framebuffer.R = gnm::Swizzle::A;
+    framebuffer.G = gnm::Swizzle::R;
+    framebuffer.B = gnm::Swizzle::G;
+    framebuffer.A = gnm::Swizzle::B;
+    break;
+  }
+
+  SamplerKey framebufferSampler = {
+      .magFilter = VK_FILTER_LINEAR,
+      .minFilter = VK_FILTER_LINEAR,
+  };
+
+  auto imageView = cacheTag.getImageView(framebuffer, Access::Read);
+  auto sampler = cacheTag.getSampler(framebufferSampler);
+
+  cacheTag.submitAndWait();
+
+  VkDescriptorImageInfo imageInfo{
+      .sampler = sampler.handle,
+      .imageView = imageView.handle,
+      .imageLayout = VK_IMAGE_LAYOUT_GENERAL,
+  };
+
+  VkWriteDescriptorSet writeDescSet[]{
+      {
+          .sType = VK_STRUCTURE_TYPE_WRITE_DESCRIPTOR_SET,
+          .dstSet = descriptorSets[0],
+          .dstBinding =
+              Cache::getDescriptorBinding(VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE, 2),
+          .descriptorCount = 1,
+          .descriptorType = VK_DESCRIPTOR_TYPE_SAMPLED_IMAGE,
+          .pImageInfo = &imageInfo,
+      },
+      {
+          .sType = VK_STRUCTURE_TYPE_WRITE_DESCRIPTOR_SET,
+          .dstSet = descriptorSets[0],
+          .dstBinding = Cache::getDescriptorBinding(VK_DESCRIPTOR_TYPE_SAMPLER),
+          .descriptorCount = 1,
+          .descriptorType = VK_DESCRIPTOR_TYPE_SAMPLER,
+          .pImageInfo = &imageInfo,
+      }};
+
+  vkUpdateDescriptorSets(vk::context->device, std::size(writeDescSet),
+                         writeDescSet, 0, nullptr);
+
+  VkRenderingAttachmentInfo colorAttachments[1]{{
+      .sType = VK_STRUCTURE_TYPE_RENDERING_ATTACHMENT_INFO,
+      .imageView = target,
+      .imageLayout = VK_IMAGE_LAYOUT_COLOR_ATTACHMENT_OPTIMAL,
+      .loadOp = VK_ATTACHMENT_LOAD_OP_CLEAR,
+      .storeOp = VK_ATTACHMENT_STORE_OP_STORE,
+      .clearValue = {},
+  }};
+  VkBool32 colorBlendEnable[1]{VK_FALSE};
+  VkColorBlendEquationEXT colorBlendEquation[1]{};
+  VkColorComponentFlags colorWriteMask[1]{
+      VK_COLOR_COMPONENT_R_BIT | VK_COLOR_COMPONENT_G_BIT |
+      VK_COLOR_COMPONENT_B_BIT | VK_COLOR_COMPONENT_A_BIT};
+  VkViewport viewPorts[1]{
+      {
+          .width = float(targetExtent.width),
+          .height = float(targetExtent.height),
+      },
+  };
+
+  VkRect2D viewPortScissors[1]{{
+      {},
+      targetExtent,
+  }};
+
+  VkRenderingInfo renderInfo{
+      .sType = VK_STRUCTURE_TYPE_RENDERING_INFO,
+      .renderArea =
+          {
+              .offset = {},
+              .extent = targetExtent,
+          },
+      .layerCount = 1,
+      .colorAttachmentCount = 1,
+      .pColorAttachments = colorAttachments,
+  };
+
+  vkCmdBeginRendering(commandBuffer, &renderInfo);
+  vkCmdSetRasterizerDiscardEnable(commandBuffer, VK_FALSE);
+
+  vkCmdSetViewportWithCount(commandBuffer, 1, viewPorts);
+  vkCmdSetScissorWithCount(commandBuffer, 1, viewPortScissors);
+
+  vk::CmdSetColorBlendEnableEXT(commandBuffer, 0, 1, colorBlendEnable);
+  vk::CmdSetColorBlendEquationEXT(commandBuffer, 0, 1, colorBlendEquation);
+
+  vk::CmdSetDepthClampEnableEXT(commandBuffer, VK_FALSE);
+  vkCmdSetDepthTestEnable(commandBuffer, VK_FALSE);
+  vkCmdSetDepthWriteEnable(commandBuffer, VK_FALSE);
+  vkCmdSetDepthBounds(commandBuffer, 0.0f, 1.0f);
+  vkCmdSetDepthBoundsTestEnable(commandBuffer, VK_FALSE);
+
+  vkCmdSetDepthBiasEnable(commandBuffer, VK_FALSE);
+  vkCmdSetDepthBias(commandBuffer, 0, 1, 1);
+  vkCmdSetPrimitiveRestartEnable(commandBuffer, VK_FALSE);
+
+  vk::CmdSetAlphaToOneEnableEXT(commandBuffer, VK_FALSE);
+
+  vk::CmdSetLogicOpEnableEXT(commandBuffer, VK_FALSE);
+  vk::CmdSetLogicOpEXT(commandBuffer, VK_LOGIC_OP_AND);
+  vk::CmdSetPolygonModeEXT(commandBuffer, VK_POLYGON_MODE_FILL);
+  vk::CmdSetRasterizationSamplesEXT(commandBuffer, VK_SAMPLE_COUNT_1_BIT);
+  VkSampleMask sampleMask = ~0;
+  vk::CmdSetSampleMaskEXT(commandBuffer, VK_SAMPLE_COUNT_1_BIT, &sampleMask);
+  vk::CmdSetTessellationDomainOriginEXT(
+      commandBuffer, VK_TESSELLATION_DOMAIN_ORIGIN_LOWER_LEFT);
+  vk::CmdSetAlphaToCoverageEnableEXT(commandBuffer, VK_FALSE);
+  vk::CmdSetVertexInputEXT(commandBuffer, 0, nullptr, 0, nullptr);
+  vk::CmdSetColorWriteMaskEXT(commandBuffer, 0, 1, colorWriteMask);
+
+  vkCmdSetStencilCompareMask(commandBuffer, VK_STENCIL_FACE_FRONT_AND_BACK, 0);
+  vkCmdSetStencilWriteMask(commandBuffer, VK_STENCIL_FACE_FRONT_AND_BACK, 0);
+  vkCmdSetStencilReference(commandBuffer, VK_STENCIL_FACE_FRONT_AND_BACK, 0);
+
+  vkCmdSetCullMode(commandBuffer, VK_CULL_MODE_NONE);
+  vkCmdSetFrontFace(commandBuffer, VK_FRONT_FACE_CLOCKWISE);
+
+  vkCmdSetPrimitiveTopology(commandBuffer, VK_PRIMITIVE_TOPOLOGY_TRIANGLE_LIST);
+  vkCmdSetStencilTestEnable(commandBuffer, VK_FALSE);
+
+  auto stages = Cache::kGraphicsStages;
+  VkShaderEXT shaders[stages.size()]{};
+
+  shaders[Cache::getStageIndex(VK_SHADER_STAGE_VERTEX_BIT)] =
+      getFlipVertexShader(*cacheTag.getCache());
+
+  shaders[Cache::getStageIndex(VK_SHADER_STAGE_FRAGMENT_BIT)] =
+      getFlipFragmentShader(*cacheTag.getCache());
+
+  vkCmdBindDescriptorSets(commandBuffer, VK_PIPELINE_BIND_POINT_GRAPHICS,
+                          pipelineLayout, 0, descriptorSets.size(),
+                          descriptorSets.data(), 0, nullptr);
+
+  vk::CmdBindShadersEXT(commandBuffer, stages.size(), stages.data(), shaders);
+
+  vkCmdDraw(commandBuffer, 6, 1, 0, 0);
+
+  vkCmdEndRendering(commandBuffer);
+
+  // {
+  //   VkImageMemoryBarrier barrier{
+  //       .sType = VK_STRUCTURE_TYPE_IMAGE_MEMORY_BARRIER,
+  //       .srcAccessMask = VK_ACCESS_COLOR_ATTACHMENT_READ_BIT,
+  //       .dstAccessMask = VK_ACCESS_NONE,
+  //       .srcQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED,
+  //       .dstQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED,
+  //       .image = imageView.imageHandle,
+  //       .subresourceRange =
+  //           {
+  //               .aspectMask = VK_IMAGE_ASPECT_COLOR_BIT,
+  //               .levelCount = 1,
+  //               .layerCount = 1,
+  //           },
+  //   };
+
+  //   vkCmdPipelineBarrier(commandBuffer,
+  //   VK_PIPELINE_STAGE_FRAGMENT_SHADER_BIT,
+  //                        VK_PIPELINE_STAGE_BOTTOM_OF_PIPE_BIT, 0, 0, nullptr,
+  //                        0, nullptr, 1, &barrier);
+  // }
+}
diff --git a/rpcsx-gpu2/Renderer.hpp b/rpcsx-gpu2/Renderer.hpp
new file mode 100644
index 00000000..20102091
--- /dev/null
+++ b/rpcsx-gpu2/Renderer.hpp
@@ -0,0 +1,17 @@
+#pragma once
+
+#include "Cache.hpp"
+#include "Pipe.hpp"
+#include <cstdint>
+#include <vulkan/vulkan_core.h>
+
+namespace amdgpu {
+void draw(GraphicsPipe &pipe, int vmId, std::uint32_t firstVertex,
+          std::uint32_t vertexCount, std::uint32_t firstInstance,
+          std::uint32_t instanceCount, std::uint64_t indiciesAddress,
+          std::uint32_t indexCount);
+void flip(Cache::Tag &cacheTag, VkCommandBuffer commandBuffer,
+          VkExtent2D targetExtent, std::uint64_t address, VkImageView target,
+          VkExtent2D imageExtent, CbCompSwap compSwap, TileMode tileMode,
+          gnm::DataFormat dfmt, gnm::NumericFormat nfmt);
+} // namespace amdgpu
diff --git a/rpcsx-gpu2/lib/CMakeLists.txt b/rpcsx-gpu2/lib/CMakeLists.txt
new file mode 100644
index 00000000..d31dba75
--- /dev/null
+++ b/rpcsx-gpu2/lib/CMakeLists.txt
@@ -0,0 +1,4 @@
+add_subdirectory(amdgpu-tiler)
+add_subdirectory(gcn-shader)
+add_subdirectory(vk)
+add_subdirectory(gnm)
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/CMakeLists.txt b/rpcsx-gpu2/lib/amdgpu-tiler/CMakeLists.txt
new file mode 100644
index 00000000..f6eacaa6
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/CMakeLists.txt
@@ -0,0 +1,22 @@
+add_precompiled_vulkan_spirv(amdgpu_tiler_vulkan_shaders
+    shaders/tiler1d.comp.glsl
+    shaders/tiler2d.comp.glsl
+    shaders/tilerLinear.comp.glsl
+    shaders/detiler1d.comp.glsl
+    shaders/detiler2d.comp.glsl
+    shaders/detilerLinear.comp.glsl
+)
+
+add_library(amdgpu_tiler STATIC src/tiler.cpp)
+target_include_directories(amdgpu_tiler PUBLIC include)
+
+add_library(amdgpu_tiler_cpu STATIC src/tiler_cpu.cpp)
+add_library(amdgpu_tiler_vulkan STATIC src/tiler_vulkan.cpp)
+
+target_link_libraries(amdgpu_tiler PUBLIC gnm)
+target_link_libraries(amdgpu_tiler_cpu PUBLIC amdgpu_tiler)
+target_link_libraries(amdgpu_tiler_vulkan PUBLIC amdgpu_tiler amdgpu_tiler_vulkan_shaders vk)
+
+add_library(amdgpu::tiler ALIAS amdgpu_tiler)
+add_library(amdgpu::tiler::cpu ALIAS amdgpu_tiler_cpu)
+add_library(amdgpu::tiler::vulkan ALIAS amdgpu_tiler_vulkan)
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/include/amdgpu/tiler.hpp b/rpcsx-gpu2/lib/amdgpu-tiler/include/amdgpu/tiler.hpp
new file mode 100644
index 00000000..d53d6f56
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/include/amdgpu/tiler.hpp
@@ -0,0 +1,505 @@
+#pragma once
+
+#include <array>
+#include <cstdint>
+#include <cstdlib>
+#include <gnm/constants.hpp>
+#include <gnm/descriptors.hpp>
+
+namespace amdgpu {
+inline constexpr uint32_t kMicroTileWidth = 8;
+inline constexpr uint32_t kMicroTileHeight = 8;
+inline constexpr uint32_t kDramRowSize = 0x400;
+inline constexpr uint32_t kPipeInterleaveBytes = 256;
+
+enum ArrayMode {
+  kArrayModeLinearGeneral = 0x00000000,
+  kArrayModeLinearAligned = 0x00000001,
+  kArrayMode1dTiledThin = 0x00000002,
+  kArrayMode1dTiledThick = 0x00000003,
+  kArrayMode2dTiledThin = 0x00000004,
+  kArrayModeTiledThinPrt = 0x00000005,
+  kArrayMode2dTiledThinPrt = 0x00000006,
+  kArrayMode2dTiledThick = 0x00000007,
+  kArrayMode2dTiledXThick = 0x00000008,
+  kArrayModeTiledThickPrt = 0x00000009,
+  kArrayMode2dTiledThickPrt = 0x0000000a,
+  kArrayMode3dTiledThinPrt = 0x0000000b,
+  kArrayMode3dTiledThin = 0x0000000c,
+  kArrayMode3dTiledThick = 0x0000000d,
+  kArrayMode3dTiledXThick = 0x0000000e,
+  kArrayMode3dTiledThickPrt = 0x0000000f,
+};
+
+enum MicroTileMode {
+  kMicroTileModeDisplay = 0x00000000,
+  kMicroTileModeThin = 0x00000001,
+  kMicroTileModeDepth = 0x00000002,
+  kMicroTileModeRotated = 0x00000003,
+  kMicroTileModeThick = 0x00000004,
+};
+
+enum PipeConfig {
+  kPipeConfigP8_32x32_8x16 = 0x0000000a,
+  kPipeConfigP8_32x32_16x16 = 0x0000000c,
+  kPipeConfigP16 = 0x00000012,
+};
+
+enum TileSplit {
+  kTileSplit64B = 0x00000000,
+  kTileSplit128B = 0x00000001,
+  kTileSplit256B = 0x00000002,
+  kTileSplit512B = 0x00000003,
+  kTileSplit1KB = 0x00000004,
+  kTileSplit2KB = 0x00000005,
+  kTileSplit4KB = 0x00000006,
+};
+
+enum SampleSplit {
+  kSampleSplit1 = 0x00000000,
+  kSampleSplit2 = 0x00000001,
+  kSampleSplit4 = 0x00000002,
+  kSampleSplit8 = 0x00000003,
+};
+
+enum NumBanks {
+  kNumBanks2 = 0x00000000,
+  kNumBanks4 = 0x00000001,
+  kNumBanks8 = 0x00000002,
+  kNumBanks16 = 0x00000003,
+};
+
+enum BankWidth {
+  kBankWidth1 = 0x00000000,
+  kBankWidth2 = 0x00000001,
+  kBankWidth4 = 0x00000002,
+  kBankWidth8 = 0x00000003,
+};
+
+enum BankHeight {
+  kBankHeight1 = 0x00000000,
+  kBankHeight2 = 0x00000001,
+  kBankHeight4 = 0x00000002,
+  kBankHeight8 = 0x00000003,
+};
+
+enum MacroTileAspect {
+  kMacroTileAspect1 = 0x00000000,
+  kMacroTileAspect2 = 0x00000001,
+  kMacroTileAspect4 = 0x00000002,
+  kMacroTileAspect8 = 0x00000003,
+};
+
+struct TileMode {
+  std::uint32_t raw;
+
+  constexpr ArrayMode arrayMode() const {
+    return ArrayMode((raw & 0x0000003c) >> 2);
+  }
+  constexpr PipeConfig pipeConfig() const {
+    return PipeConfig((raw & 0x000007c0) >> 6);
+  }
+  constexpr TileSplit tileSplit() const {
+    return TileSplit((raw & 0x00003800) >> 11);
+  }
+  constexpr MicroTileMode microTileMode() const {
+    return MicroTileMode((raw & 0x01c00000) >> 22);
+  }
+  constexpr SampleSplit sampleSplit() const {
+    return SampleSplit((raw & 0x06000000) >> 25);
+  }
+  constexpr std::uint32_t altPipeConfig() const {
+    return (raw & 0xf8000000) >> 27;
+  }
+
+  constexpr TileMode &arrayMode(ArrayMode mode) {
+    raw = (raw & ~0x0000003c) |
+          (static_cast<std::uint32_t>(mode) << 2) & 0x0000003c;
+    return *this;
+  }
+  constexpr TileMode &pipeConfig(PipeConfig mode) {
+    raw = (raw & ~0x000007c0) |
+          (static_cast<std::uint32_t>(mode) << 6) & 0x000007c0;
+    return *this;
+  }
+  constexpr TileMode &tileSplit(TileSplit mode) {
+    raw = (raw & ~0x00003800) |
+          (static_cast<std::uint32_t>(mode) << 11) & 0x00003800;
+    return *this;
+  }
+  constexpr TileMode &microTileMode(MicroTileMode mode) {
+    raw = (raw & ~0x01c00000) |
+          (static_cast<std::uint32_t>(mode) << 22) & 0x01c00000;
+    return *this;
+  }
+  constexpr TileMode &sampleSplit(SampleSplit mode) {
+    raw = (raw & ~0x06000000) |
+          (static_cast<std::uint32_t>(mode) << 25) & 0x06000000;
+    return *this;
+  }
+};
+
+struct MacroTileMode {
+  std::uint32_t raw;
+
+  constexpr std::uint32_t bankWidth() const { return (raw & 0x00000003) >> 0; }
+  constexpr std::uint32_t bankHeight() const { return (raw & 0x0000000c) >> 2; }
+  constexpr MacroTileAspect macroTileAspect() const {
+    return MacroTileAspect((raw & 0x00000030) >> 4);
+  }
+  constexpr std::uint32_t numBanks() const { return (raw & 0x000000c0) >> 6; }
+
+  constexpr std::uint32_t altBankHeight() const {
+    return (raw & 0x00000300) >> 8;
+  }
+  constexpr std::uint32_t altMacroTileAspect() const {
+    return (raw & 0x00000c00) >> 10;
+  }
+  constexpr std::uint32_t altNumBanks() const {
+    return (raw & 0x00003000) >> 12;
+  }
+};
+
+struct SurfaceInfo {
+  std::uint32_t width;
+  std::uint32_t height;
+  std::uint32_t depth;
+  std::uint32_t pitch;
+  int arrayLayerCount;
+  int numFragments;
+  int bitsPerElement;
+  std::uint64_t totalSize;
+
+  struct SubresourceInfo {
+    std::uint32_t dataWidth;
+    std::uint32_t dataHeight;
+    std::uint32_t dataDepth;
+    std::uint64_t offset;
+    std::uint64_t tiledSize;
+    std::uint64_t linearSize;
+  };
+
+  SubresourceInfo subresources[16];
+
+  void setSubresourceInfo(int mipLevel, const SubresourceInfo &subresource) {
+    subresources[mipLevel] = subresource;
+  }
+
+  const SubresourceInfo &getSubresourceInfo(int mipLevel) const {
+    return subresources[mipLevel];
+  }
+};
+
+constexpr uint32_t getMicroTileThickness(ArrayMode arrayMode) {
+  switch (arrayMode) {
+  case kArrayMode1dTiledThick:
+  case kArrayMode2dTiledThick:
+  case kArrayMode3dTiledThick:
+  case kArrayModeTiledThickPrt:
+  case kArrayMode2dTiledThickPrt:
+  case kArrayMode3dTiledThickPrt:
+    return 4;
+  case kArrayMode2dTiledXThick:
+  case kArrayMode3dTiledXThick:
+    return 8;
+  case kArrayModeLinearGeneral:
+  case kArrayModeLinearAligned:
+  case kArrayMode1dTiledThin:
+  case kArrayMode2dTiledThin:
+  case kArrayModeTiledThinPrt:
+  case kArrayMode2dTiledThinPrt:
+  case kArrayMode3dTiledThinPrt:
+  case kArrayMode3dTiledThin:
+    return 1;
+  }
+
+  std::abort();
+}
+
+constexpr bool isMacroTiled(ArrayMode arrayMode) {
+  switch (arrayMode) {
+  case kArrayModeLinearGeneral:
+  case kArrayModeLinearAligned:
+  case kArrayMode1dTiledThin:
+  case kArrayMode1dTiledThick:
+    return false;
+  case kArrayMode2dTiledThin:
+  case kArrayModeTiledThinPrt:
+  case kArrayMode2dTiledThinPrt:
+  case kArrayMode2dTiledThick:
+  case kArrayMode2dTiledXThick:
+  case kArrayModeTiledThickPrt:
+  case kArrayMode2dTiledThickPrt:
+  case kArrayMode3dTiledThinPrt:
+  case kArrayMode3dTiledThin:
+  case kArrayMode3dTiledThick:
+  case kArrayMode3dTiledXThick:
+  case kArrayMode3dTiledThickPrt:
+    return true;
+  }
+
+  std::abort();
+}
+
+constexpr bool isPrt(ArrayMode arrayMode) {
+  switch (arrayMode) {
+  case kArrayModeLinearGeneral:
+  case kArrayModeLinearAligned:
+  case kArrayMode1dTiledThin:
+  case kArrayMode1dTiledThick:
+  case kArrayMode2dTiledThin:
+  case kArrayMode2dTiledThick:
+  case kArrayMode2dTiledXThick:
+  case kArrayMode3dTiledThin:
+  case kArrayMode3dTiledThick:
+  case kArrayMode3dTiledXThick:
+    return false;
+
+  case kArrayModeTiledThinPrt:
+  case kArrayMode2dTiledThinPrt:
+  case kArrayModeTiledThickPrt:
+  case kArrayMode2dTiledThickPrt:
+  case kArrayMode3dTiledThinPrt:
+  case kArrayMode3dTiledThickPrt:
+    return true;
+  }
+
+  std::abort();
+}
+
+constexpr std::array<MacroTileMode, 16> getDefaultMacroTileModes() {
+  return {{
+      {.raw = 0x26e8},
+      {.raw = 0x26d4},
+      {.raw = 0x21d0},
+      {.raw = 0x21d0},
+      {.raw = 0x2080},
+      {.raw = 0x2040},
+      {.raw = 0x1000},
+      {.raw = 0x0000},
+      {.raw = 0x36ec},
+      {.raw = 0x26e8},
+      {.raw = 0x21d4},
+      {.raw = 0x20d0},
+      {.raw = 0x1080},
+      {.raw = 0x1040},
+      {.raw = 0x0000},
+      {.raw = 0x0000},
+  }};
+}
+
+constexpr std::array<TileMode, 32> getDefaultTileModes() {
+  return {{
+      {.raw = 0x90800310}, {.raw = 0x90800b10}, {.raw = 0x90801310},
+      {.raw = 0x90801b10}, {.raw = 0x90802310}, {.raw = 0x90800308},
+      {.raw = 0x90801318}, {.raw = 0x90802318}, {.raw = 0x90000304},
+      {.raw = 0x90000308}, {.raw = 0x92000310}, {.raw = 0x92000294},
+      {.raw = 0x92000318}, {.raw = 0x90400308}, {.raw = 0x92400310},
+      {.raw = 0x924002b0}, {.raw = 0x92400294}, {.raw = 0x92400318},
+      {.raw = 0x9240032c}, {.raw = 0x9100030c}, {.raw = 0x9100031c},
+      {.raw = 0x910002b4}, {.raw = 0x910002a4}, {.raw = 0x91000328},
+      {.raw = 0x910002bc}, {.raw = 0x91000320}, {.raw = 0x910002b8},
+      {.raw = 0x90c00308}, {.raw = 0x92c00310}, {.raw = 0x92c00294},
+      {.raw = 0x92c00318}, {.raw = 0x00000000},
+  }};
+}
+
+constexpr std::uint32_t getElementIndex(std::uint32_t x, std::uint32_t y,
+                                        std::uint32_t z,
+                                        std::uint32_t bitsPerElement,
+                                        MicroTileMode microTileMode,
+                                        ArrayMode arrayMode) {
+  std::uint32_t elem = 0;
+
+  if (microTileMode == kMicroTileModeDisplay) {
+    switch (bitsPerElement) {
+    case 8:
+      elem |= ((x >> 0) & 0x1) << 0;
+      elem |= ((x >> 1) & 0x1) << 1;
+      elem |= ((x >> 2) & 0x1) << 2;
+      elem |= ((y >> 1) & 0x1) << 3;
+      elem |= ((y >> 0) & 0x1) << 4;
+      elem |= ((y >> 2) & 0x1) << 5;
+      break;
+    case 16:
+      elem |= ((x >> 0) & 0x1) << 0;
+      elem |= ((x >> 1) & 0x1) << 1;
+      elem |= ((x >> 2) & 0x1) << 2;
+      elem |= ((y >> 0) & 0x1) << 3;
+      elem |= ((y >> 1) & 0x1) << 4;
+      elem |= ((y >> 2) & 0x1) << 5;
+      break;
+    case 32:
+      elem |= ((x >> 0) & 0x1) << 0;
+      elem |= ((x >> 1) & 0x1) << 1;
+      elem |= ((y >> 0) & 0x1) << 2;
+      elem |= ((x >> 2) & 0x1) << 3;
+      elem |= ((y >> 1) & 0x1) << 4;
+      elem |= ((y >> 2) & 0x1) << 5;
+      break;
+    case 64:
+      elem |= ((x >> 0) & 0x1) << 0;
+      elem |= ((y >> 0) & 0x1) << 1;
+      elem |= ((x >> 1) & 0x1) << 2;
+      elem |= ((x >> 2) & 0x1) << 3;
+      elem |= ((y >> 1) & 0x1) << 4;
+      elem |= ((y >> 2) & 0x1) << 5;
+      break;
+    default:
+      std::abort();
+    }
+  } else if (microTileMode == kMicroTileModeThin ||
+             microTileMode == kMicroTileModeDepth) {
+    elem |= ((x >> 0) & 0x1) << 0;
+    elem |= ((y >> 0) & 0x1) << 1;
+    elem |= ((x >> 1) & 0x1) << 2;
+    elem |= ((y >> 1) & 0x1) << 3;
+    elem |= ((x >> 2) & 0x1) << 4;
+    elem |= ((y >> 2) & 0x1) << 5;
+
+    switch (arrayMode) {
+    case kArrayMode2dTiledXThick:
+    case kArrayMode3dTiledXThick:
+      elem |= ((z >> 2) & 0x1) << 8;
+    case kArrayMode1dTiledThick:
+    case kArrayMode2dTiledThick:
+    case kArrayMode3dTiledThick:
+    case kArrayModeTiledThickPrt:
+    case kArrayMode2dTiledThickPrt:
+    case kArrayMode3dTiledThickPrt:
+      elem |= ((z >> 0) & 0x1) << 6;
+      elem |= ((z >> 1) & 0x1) << 7;
+    default:
+      break;
+    }
+  } else if (microTileMode == kMicroTileModeThick) {
+    switch (arrayMode) {
+    case kArrayMode2dTiledXThick:
+    case kArrayMode3dTiledXThick:
+      elem |= ((z >> 2) & 0x1) << 8;
+
+    case kArrayMode1dTiledThick:
+    case kArrayMode2dTiledThick:
+    case kArrayMode3dTiledThick:
+    case kArrayModeTiledThickPrt:
+    case kArrayMode2dTiledThickPrt:
+    case kArrayMode3dTiledThickPrt:
+      if (bitsPerElement == 8 || bitsPerElement == 16) {
+        elem |= ((x >> 0) & 0x1) << 0;
+        elem |= ((y >> 0) & 0x1) << 1;
+        elem |= ((x >> 1) & 0x1) << 2;
+        elem |= ((y >> 1) & 0x1) << 3;
+        elem |= ((z >> 0) & 0x1) << 4;
+        elem |= ((z >> 1) & 0x1) << 5;
+        elem |= ((x >> 2) & 0x1) << 6;
+        elem |= ((y >> 2) & 0x1) << 7;
+      } else if (bitsPerElement == 32) {
+        elem |= ((x >> 0) & 0x1) << 0;
+        elem |= ((y >> 0) & 0x1) << 1;
+        elem |= ((x >> 1) & 0x1) << 2;
+        elem |= ((z >> 0) & 0x1) << 3;
+        elem |= ((y >> 1) & 0x1) << 4;
+        elem |= ((z >> 1) & 0x1) << 5;
+        elem |= ((x >> 2) & 0x1) << 6;
+        elem |= ((y >> 2) & 0x1) << 7;
+      } else if (bitsPerElement == 64 || bitsPerElement == 128) {
+        elem |= ((x >> 0) & 0x1) << 0;
+        elem |= ((y >> 0) & 0x1) << 1;
+        elem |= ((z >> 0) & 0x1) << 2;
+        elem |= ((x >> 1) & 0x1) << 3;
+        elem |= ((y >> 1) & 0x1) << 4;
+        elem |= ((z >> 1) & 0x1) << 5;
+        elem |= ((x >> 2) & 0x1) << 6;
+        elem |= ((y >> 2) & 0x1) << 7;
+      } else {
+        std::abort();
+      }
+      break;
+    default:
+      std::abort();
+    }
+  }
+  return elem;
+}
+
+constexpr uint32_t getPipeIndex(uint32_t x, uint32_t y, PipeConfig pipeCfg) {
+  uint32_t pipe = 0;
+  switch (pipeCfg) {
+  case kPipeConfigP8_32x32_8x16:
+    pipe |= (((x >> 4) ^ (y >> 3) ^ (x >> 5)) & 0x1) << 0;
+    pipe |= (((x >> 3) ^ (y >> 4)) & 0x1) << 1;
+    pipe |= (((x >> 5) ^ (y >> 5)) & 0x1) << 2;
+    break;
+  case kPipeConfigP8_32x32_16x16:
+    pipe |= (((x >> 3) ^ (y >> 3) ^ (x >> 4)) & 0x1) << 0;
+    pipe |= (((x >> 4) ^ (y >> 4)) & 0x1) << 1;
+    pipe |= (((x >> 5) ^ (y >> 5)) & 0x1) << 2;
+    break;
+  case kPipeConfigP16:
+    pipe |= (((x >> 3) ^ (y >> 3) ^ (x >> 4)) & 0x1) << 0;
+    pipe |= (((x >> 4) ^ (y >> 4)) & 0x1) << 1;
+    pipe |= (((x >> 5) ^ (y >> 5)) & 0x1) << 2;
+    pipe |= (((x >> 6) ^ (y >> 5)) & 0x1) << 3;
+    break;
+  default:
+    std::abort();
+  }
+  return pipe;
+}
+
+constexpr uint32_t getBankIndex(std::uint32_t x, std::uint32_t y,
+                                std::uint32_t bank_width,
+                                std::uint32_t bank_height,
+                                std::uint32_t num_banks,
+                                std::uint32_t num_pipes) {
+  std::uint32_t x_shift_offset = std::countr_zero(bank_width * num_pipes);
+  std::uint32_t y_shift_offset = std::countr_zero(bank_height);
+  std::uint32_t xs = x >> x_shift_offset;
+  std::uint32_t ys = y >> y_shift_offset;
+  std::uint32_t bank = 0;
+  switch (num_banks) {
+  case 2:
+    bank |= (((xs >> 3) ^ (ys >> 3)) & 0x1) << 0;
+    break;
+  case 4:
+    bank |= (((xs >> 3) ^ (ys >> 4)) & 0x1) << 0;
+    bank |= (((xs >> 4) ^ (ys >> 3)) & 0x1) << 1;
+    break;
+  case 8:
+    bank |= (((xs >> 3) ^ (ys >> 5)) & 0x1) << 0;
+    bank |= (((xs >> 4) ^ (ys >> 4) ^ (ys >> 5)) & 0x1) << 1;
+    bank |= (((xs >> 5) ^ (ys >> 3)) & 0x1) << 2;
+    break;
+  case 16:
+    bank |= (((xs >> 3) ^ (ys >> 6)) & 0x1) << 0;
+    bank |= (((xs >> 4) ^ (ys >> 5) ^ (ys >> 6)) & 0x1) << 1;
+    bank |= (((xs >> 5) ^ (ys >> 4)) & 0x1) << 2;
+    bank |= (((xs >> 6) ^ (ys >> 3)) & 0x1) << 3;
+    break;
+  default:
+    std::abort();
+  }
+
+  return bank;
+}
+
+constexpr std::uint32_t getPipeCount(PipeConfig pipeConfig) {
+  switch (pipeConfig) {
+  case kPipeConfigP8_32x32_8x16:
+  case kPipeConfigP8_32x32_16x16:
+    return 8;
+  case kPipeConfigP16:
+    return 16;
+  default:
+    std::abort();
+  }
+}
+
+SurfaceInfo computeSurfaceInfo(TileMode tileMode, gnm::TextureType type,
+                               gnm::DataFormat dfmt, std::uint32_t width,
+                               std::uint32_t height, std::uint32_t depth,
+                               std::uint32_t pitch, int baseArrayLayer,
+                               int arrayCount, int baseMipLevel, int mipCount,
+                               bool pow2pad);
+SurfaceInfo computeSurfaceInfo(const gnm::TBuffer &tbuffer, TileMode tileMode);
+} // namespace amdgpu
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/include/amdgpu/tiler_cpu.hpp b/rpcsx-gpu2/lib/amdgpu-tiler/include/amdgpu/tiler_cpu.hpp
new file mode 100644
index 00000000..2f060810
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/include/amdgpu/tiler_cpu.hpp
@@ -0,0 +1,14 @@
+#pragma once
+
+#include "gnm/constants.hpp"
+#include "tiler.hpp"
+#include <cstdint>
+
+namespace amdgpu {
+std::uint64_t getTiledOffset(gnm::TextureType texType, bool isPow2Padded,
+                             int numFragments, gnm::DataFormat dfmt,
+                             amdgpu::TileMode tileMode,
+                             amdgpu::MacroTileMode macroTileMode, int mipLevel,
+                             int arraySlice, int width, int height, int depth,
+                             int pitch, int x, int y, int z, int fragmentIndex);
+}
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/include/amdgpu/tiler_vulkan.hpp b/rpcsx-gpu2/lib/amdgpu-tiler/include/amdgpu/tiler_vulkan.hpp
new file mode 100644
index 00000000..658dc7d5
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/include/amdgpu/tiler_vulkan.hpp
@@ -0,0 +1,24 @@
+#pragma once
+#include "tiler.hpp"
+#include <Scheduler.hpp>
+#include <memory>
+
+namespace amdgpu {
+struct GpuTiler {
+  struct Impl;
+  GpuTiler();
+  ~GpuTiler();
+
+  void detile(Scheduler &scheduler, const amdgpu::SurfaceInfo &info,
+              amdgpu::TileMode tileMode, std::uint64_t srcTiledAddress,
+              std::uint64_t dstLinearAddress, int mipLevel, int baseArray,
+              int arrayCount);
+  void tile(Scheduler &scheduler, const amdgpu::SurfaceInfo &info,
+            amdgpu::TileMode tileMode, std::uint64_t srcLinearAddress,
+            std::uint64_t dstTiledAddress, int mipLevel, int baseArray,
+            int arrayCount);
+
+private:
+  std::unique_ptr<Impl> mImpl;
+};
+} // namespace amdgpu
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/shaders/detiler1d.comp.glsl b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/detiler1d.comp.glsl
new file mode 100644
index 00000000..2f65b404
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/detiler1d.comp.glsl
@@ -0,0 +1,76 @@
+#version 460
+
+#extension GL_GOOGLE_include_directive : enable
+#extension GL_EXT_shader_explicit_arithmetic_types : enable
+#extension GL_EXT_shader_atomic_int64 : enable
+#extension GL_EXT_shader_atomic_float : enable
+#extension GL_EXT_shader_image_load_formatted : enable
+#extension GL_KHR_memory_scope_semantics : enable
+#extension GL_EXT_shared_memory_block : enable
+#extension GL_EXT_scalar_block_layout : enable
+#extension GL_EXT_null_initializer : enable
+#extension GL_EXT_buffer_reference2 : enable
+#extension GL_EXT_buffer_reference_uvec2 : enable
+
+#include "tiler.glsl"
+
+void main() {
+    uvec3 pos = gl_GlobalInvocationID;
+    uint64_t tiledSliceOffset = 0;
+    uint64_t linearSliceOffset = 0;
+    if (config.tiledSurfaceSize != 0) {
+        tiledSliceOffset = pos.z * config.tiledSurfaceSize;
+        linearSliceOffset = pos.z * config.linearSurfaceSize;
+        pos.z = 0;
+    }
+
+    uint64_t tiledByteOffset = getTiledBitOffset1D(
+        config.tileMode,
+        pos,
+        config.dataSize,
+        config.bitsPerElement
+    ) / 8;
+
+    tiledByteOffset += tiledSliceOffset;
+
+    uint64_t linearByteOffset = computeLinearElementByteOffset(
+        pos,
+        0,
+        config.dataSize.x,
+        config.dataSize.x * config.dataSize.y,
+        config.bitsPerElement,
+        1 << config.numFragments
+    );
+
+    linearByteOffset += linearSliceOffset;
+
+    switch ((config.bitsPerElement + 7) / 8) {
+    case 1:
+        buffer_reference_uint8_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint8_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 2:
+        buffer_reference_uint16_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint16_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 4:
+        buffer_reference_uint32_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint32_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 8:
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 16:
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 8).data;
+        break;
+
+    case 32:
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 8).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 16).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 16).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 24).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 24).data;
+        break;
+    }
+}
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/shaders/detiler2d.comp.glsl b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/detiler2d.comp.glsl
new file mode 100644
index 00000000..2f65b404
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/detiler2d.comp.glsl
@@ -0,0 +1,76 @@
+#version 460
+
+#extension GL_GOOGLE_include_directive : enable
+#extension GL_EXT_shader_explicit_arithmetic_types : enable
+#extension GL_EXT_shader_atomic_int64 : enable
+#extension GL_EXT_shader_atomic_float : enable
+#extension GL_EXT_shader_image_load_formatted : enable
+#extension GL_KHR_memory_scope_semantics : enable
+#extension GL_EXT_shared_memory_block : enable
+#extension GL_EXT_scalar_block_layout : enable
+#extension GL_EXT_null_initializer : enable
+#extension GL_EXT_buffer_reference2 : enable
+#extension GL_EXT_buffer_reference_uvec2 : enable
+
+#include "tiler.glsl"
+
+void main() {
+    uvec3 pos = gl_GlobalInvocationID;
+    uint64_t tiledSliceOffset = 0;
+    uint64_t linearSliceOffset = 0;
+    if (config.tiledSurfaceSize != 0) {
+        tiledSliceOffset = pos.z * config.tiledSurfaceSize;
+        linearSliceOffset = pos.z * config.linearSurfaceSize;
+        pos.z = 0;
+    }
+
+    uint64_t tiledByteOffset = getTiledBitOffset1D(
+        config.tileMode,
+        pos,
+        config.dataSize,
+        config.bitsPerElement
+    ) / 8;
+
+    tiledByteOffset += tiledSliceOffset;
+
+    uint64_t linearByteOffset = computeLinearElementByteOffset(
+        pos,
+        0,
+        config.dataSize.x,
+        config.dataSize.x * config.dataSize.y,
+        config.bitsPerElement,
+        1 << config.numFragments
+    );
+
+    linearByteOffset += linearSliceOffset;
+
+    switch ((config.bitsPerElement + 7) / 8) {
+    case 1:
+        buffer_reference_uint8_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint8_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 2:
+        buffer_reference_uint16_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint16_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 4:
+        buffer_reference_uint32_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint32_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 8:
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 16:
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 8).data;
+        break;
+
+    case 32:
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 8).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 16).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 16).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 24).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 24).data;
+        break;
+    }
+}
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/shaders/detilerLinear.comp.glsl b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/detilerLinear.comp.glsl
new file mode 100644
index 00000000..c2780682
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/detilerLinear.comp.glsl
@@ -0,0 +1,76 @@
+#version 460
+
+#extension GL_GOOGLE_include_directive : enable
+#extension GL_EXT_shader_explicit_arithmetic_types : enable
+#extension GL_EXT_shader_atomic_int64 : enable
+#extension GL_EXT_shader_atomic_float : enable
+#extension GL_EXT_shader_image_load_formatted : enable
+#extension GL_KHR_memory_scope_semantics : enable
+#extension GL_EXT_shared_memory_block : enable
+#extension GL_EXT_scalar_block_layout : enable
+#extension GL_EXT_null_initializer : enable
+#extension GL_EXT_buffer_reference2 : enable
+#extension GL_EXT_buffer_reference_uvec2 : enable
+
+#include "tiler.glsl"
+
+void main() {
+    uvec3 pos = gl_GlobalInvocationID;
+    uint64_t tiledSliceOffset = 0;
+    uint64_t linearSliceOffset = 0;
+    if (config.tiledSurfaceSize != 0) {
+        tiledSliceOffset = pos.z * config.tiledSurfaceSize;
+        linearSliceOffset = pos.z * config.linearSurfaceSize;
+        pos.z = 0;
+    }
+
+    uint64_t tiledByteOffset = computeLinearOffset(
+        config.bitsPerElement,
+        config.dataSize.y,
+        config.dataSize.x,
+        pos
+    ) / 8;
+
+    tiledByteOffset += tiledSliceOffset;
+
+    uint64_t linearByteOffset = computeLinearElementByteOffset(
+        pos,
+        0,
+        config.dataSize.x,
+        config.dataSize.x * config.dataSize.y,
+        config.bitsPerElement,
+        1 << config.numFragments
+    );
+
+    linearByteOffset += linearSliceOffset;
+
+    switch ((config.bitsPerElement + 7) / 8) {
+    case 1:
+        buffer_reference_uint8_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint8_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 2:
+        buffer_reference_uint16_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint16_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 4:
+        buffer_reference_uint32_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint32_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 8:
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset).data;
+        break;
+
+    case 16:
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 8).data;
+        break;
+
+    case 32:
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 8).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 16).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 16).data;
+        buffer_reference_uint64_t(config.dstAddress + linearByteOffset + 24).data = buffer_reference_uint64_t(config.srcAddress + tiledByteOffset + 24).data;
+        break;
+    }
+}
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tiler.glsl b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tiler.glsl
new file mode 100644
index 00000000..04c9dbd0
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tiler.glsl
@@ -0,0 +1,716 @@
+
+#define FOR_ALL_BASE_TYPES(OP) \
+    OP(int8_t) \
+    OP(uint8_t) \
+    OP(int16_t) \
+    OP(uint16_t) \
+    OP(float16_t) \
+    OP(int32_t) \
+    OP(uint32_t) \
+    OP(float32_t) \
+    OP(int64_t) \
+    OP(uint64_t) \
+    OP(float64_t) \
+
+#define DEFINE_BUFFER_REFERENCE(TYPE) \
+    layout(buffer_reference) buffer buffer_reference_##TYPE { \
+        TYPE data; \
+    }; \
+
+FOR_ALL_BASE_TYPES(DEFINE_BUFFER_REFERENCE)
+
+#define U32ARRAY_FETCH_BITS(ARRAY, START, BITCOUNT)  ((ARRAY[(START) >> 5] >> ((START) & 31)) & ((1 << (BITCOUNT)) - 1))
+#define U64ARRAY_FETCH_BITS(ARRAY, START, BITCOUNT)  ((ARRAY[(START) >> 6] >> ((START) & 63)) & ((uint64_t(1) << (BITCOUNT)) - 1))
+
+uint64_t tbuffer_base(u64vec4 tbuffer) {
+    return U64ARRAY_FETCH_BITS(tbuffer, 0, 38);
+}
+uint32_t tbuffer_mtype_L2(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 38, 2));
+}
+uint32_t tbuffer_min_lod(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 40, 12));
+}
+uint32_t tbuffer_dfmt(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 52, 6));
+}
+uint32_t tbuffer_nfmt(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 58, 4));
+}
+uint32_t tbuffer_mtype_l1(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 62, 2) | (U64ARRAY_FETCH_BITS(tbuffer, 122, 1) << 2));
+}
+uint32_t tbuffer_width(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 64, 14));
+}
+uint32_t tbuffer_height(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 78, 14));
+}
+uint32_t tbuffer_perfMod(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 92, 3));
+}
+bool tbuffer_interlaced(u64vec4 tbuffer) {
+    return U64ARRAY_FETCH_BITS(tbuffer, 95, 1) != 0;
+}
+uint32_t tbuffer_dst_sel_x(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 96, 3));
+}
+uint32_t tbuffer_dst_sel_y(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 99, 3));
+}
+uint32_t tbuffer_dst_sel_z(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 102, 3));
+}
+uint32_t tbuffer_dst_sel_w(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 105, 3));
+}
+uint32_t tbuffer_base_level(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 108, 4));
+}
+uint32_t tbuffer_last_level(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 112, 4));
+}
+uint32_t tbuffer_tiling_idx(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 116, 5));
+}
+bool tbuffer_pow2pad(u64vec4 tbuffer) {
+    return U64ARRAY_FETCH_BITS(tbuffer, 121, 1) != 0;
+}
+uint32_t tbuffer_type(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 124, 4));
+}
+uint32_t tbuffer_depth(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 128, 13));
+}
+uint32_t tbuffer_pitch(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 141, 14));
+}
+uint32_t tbuffer_base_array(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 160, 13));
+}
+uint32_t tbuffer_last_array(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 173, 13));
+}
+uint32_t tbuffer_min_lod_warn(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 192, 12));
+}
+uint32_t tbuffer_counter_bank_id(u64vec4 tbuffer) {
+    return uint32_t(U64ARRAY_FETCH_BITS(tbuffer, 204, 8));
+}
+bool tbuffer_LOD_hdw_cnt_en(u64vec4 tbuffer) {
+    return U64ARRAY_FETCH_BITS(tbuffer, 212, 1) != 0;
+}
+
+const int kTextureType1D = 8;
+const int kTextureType2D = 9;
+const int kTextureType3D = 10;
+const int kTextureTypeCube = 11;
+const int kTextureTypeArray1D = 12;
+const int kTextureTypeArray2D = 13;
+const int kTextureTypeMsaa2D = 14;
+const int kTextureTypeMsaaArray2D = 15;
+
+const uint32_t kMicroTileWidth = 8;
+const uint32_t kMicroTileHeight = 8;
+const uint32_t kDramRowSize = 0x400;
+const uint32_t kPipeInterleaveBytes = 256;
+
+
+const uint32_t kDataFormatInvalid = 0x00000000;
+const uint32_t kDataFormat8 = 0x00000001;
+const uint32_t kDataFormat16 = 0x00000002;
+const uint32_t kDataFormat8_8 = 0x00000003;
+const uint32_t kDataFormat32 = 0x00000004;
+const uint32_t kDataFormat16_16 = 0x00000005;
+const uint32_t kDataFormat10_11_11 = 0x00000006;
+const uint32_t kDataFormat11_11_10 = 0x00000007;
+const uint32_t kDataFormat10_10_10_2 = 0x00000008;
+const uint32_t kDataFormat2_10_10_10 = 0x00000009;
+const uint32_t kDataFormat8_8_8_8 = 0x0000000a;
+const uint32_t kDataFormat32_32 = 0x0000000b;
+const uint32_t kDataFormat16_16_16_16 = 0x0000000c;
+const uint32_t kDataFormat32_32_32 = 0x0000000d;
+const uint32_t kDataFormat32_32_32_32 = 0x0000000e;
+const uint32_t kDataFormat5_6_5 = 0x00000010;
+const uint32_t kDataFormat1_5_5_5 = 0x00000011;
+const uint32_t kDataFormat5_5_5_1 = 0x00000012;
+const uint32_t kDataFormat4_4_4_4 = 0x00000013;
+const uint32_t kDataFormat8_24 = 0x00000014;
+const uint32_t kDataFormat24_8 = 0x00000015;
+const uint32_t kDataFormatX24_8_32 = 0x00000016;
+const uint32_t kDataFormatGB_GR = 0x00000020;
+const uint32_t kDataFormatBG_RG = 0x00000021;
+const uint32_t kDataFormat5_9_9_9 = 0x00000022;
+const uint32_t kDataFormatBc1 = 0x00000023;
+const uint32_t kDataFormatBc2 = 0x00000024;
+const uint32_t kDataFormatBc3 = 0x00000025;
+const uint32_t kDataFormatBc4 = 0x00000026;
+const uint32_t kDataFormatBc5 = 0x00000027;
+const uint32_t kDataFormatBc6 = 0x00000028;
+const uint32_t kDataFormatBc7 = 0x00000029;
+const uint32_t kDataFormatFmask8_S2_F1 = 0x0000002C;
+const uint32_t kDataFormatFmask8_S4_F1 = 0x0000002D;
+const uint32_t kDataFormatFmask8_S8_F1 = 0x0000002E;
+const uint32_t kDataFormatFmask8_S2_F2 = 0x0000002F;
+const uint32_t kDataFormatFmask8_S4_F2 = 0x00000030;
+const uint32_t kDataFormatFmask8_S4_F4 = 0x00000031;
+const uint32_t kDataFormatFmask16_S16_F1 = 0x00000032;
+const uint32_t kDataFormatFmask16_S8_F2 = 0x00000033;
+const uint32_t kDataFormatFmask32_S16_F2 = 0x00000034;
+const uint32_t kDataFormatFmask32_S8_F4 = 0x00000035;
+const uint32_t kDataFormatFmask32_S8_F8 = 0x00000036;
+const uint32_t kDataFormatFmask64_S16_F4 = 0x00000037;
+const uint32_t kDataFormatFmask64_S16_F8 = 0x00000038;
+const uint32_t kDataFormat4_4 = 0x00000039;
+const uint32_t kDataFormat6_5_5 = 0x0000003A;
+const uint32_t kDataFormat1 = 0x0000003B;
+const uint32_t kDataFormat1Reversed = 0x0000003C;
+
+const uint32_t kNumericFormatUNorm = 0x00000000;
+const uint32_t kNumericFormatSNorm = 0x00000001;
+const uint32_t kNumericFormatUScaled = 0x00000002;
+const uint32_t kNumericFormatSScaled = 0x00000003;
+const uint32_t kNumericFormatUInt = 0x00000004;
+const uint32_t kNumericFormatSInt = 0x00000005;
+const uint32_t kNumericFormatSNormNoZero = 0x00000006;
+const uint32_t kNumericFormatFloat = 0x00000007;
+const uint32_t kNumericFormatSrgb = 0x00000009;
+const uint32_t kNumericFormatUBNorm = 0x0000000A;
+const uint32_t kNumericFormatUBNormNoZero = 0x0000000B;
+const uint32_t kNumericFormatUBInt = 0x0000000C;
+const uint32_t kNumericFormatUBScaled = 0x0000000D;
+
+const uint32_t kArrayModeLinearGeneral = 0x00000000;
+const uint32_t kArrayModeLinearAligned = 0x00000001;
+const uint32_t kArrayMode1dTiledThin = 0x00000002;
+const uint32_t kArrayMode1dTiledThick = 0x00000003;
+const uint32_t kArrayMode2dTiledThin = 0x00000004;
+const uint32_t kArrayModeTiledThinPrt = 0x00000005;
+const uint32_t kArrayMode2dTiledThinPrt = 0x00000006;
+const uint32_t kArrayMode2dTiledThick = 0x00000007;
+const uint32_t kArrayMode2dTiledXThick = 0x00000008;
+const uint32_t kArrayModeTiledThickPrt = 0x00000009;
+const uint32_t kArrayMode2dTiledThickPrt = 0x0000000a;
+const uint32_t kArrayMode3dTiledThinPrt = 0x0000000b;
+const uint32_t kArrayMode3dTiledThin = 0x0000000c;
+const uint32_t kArrayMode3dTiledThick = 0x0000000d;
+const uint32_t kArrayMode3dTiledXThick = 0x0000000e;
+const uint32_t kArrayMode3dTiledThickPrt = 0x0000000f;
+
+const uint32_t kMicroTileModeDisplay = 0x00000000;
+const uint32_t kMicroTileModeThin = 0x00000001;
+const uint32_t kMicroTileModeDepth = 0x00000002;
+const uint32_t kMicroTileModeRotated = 0x00000003;
+const uint32_t kMicroTileModeThick = 0x00000004;
+
+const uint32_t kPipeConfigP8_32x32_8x16 = 0x0000000a;
+const uint32_t kPipeConfigP8_32x32_16x16 = 0x0000000c;
+const uint32_t kPipeConfigP16 = 0x00000012;
+
+
+
+uint32_t getMicroTileThickness(uint32_t arrayMode) {
+  switch (arrayMode) {
+  case kArrayMode1dTiledThick:
+  case kArrayMode2dTiledThick:
+  case kArrayMode3dTiledThick:
+  case kArrayModeTiledThickPrt:
+  case kArrayMode2dTiledThickPrt:
+  case kArrayMode3dTiledThickPrt:
+    return 4;
+  case kArrayMode2dTiledXThick:
+  case kArrayMode3dTiledXThick:
+    return 8;
+  case kArrayModeLinearGeneral:
+  case kArrayModeLinearAligned:
+  case kArrayMode1dTiledThin:
+  case kArrayMode2dTiledThin:
+  case kArrayModeTiledThinPrt:
+  case kArrayMode2dTiledThinPrt:
+  case kArrayMode3dTiledThinPrt:
+  case kArrayMode3dTiledThin:
+    return 1;
+  }
+
+  return 1;
+}
+
+bool isMacroTiled(uint32_t arrayMode) {
+  switch (arrayMode) {
+  case kArrayModeLinearGeneral:
+  case kArrayModeLinearAligned:
+  case kArrayMode1dTiledThin:
+  case kArrayMode1dTiledThick:
+    return false;
+  case kArrayMode2dTiledThin:
+  case kArrayModeTiledThinPrt:
+  case kArrayMode2dTiledThinPrt:
+  case kArrayMode2dTiledThick:
+  case kArrayMode2dTiledXThick:
+  case kArrayModeTiledThickPrt:
+  case kArrayMode2dTiledThickPrt:
+  case kArrayMode3dTiledThinPrt:
+  case kArrayMode3dTiledThin:
+  case kArrayMode3dTiledThick:
+  case kArrayMode3dTiledXThick:
+  case kArrayMode3dTiledThickPrt:
+    return true;
+  }
+
+  return false;
+}
+
+bool isPrt(uint32_t arrayMode) {
+  switch (arrayMode) {
+  case kArrayModeLinearGeneral:
+  case kArrayModeLinearAligned:
+  case kArrayMode1dTiledThin:
+  case kArrayMode1dTiledThick:
+  case kArrayMode2dTiledThin:
+  case kArrayMode2dTiledThick:
+  case kArrayMode2dTiledXThick:
+  case kArrayMode3dTiledThin:
+  case kArrayMode3dTiledThick:
+  case kArrayMode3dTiledXThick:
+    return false;
+
+  case kArrayModeTiledThinPrt:
+  case kArrayMode2dTiledThinPrt:
+  case kArrayModeTiledThickPrt:
+  case kArrayMode2dTiledThickPrt:
+  case kArrayMode3dTiledThinPrt:
+  case kArrayMode3dTiledThickPrt:
+    return true;
+  }
+
+  return false;
+}
+
+int getTexelsPerElement(uint32_t dfmt) {
+  switch (dfmt) {
+  case kDataFormatBc1:
+  case kDataFormatBc2:
+  case kDataFormatBc3:
+  case kDataFormatBc4:
+  case kDataFormatBc5:
+  case kDataFormatBc6:
+  case kDataFormatBc7:
+    return 16;
+  case kDataFormat1:
+  case kDataFormat1Reversed:
+    return 8;
+  case kDataFormatGB_GR:
+  case kDataFormatBG_RG:
+    return 2;
+  default:
+    return 1;
+  }
+}
+
+int getBitsPerElement(uint32_t dfmt) {
+  switch (dfmt) {
+  case kDataFormatInvalid:
+    return 0;
+  case kDataFormat8:
+    return 8;
+  case kDataFormat16:
+    return 16;
+  case kDataFormat8_8:
+    return 16;
+  case kDataFormat32:
+    return 32;
+  case kDataFormat16_16:
+    return 32;
+  case kDataFormat10_11_11:
+    return 32;
+  case kDataFormat11_11_10:
+    return 32;
+  case kDataFormat10_10_10_2:
+    return 32;
+  case kDataFormat2_10_10_10:
+    return 32;
+  case kDataFormat8_8_8_8:
+    return 32;
+  case kDataFormat32_32:
+    return 64;
+  case kDataFormat16_16_16_16:
+    return 64;
+  case kDataFormat32_32_32:
+    return 96;
+  case kDataFormat32_32_32_32:
+    return 128;
+  case kDataFormat5_6_5:
+    return 16;
+  case kDataFormat1_5_5_5:
+    return 16;
+  case kDataFormat5_5_5_1:
+    return 16;
+  case kDataFormat4_4_4_4:
+    return 16;
+  case kDataFormat8_24:
+    return 32;
+  case kDataFormat24_8:
+    return 32;
+  case kDataFormatX24_8_32:
+    return 64;
+  case kDataFormatGB_GR:
+    return 16;
+  case kDataFormatBG_RG:
+    return 16;
+  case kDataFormat5_9_9_9:
+    return 32;
+  case kDataFormatBc1:
+    return 4;
+  case kDataFormatBc2:
+    return 8;
+  case kDataFormatBc3:
+    return 8;
+  case kDataFormatBc4:
+    return 4;
+  case kDataFormatBc5:
+    return 8;
+  case kDataFormatBc6:
+    return 8;
+  case kDataFormatBc7:
+    return 8;
+  case kDataFormatFmask8_S2_F1:
+    return 8;
+  case kDataFormatFmask8_S4_F1:
+    return 8;
+  case kDataFormatFmask8_S8_F1:
+    return 8;
+  case kDataFormatFmask8_S2_F2:
+    return 8;
+  case kDataFormatFmask8_S4_F2:
+    return 8;
+  case kDataFormatFmask8_S4_F4:
+    return 8;
+  case kDataFormatFmask16_S16_F1:
+    return 16;
+  case kDataFormatFmask16_S8_F2:
+    return 16;
+  case kDataFormatFmask32_S16_F2:
+    return 32;
+  case kDataFormatFmask32_S8_F4:
+    return 32;
+  case kDataFormatFmask32_S8_F8:
+    return 32;
+  case kDataFormatFmask64_S16_F4:
+    return 64;
+  case kDataFormatFmask64_S16_F8:
+    return 64;
+  case kDataFormat4_4:
+    return 8;
+  case kDataFormat6_5_5:
+    return 16;
+  case kDataFormat1:
+    return 1;
+  case kDataFormat1Reversed:
+    return 1;
+  }
+
+  return -1;
+}
+
+int getTotalBitsPerElement(uint32_t dfmt) {
+  return getBitsPerElement(dfmt) * getTexelsPerElement(dfmt);
+}
+
+int getNumComponentsPerElement(uint32_t dfmt) {
+  switch (dfmt) {
+  case kDataFormatInvalid:
+    return 0;
+  case kDataFormat8:
+    return 1;
+  case kDataFormat16:
+    return 1;
+  case kDataFormat8_8:
+    return 2;
+  case kDataFormat32:
+    return 1;
+  case kDataFormat16_16:
+    return 2;
+  case kDataFormat10_11_11:
+    return 3;
+  case kDataFormat11_11_10:
+    return 3;
+  case kDataFormat10_10_10_2:
+    return 4;
+  case kDataFormat2_10_10_10:
+    return 4;
+  case kDataFormat8_8_8_8:
+    return 4;
+  case kDataFormat32_32:
+    return 2;
+  case kDataFormat16_16_16_16:
+    return 4;
+  case kDataFormat32_32_32:
+    return 3;
+  case kDataFormat32_32_32_32:
+    return 4;
+  case kDataFormat5_6_5:
+    return 3;
+  case kDataFormat1_5_5_5:
+    return 4;
+  case kDataFormat5_5_5_1:
+    return 4;
+  case kDataFormat4_4_4_4:
+    return 4;
+  case kDataFormat8_24:
+    return 2;
+  case kDataFormat24_8:
+    return 2;
+  case kDataFormatX24_8_32:
+    return 2;
+  case kDataFormatGB_GR:
+    return 3;
+  case kDataFormatBG_RG:
+    return 3;
+  case kDataFormat5_9_9_9:
+    return 3;
+  case kDataFormatBc1:
+    return 4;
+  case kDataFormatBc2:
+    return 4;
+  case kDataFormatBc3:
+    return 4;
+  case kDataFormatBc4:
+    return 1;
+  case kDataFormatBc5:
+    return 2;
+  case kDataFormatBc6:
+    return 3;
+  case kDataFormatBc7:
+    return 4;
+  case kDataFormatFmask8_S2_F1:
+    return 2;
+  case kDataFormatFmask8_S4_F1:
+    return 2;
+  case kDataFormatFmask8_S8_F1:
+    return 2;
+  case kDataFormatFmask8_S2_F2:
+    return 2;
+  case kDataFormatFmask8_S4_F2:
+    return 2;
+  case kDataFormatFmask8_S4_F4:
+    return 2;
+  case kDataFormatFmask16_S16_F1:
+    return 2;
+  case kDataFormatFmask16_S8_F2:
+    return 2;
+  case kDataFormatFmask32_S16_F2:
+    return 2;
+  case kDataFormatFmask32_S8_F4:
+    return 2;
+  case kDataFormatFmask32_S8_F8:
+    return 2;
+  case kDataFormatFmask64_S16_F4:
+    return 2;
+  case kDataFormatFmask64_S16_F8:
+    return 2;
+  case kDataFormat4_4:
+    return 2;
+  case kDataFormat6_5_5:
+    return 3;
+  case kDataFormat1:
+    return 1;
+  case kDataFormat1Reversed:
+    return 1;
+  }
+
+  return -1;
+}
+
+uint32_t tileMode_getArrayMode(uint32_t tileMode) {
+    return (tileMode & 0x0000003c) >> 2;
+}
+uint32_t tileMode_getPipeConfig(uint32_t tileMode) {
+    return (tileMode & 0x000007c0) >> 6;
+}
+uint32_t tileMode_getTileSplit(uint32_t tileMode) {
+    return (tileMode & 0x00003800) >> 11;
+}
+uint32_t tileMode_getMicroTileMode(uint32_t tileMode) {
+    return (tileMode & 0x01c00000) >> 22;
+}
+uint32_t tileMode_getSampleSplit(uint32_t tileMode) {
+    return (tileMode & 0x06000000) >> 25;
+}
+
+uint32_t bit_ceil(uint32_t x) {
+  x = x - 1;
+	x |= x >> 1;
+	x |= x >> 2;
+	x |= x >> 4;
+	x |= x >> 8;
+	x |= x >> 16;
+	return x + 1;
+}
+
+uint32_t getElementIndex(uvec3 pos, uint32_t bitsPerElement, uint32_t microTileMode, uint32_t arrayMode) {
+  uint32_t elem = 0;
+
+  if (microTileMode == kMicroTileModeDisplay) {
+    switch (bitsPerElement) {
+    case 8:
+      elem |= ((pos.x >> 0) & 0x1) << 0;
+      elem |= ((pos.x >> 1) & 0x1) << 1;
+      elem |= ((pos.x >> 2) & 0x1) << 2;
+      elem |= ((pos.y >> 1) & 0x1) << 3;
+      elem |= ((pos.y >> 0) & 0x1) << 4;
+      elem |= ((pos.y >> 2) & 0x1) << 5;
+      break;
+    case 16:
+      elem |= ((pos.x >> 0) & 0x1) << 0;
+      elem |= ((pos.x >> 1) & 0x1) << 1;
+      elem |= ((pos.x >> 2) & 0x1) << 2;
+      elem |= ((pos.y >> 0) & 0x1) << 3;
+      elem |= ((pos.y >> 1) & 0x1) << 4;
+      elem |= ((pos.y >> 2) & 0x1) << 5;
+      break;
+    case 32:
+      elem |= ((pos.x >> 0) & 0x1) << 0;
+      elem |= ((pos.x >> 1) & 0x1) << 1;
+      elem |= ((pos.y >> 0) & 0x1) << 2;
+      elem |= ((pos.x >> 2) & 0x1) << 3;
+      elem |= ((pos.y >> 1) & 0x1) << 4;
+      elem |= ((pos.y >> 2) & 0x1) << 5;
+      break;
+    case 64:
+      elem |= ((pos.x >> 0) & 0x1) << 0;
+      elem |= ((pos.y >> 0) & 0x1) << 1;
+      elem |= ((pos.x >> 1) & 0x1) << 2;
+      elem |= ((pos.x >> 2) & 0x1) << 3;
+      elem |= ((pos.y >> 1) & 0x1) << 4;
+      elem |= ((pos.y >> 2) & 0x1) << 5;
+      break;
+    }
+  } else if (microTileMode == kMicroTileModeThin ||
+             microTileMode == kMicroTileModeDepth) {
+    elem |= ((pos.x >> 0) & 0x1) << 0;
+    elem |= ((pos.y >> 0) & 0x1) << 1;
+    elem |= ((pos.x >> 1) & 0x1) << 2;
+    elem |= ((pos.y >> 1) & 0x1) << 3;
+    elem |= ((pos.x >> 2) & 0x1) << 4;
+    elem |= ((pos.y >> 2) & 0x1) << 5;
+
+    switch (arrayMode) {
+    case kArrayMode2dTiledXThick:
+    case kArrayMode3dTiledXThick:
+      elem |= ((pos.z >> 2) & 0x1) << 8;
+    case kArrayMode1dTiledThick:
+    case kArrayMode2dTiledThick:
+    case kArrayMode3dTiledThick:
+    case kArrayModeTiledThickPrt:
+    case kArrayMode2dTiledThickPrt:
+    case kArrayMode3dTiledThickPrt:
+      elem |= ((pos.z >> 0) & 0x1) << 6;
+      elem |= ((pos.z >> 1) & 0x1) << 7;
+    default:
+      break;
+    }
+  } else if (microTileMode == kMicroTileModeThick) {
+    switch (arrayMode) {
+    case kArrayMode2dTiledXThick:
+    case kArrayMode3dTiledXThick:
+      elem |= ((pos.z >> 2) & 0x1) << 8;
+
+    case kArrayMode1dTiledThick:
+    case kArrayMode2dTiledThick:
+    case kArrayMode3dTiledThick:
+    case kArrayModeTiledThickPrt:
+    case kArrayMode2dTiledThickPrt:
+    case kArrayMode3dTiledThickPrt:
+      if (bitsPerElement == 8 || bitsPerElement == 16) {
+        elem |= ((pos.x >> 0) & 0x1) << 0;
+        elem |= ((pos.y >> 0) & 0x1) << 1;
+        elem |= ((pos.x >> 1) & 0x1) << 2;
+        elem |= ((pos.y >> 1) & 0x1) << 3;
+        elem |= ((pos.z >> 0) & 0x1) << 4;
+        elem |= ((pos.z >> 1) & 0x1) << 5;
+        elem |= ((pos.x >> 2) & 0x1) << 6;
+        elem |= ((pos.y >> 2) & 0x1) << 7;
+      } else if (bitsPerElement == 32) {
+        elem |= ((pos.x >> 0) & 0x1) << 0;
+        elem |= ((pos.y >> 0) & 0x1) << 1;
+        elem |= ((pos.x >> 1) & 0x1) << 2;
+        elem |= ((pos.z >> 0) & 0x1) << 3;
+        elem |= ((pos.y >> 1) & 0x1) << 4;
+        elem |= ((pos.z >> 1) & 0x1) << 5;
+        elem |= ((pos.x >> 2) & 0x1) << 6;
+        elem |= ((pos.y >> 2) & 0x1) << 7;
+      } else if (bitsPerElement == 64 || bitsPerElement == 128) {
+        elem |= ((pos.x >> 0) & 0x1) << 0;
+        elem |= ((pos.y >> 0) & 0x1) << 1;
+        elem |= ((pos.z >> 0) & 0x1) << 2;
+        elem |= ((pos.x >> 1) & 0x1) << 3;
+        elem |= ((pos.y >> 1) & 0x1) << 4;
+        elem |= ((pos.z >> 1) & 0x1) << 5;
+        elem |= ((pos.x >> 2) & 0x1) << 6;
+        elem |= ((pos.y >> 2) & 0x1) << 7;
+      }
+      break;
+    }
+  }
+  return elem;
+}
+
+uint64_t computeLinearElementByteOffset(
+    uvec3 pos, uint32_t fragmentIndex, uint32_t pitch,
+    uint32_t slicePitchElems, uint32_t bitsPerElement,
+    uint32_t numFragmentsPerPixel) {
+  uint64_t absoluteElementIndex = pos.z * slicePitchElems + pos.y * pitch + pos.x;
+  return ((absoluteElementIndex * bitsPerElement * numFragmentsPerPixel) +
+          (bitsPerElement * fragmentIndex)) / 8;
+}
+
+uint64_t computeLinearOffset(uint32_t bitsPerElement, uint height, uint pitch, uvec3 pos) {
+  uint paddedHeight = height;
+  uint paddedWidth = pitch;
+
+  if (bitsPerElement == 1) {
+    bitsPerElement *= 8;
+    paddedWidth = max((paddedWidth + 7) / 8, 1);
+  }
+
+  uint64_t tiledRowSizeBits = uint64_t(bitsPerElement) * paddedWidth;
+  uint64_t tiledSliceBits = uint64_t(paddedWidth) * paddedHeight * bitsPerElement;
+  return tiledSliceBits * pos.z + tiledRowSizeBits * pos.y + bitsPerElement * pos.x;
+}
+
+uint64_t getTiledBitOffset1D(uint32_t tileMode, uvec3 pos, uvec2 dataSize, uint32_t bitsPerElement) {
+    uint32_t arrayMode = tileMode_getArrayMode(tileMode);
+
+    uint32_t paddedWidth = dataSize.x;
+    uint32_t paddedHeight = dataSize.y;
+
+    int tileThickness = (arrayMode == kArrayMode1dTiledThick) ? 4 : 1;
+
+    uint64_t tileBytes = (kMicroTileWidth * kMicroTileHeight * tileThickness * bitsPerElement + 7) / 8;
+    uint32_t tilesPerRow = paddedWidth / kMicroTileWidth;
+    uint32_t tilesPerSlice = max(tilesPerRow * (paddedHeight / kMicroTileHeight), 1);
+
+    uint64_t elementIndex = getElementIndex(pos, bitsPerElement,
+                                            tileMode_getMicroTileMode(tileMode), arrayMode);
+
+    uint64_t sliceOffset = (pos.z / tileThickness) * tilesPerSlice * tileBytes;
+
+    uint64_t tileRowIndex = pos.y / kMicroTileHeight;
+    uint64_t tileColumnIndex = pos.x / kMicroTileWidth;
+    uint64_t tileOffset =
+        (tileRowIndex * tilesPerRow + tileColumnIndex) * tileBytes;
+
+    uint64_t elementOffset = elementIndex * bitsPerElement;
+    return (sliceOffset + tileOffset) * 8 + elementOffset;
+}
+
+layout(binding=0) uniform Config {
+    uint64_t srcAddress;
+    uint64_t dstAddress;
+    uvec2 dataSize;
+    uint32_t tileMode;
+    uint32_t numFragments;
+    uint32_t bitsPerElement;
+    uint32_t tiledSurfaceSize;
+    uint32_t linearSurfaceSize;
+} config;
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tiler1d.comp.glsl b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tiler1d.comp.glsl
new file mode 100644
index 00000000..db92aae0
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tiler1d.comp.glsl
@@ -0,0 +1,76 @@
+#version 460
+
+#extension GL_GOOGLE_include_directive : enable
+#extension GL_EXT_shader_explicit_arithmetic_types : enable
+#extension GL_EXT_shader_atomic_int64 : enable
+#extension GL_EXT_shader_atomic_float : enable
+#extension GL_EXT_shader_image_load_formatted : enable
+#extension GL_KHR_memory_scope_semantics : enable
+#extension GL_EXT_shared_memory_block : enable
+#extension GL_EXT_scalar_block_layout : enable
+#extension GL_EXT_null_initializer : enable
+#extension GL_EXT_buffer_reference2 : enable
+#extension GL_EXT_buffer_reference_uvec2 : enable
+
+#include "tiler.glsl"
+
+void main() {
+    uvec3 pos = gl_GlobalInvocationID;
+    uint64_t tiledSliceOffset = 0;
+    uint64_t linearSliceOffset = 0;
+    if (config.tiledSurfaceSize != 0) {
+        tiledSliceOffset = pos.z * config.tiledSurfaceSize;
+        linearSliceOffset = pos.z * config.linearSurfaceSize;
+        pos.z = 0;
+    }
+
+    uint64_t tiledByteOffset = getTiledBitOffset1D(
+        config.tileMode,
+        pos,
+        config.dataSize,
+        config.bitsPerElement
+    ) / 8;
+
+    tiledByteOffset += tiledSliceOffset;
+
+    uint64_t linearByteOffset = computeLinearElementByteOffset(
+        pos,
+        0,
+        config.dataSize.x,
+        config.dataSize.x * config.dataSize.y,
+        config.bitsPerElement,
+        1 << config.numFragments
+    );
+
+    linearByteOffset += linearSliceOffset;
+
+    switch ((config.bitsPerElement + 7) / 8) {
+    case 1:
+        buffer_reference_uint8_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint8_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 2:
+        buffer_reference_uint16_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint16_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 4:
+        buffer_reference_uint32_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint32_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 8:
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 16:
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 8).data;
+        break;
+
+    case 32:
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 8).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 16).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 16).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 24).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 24).data;
+        break;
+    }
+}
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tiler2d.comp.glsl b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tiler2d.comp.glsl
new file mode 100644
index 00000000..db92aae0
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tiler2d.comp.glsl
@@ -0,0 +1,76 @@
+#version 460
+
+#extension GL_GOOGLE_include_directive : enable
+#extension GL_EXT_shader_explicit_arithmetic_types : enable
+#extension GL_EXT_shader_atomic_int64 : enable
+#extension GL_EXT_shader_atomic_float : enable
+#extension GL_EXT_shader_image_load_formatted : enable
+#extension GL_KHR_memory_scope_semantics : enable
+#extension GL_EXT_shared_memory_block : enable
+#extension GL_EXT_scalar_block_layout : enable
+#extension GL_EXT_null_initializer : enable
+#extension GL_EXT_buffer_reference2 : enable
+#extension GL_EXT_buffer_reference_uvec2 : enable
+
+#include "tiler.glsl"
+
+void main() {
+    uvec3 pos = gl_GlobalInvocationID;
+    uint64_t tiledSliceOffset = 0;
+    uint64_t linearSliceOffset = 0;
+    if (config.tiledSurfaceSize != 0) {
+        tiledSliceOffset = pos.z * config.tiledSurfaceSize;
+        linearSliceOffset = pos.z * config.linearSurfaceSize;
+        pos.z = 0;
+    }
+
+    uint64_t tiledByteOffset = getTiledBitOffset1D(
+        config.tileMode,
+        pos,
+        config.dataSize,
+        config.bitsPerElement
+    ) / 8;
+
+    tiledByteOffset += tiledSliceOffset;
+
+    uint64_t linearByteOffset = computeLinearElementByteOffset(
+        pos,
+        0,
+        config.dataSize.x,
+        config.dataSize.x * config.dataSize.y,
+        config.bitsPerElement,
+        1 << config.numFragments
+    );
+
+    linearByteOffset += linearSliceOffset;
+
+    switch ((config.bitsPerElement + 7) / 8) {
+    case 1:
+        buffer_reference_uint8_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint8_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 2:
+        buffer_reference_uint16_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint16_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 4:
+        buffer_reference_uint32_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint32_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 8:
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 16:
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 8).data;
+        break;
+
+    case 32:
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 8).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 16).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 16).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 24).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 24).data;
+        break;
+    }
+}
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tilerLinear.comp.glsl b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tilerLinear.comp.glsl
new file mode 100644
index 00000000..35013d57
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/shaders/tilerLinear.comp.glsl
@@ -0,0 +1,76 @@
+#version 460
+
+#extension GL_GOOGLE_include_directive : enable
+#extension GL_EXT_shader_explicit_arithmetic_types : enable
+#extension GL_EXT_shader_atomic_int64 : enable
+#extension GL_EXT_shader_atomic_float : enable
+#extension GL_EXT_shader_image_load_formatted : enable
+#extension GL_KHR_memory_scope_semantics : enable
+#extension GL_EXT_shared_memory_block : enable
+#extension GL_EXT_scalar_block_layout : enable
+#extension GL_EXT_null_initializer : enable
+#extension GL_EXT_buffer_reference2 : enable
+#extension GL_EXT_buffer_reference_uvec2 : enable
+
+#include "tiler.glsl"
+
+void main() {
+    uvec3 pos = gl_GlobalInvocationID;
+    uint64_t tiledSliceOffset = 0;
+    uint64_t linearSliceOffset = 0;
+    if (config.tiledSurfaceSize != 0) {
+        tiledSliceOffset = pos.z * config.tiledSurfaceSize;
+        linearSliceOffset = pos.z * config.linearSurfaceSize;
+        pos.z = 0;
+    }
+
+    uint64_t tiledByteOffset = computeLinearOffset(
+        config.bitsPerElement,
+        config.dataSize.y,
+        config.dataSize.x,
+        pos
+    ) / 8;
+
+    tiledByteOffset += tiledSliceOffset;
+
+    uint64_t linearByteOffset = computeLinearElementByteOffset(
+        pos,
+        0,
+        config.dataSize.x,
+        config.dataSize.x * config.dataSize.y,
+        config.bitsPerElement,
+        1 << config.numFragments
+    );
+
+    linearByteOffset += linearSliceOffset;
+
+    switch ((config.bitsPerElement + 7) / 8) {
+    case 1:
+        buffer_reference_uint8_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint8_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 2:
+        buffer_reference_uint16_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint16_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 4:
+        buffer_reference_uint32_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint32_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 8:
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset).data;
+        break;
+
+    case 16:
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 8).data;
+        break;
+
+    case 32:
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 8).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 8).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 16).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 16).data;
+        buffer_reference_uint64_t(config.dstAddress + tiledByteOffset + 24).data = buffer_reference_uint64_t(config.srcAddress + linearByteOffset + 24).data;
+        break;
+    }
+}
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/src/tiler.cpp b/rpcsx-gpu2/lib/amdgpu-tiler/src/tiler.cpp
new file mode 100644
index 00000000..7404340a
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/src/tiler.cpp
@@ -0,0 +1,387 @@
+#include "gnm/constants.hpp"
+#include <amdgpu/tiler.hpp>
+#include <gnm/gnm.hpp>
+#include <bit>
+
+using namespace amdgpu;
+
+static constexpr SurfaceInfo
+computeTexture1dInfo(ArrayMode arrayMode, gnm::TextureType type,
+                     gnm::DataFormat dfmt, std::uint32_t width,
+                     std::uint32_t height, std::uint32_t depth,
+                     std::uint32_t pitch, int baseArrayLayer, int arrayCount,
+                     int baseMipLevel, int mipCount, bool pow2pad) {
+  bool isCubemap = type == gnm::TextureType::Cube;
+  bool isVolume = type == gnm::TextureType::Dim3D;
+
+  auto bitsPerFragment = getBitsPerElement(dfmt);
+  std::uint32_t arraySliceCount = depth;
+
+  if (isCubemap) {
+    arraySliceCount *= 6;
+  } else if (isVolume) {
+    arraySliceCount = 1;
+  }
+
+  int numFragments = (type == gnm::TextureType::Msaa2D ||
+                      type == gnm::TextureType::MsaaArray2D)
+                         ? (baseArrayLayer + arrayCount - 1)
+                         : 0;
+
+  auto numFragmentsPerPixel = 1 << numFragments;
+  auto isBlockCompressed = getTexelsPerElement(dfmt) > 1;
+
+  auto bitsPerElement = bitsPerFragment;
+  depth = isVolume ? depth : 1;
+
+  if (isBlockCompressed) {
+    switch (bitsPerFragment) {
+    case 1:
+      bitsPerElement *= 8;
+      break;
+    case 4:
+    case 8:
+      bitsPerElement *= 16;
+      break;
+    case 16:
+      std::abort();
+      break;
+
+    default:
+      std::abort();
+      break;
+    }
+  }
+
+  if (pow2pad) {
+    arraySliceCount = std::bit_ceil(arraySliceCount);
+  }
+
+  std::uint64_t surfaceOffset = 0;
+  std::uint64_t surfaceSize = 0;
+
+  SurfaceInfo result;
+  result.width = width;
+  result.height = height;
+  result.depth = depth;
+  result.pitch = pitch;
+  result.numFragments = numFragments;
+  result.bitsPerElement = bitsPerElement;
+  result.arrayLayerCount = arraySliceCount;
+
+  auto thickness = getMicroTileThickness(arrayMode);
+
+  for (int mipLevel = 0; mipLevel < baseMipLevel + mipCount; mipLevel++) {
+    std::uint32_t elemWidth = std::max<std::uint64_t>(width >> mipLevel, 1);
+    std::uint32_t elemPitch = std::max<std::uint64_t>(pitch >> mipLevel, 1);
+    std::uint32_t elemHeight = std::max<std::uint64_t>(height >> mipLevel, 1);
+    std::uint32_t elemDepth = std::max<std::uint64_t>(depth >> mipLevel, 1);
+
+    std::uint32_t linearPitch = elemPitch;
+    std::uint32_t linearWidth = elemWidth;
+    std::uint32_t linearHeight = elemHeight;
+    std::uint32_t linearDepth = elemDepth;
+
+    if (isBlockCompressed) {
+      switch (bitsPerFragment) {
+      case 1:
+        linearWidth = std::max<std::uint64_t>((linearWidth + 7) / 8, 1);
+        linearPitch = std::max<std::uint64_t>((linearPitch + 7) / 8, 1);
+        break;
+      case 4:
+      case 8:
+        linearWidth = std::max<std::uint64_t>((linearWidth + 3) / 4, 1);
+        linearPitch = std::max<std::uint64_t>((linearPitch + 3) / 4, 1);
+        linearHeight = std::max<std::uint64_t>((linearHeight + 3) / 4, 1);
+        break;
+      case 16:
+        std::abort();
+        break;
+
+      default:
+        std::abort();
+        break;
+      }
+    }
+
+    if (pow2pad) {
+      linearPitch = std::bit_ceil(linearPitch);
+      linearWidth = std::bit_ceil(linearWidth);
+      linearHeight = std::bit_ceil(linearHeight);
+      linearDepth = std::bit_ceil(linearDepth);
+    }
+
+    if (mipLevel > 0 && pitch > 0) {
+      linearPitch = linearWidth;
+    }
+
+    std::uint32_t paddedPitch =
+        (linearPitch + kMicroTileWidth - 1) & ~(kMicroTileWidth - 1);
+    std::uint32_t paddedHeight =
+        (linearHeight + kMicroTileHeight - 1) & ~(kMicroTileHeight - 1);
+    std::uint32_t paddedDepth = linearDepth;
+
+    if (!isCubemap || (mipLevel > 0 && linearDepth > 1)) {
+      if (isCubemap) {
+        linearDepth = std::bit_ceil(linearDepth);
+      }
+
+      paddedDepth = (linearDepth + thickness - 1) & ~(thickness - 1);
+    }
+
+    std::uint32_t tempPitch = paddedPitch;
+    std::uint64_t logicalSliceSizeBytes = std::uint64_t(tempPitch) *
+                                          paddedHeight * bitsPerElement *
+                                          numFragmentsPerPixel;
+    logicalSliceSizeBytes = (logicalSliceSizeBytes + 7) / 8;
+
+    uint64_t physicalSliceSizeBytes = logicalSliceSizeBytes * thickness;
+    while ((physicalSliceSizeBytes % kPipeInterleaveBytes) != 0) {
+      tempPitch += kMicroTileWidth;
+      logicalSliceSizeBytes = std::uint64_t(tempPitch) * paddedHeight *
+                              bitsPerElement * numFragmentsPerPixel;
+      logicalSliceSizeBytes = (logicalSliceSizeBytes + 7) / 8;
+      physicalSliceSizeBytes = logicalSliceSizeBytes * thickness;
+    }
+
+    surfaceSize = logicalSliceSizeBytes * paddedDepth;
+    auto linearSize =
+        linearDepth *
+        (linearPitch * linearHeight * bitsPerElement * numFragmentsPerPixel +
+         7) /
+        8;
+
+    result.setSubresourceInfo(mipLevel, {
+                                            .dataWidth = linearPitch,
+                                            .dataHeight = linearHeight,
+                                            .dataDepth = linearDepth,
+                                            .offset = surfaceOffset,
+                                            .tiledSize = surfaceSize,
+                                            .linearSize = linearSize,
+                                        });
+
+    surfaceOffset += arraySliceCount * surfaceSize;
+  }
+
+  result.totalSize = surfaceOffset;
+  return result;
+}
+
+static constexpr SurfaceInfo computeTextureLinearInfo(
+    ArrayMode arrayMode, gnm::TextureType type, gnm::DataFormat dfmt,
+    std::uint32_t width, std::uint32_t height, std::uint32_t depth,
+    std::uint32_t pitch, int baseArrayLayer, int arrayCount, int baseMipLevel,
+    int mipCount, bool pow2pad) {
+  bool isCubemap = type == gnm::TextureType::Cube;
+  bool isVolume = type == gnm::TextureType::Dim3D;
+
+  auto bitsPerFragment = getBitsPerElement(dfmt);
+  std::uint32_t arraySliceCount = depth;
+
+  if (isCubemap) {
+    arraySliceCount *= 6;
+  } else if (isVolume) {
+    arraySliceCount = 1;
+  }
+
+  int numFragments = (type == gnm::TextureType::Msaa2D ||
+                      type == gnm::TextureType::MsaaArray2D)
+                         ? (baseArrayLayer + arrayCount - 1)
+                         : 0;
+
+  auto numFragmentsPerPixel = 1 << numFragments;
+  auto isBlockCompressed = getTexelsPerElement(dfmt) > 1;
+
+  auto bitsPerElement = bitsPerFragment;
+  depth = isVolume ? depth : 1;
+
+  if (isBlockCompressed) {
+    switch (bitsPerFragment) {
+    case 1:
+      bitsPerElement *= 8;
+      break;
+    case 4:
+    case 8:
+      bitsPerElement *= 16;
+      break;
+    case 16:
+      std::abort();
+      break;
+
+    default:
+      std::abort();
+      break;
+    }
+  }
+
+  if (pow2pad) {
+    arraySliceCount = std::bit_ceil(arraySliceCount);
+  }
+
+  std::uint64_t surfaceOffset = 0;
+  std::uint64_t surfaceSize = 0;
+
+  SurfaceInfo result;
+  result.width = width;
+  result.height = height;
+  result.depth = depth;
+  result.pitch = pitch;
+  result.numFragments = numFragments;
+  result.bitsPerElement = bitsPerElement;
+  result.arrayLayerCount = arraySliceCount;
+
+  for (int mipLevel = 0; mipLevel < baseMipLevel + mipCount; mipLevel++) {
+    std::uint32_t elemWidth = std::max<std::uint64_t>(width >> mipLevel, 1);
+    std::uint32_t elemPitch = std::max<std::uint64_t>(pitch >> mipLevel, 1);
+    std::uint32_t elemHeight = std::max<std::uint64_t>(height >> mipLevel, 1);
+    std::uint32_t elemDepth = std::max<std::uint64_t>(depth >> mipLevel, 1);
+
+    std::uint32_t linearPitch = elemPitch;
+    std::uint32_t linearWidth = elemWidth;
+    std::uint32_t linearHeight = elemHeight;
+    std::uint32_t linearDepth = elemDepth;
+
+    if (isBlockCompressed) {
+      switch (bitsPerFragment) {
+      case 1:
+        linearWidth = std::max<std::uint64_t>((linearWidth + 7) / 8, 1);
+        linearPitch = std::max<std::uint64_t>((linearPitch + 7) / 8, 1);
+        break;
+      case 4:
+      case 8:
+        linearWidth = std::max<std::uint64_t>((linearWidth + 3) / 4, 1);
+        linearPitch = std::max<std::uint64_t>((linearPitch + 3) / 4, 1);
+        linearHeight = std::max<std::uint64_t>((linearHeight + 3) / 4, 1);
+        break;
+      case 16:
+        std::abort();
+        break;
+
+      default:
+        std::abort();
+        break;
+      }
+    }
+
+    if (pow2pad) {
+      linearPitch = std::bit_ceil(linearPitch);
+      linearWidth = std::bit_ceil(linearWidth);
+      linearHeight = std::bit_ceil(linearHeight);
+      linearDepth = std::bit_ceil(linearDepth);
+    }
+
+    if (mipLevel > 0 && pitch > 0) {
+      linearPitch = linearWidth;
+    }
+
+    if (arrayMode == kArrayModeLinearGeneral) {
+      surfaceSize = (static_cast<uint64_t>(linearPitch) *
+                         (linearHeight)*bitsPerElement * numFragmentsPerPixel +
+                     7) /
+                    8;
+      surfaceSize *= linearDepth;
+
+      result.setSubresourceInfo(mipLevel, {
+                                              .dataWidth = linearPitch,
+                                              .dataHeight = linearHeight,
+                                              .dataDepth = linearDepth,
+                                              .offset = surfaceOffset,
+                                              .tiledSize = surfaceSize,
+                                              .linearSize = surfaceSize,
+                                          });
+    } else {
+      if (mipLevel > 0 && pitch > 0) {
+        linearPitch = linearWidth;
+      }
+
+      auto pitchAlign = std::max(8UL, 64UL / ((bitsPerElement + 7) / 8UL));
+      std::uint32_t paddedPitch =
+          (linearPitch + pitchAlign - 1) & ~(pitchAlign - 1);
+      std::uint32_t paddedHeight = linearHeight;
+      std::uint32_t paddedDepth = linearDepth;
+
+      if (!isCubemap || (mipLevel > 0 && linearDepth > 1)) {
+        if (isCubemap) {
+          linearDepth = std::bit_ceil(linearDepth);
+        }
+
+        auto thickness = getMicroTileThickness(arrayMode);
+        paddedDepth = (linearDepth + thickness - 1) & ~(thickness - 1);
+      }
+
+      std::uint32_t pixelsPerPipeInterleave =
+          kPipeInterleaveBytes / ((bitsPerElement + 7) / 8);
+      std::uint32_t sliceAlignInPixel =
+          pixelsPerPipeInterleave < 64 ? 64 : pixelsPerPipeInterleave;
+      auto pixelsPerSlice = static_cast<uint64_t>(paddedPitch) * paddedHeight *
+                            numFragmentsPerPixel;
+      while (pixelsPerSlice % sliceAlignInPixel) {
+        paddedPitch += pitchAlign;
+        pixelsPerSlice = static_cast<uint64_t>(paddedPitch) * paddedHeight *
+                         numFragmentsPerPixel;
+      }
+
+      surfaceSize = (pixelsPerSlice * bitsPerElement + 7) / 8 * paddedDepth;
+
+      result.setSubresourceInfo(mipLevel, {
+                                              .dataWidth = paddedPitch,
+                                              .dataHeight = paddedHeight,
+                                              .dataDepth = paddedDepth,
+                                              .offset = surfaceOffset,
+                                              .tiledSize = surfaceSize,
+                                              .linearSize = surfaceSize,
+                                          });
+    }
+
+    surfaceOffset += arraySliceCount * surfaceSize;
+  }
+
+  result.totalSize = surfaceOffset;
+  return result;
+}
+
+SurfaceInfo amdgpu::computeSurfaceInfo(
+    TileMode tileMode, gnm::TextureType type, gnm::DataFormat dfmt,
+    std::uint32_t width, std::uint32_t height, std::uint32_t depth,
+    std::uint32_t pitch, int baseArrayLayer, int arrayCount, int baseMipLevel,
+    int mipCount, bool pow2pad) {
+  switch (tileMode.arrayMode()) {
+  case kArrayModeLinearGeneral:
+  case kArrayModeLinearAligned:
+    return computeTextureLinearInfo(
+        tileMode.arrayMode(), type, dfmt, width, height, depth, pitch,
+        baseArrayLayer, arrayCount, baseMipLevel, mipCount, pow2pad);
+
+  case kArrayMode1dTiledThin:
+  case kArrayMode1dTiledThick:
+    return computeTexture1dInfo(tileMode.arrayMode(), type, dfmt, width, height,
+                                depth, pitch, baseArrayLayer, arrayCount,
+                                baseMipLevel, mipCount, pow2pad);
+
+  case kArrayMode2dTiledThin:
+  case kArrayMode2dTiledThick:
+  case kArrayMode2dTiledXThick:
+  case kArrayMode3dTiledThin:
+  case kArrayMode3dTiledThick:
+  case kArrayMode3dTiledXThick:
+  case kArrayModeTiledThinPrt:
+  case kArrayModeTiledThickPrt:
+  case kArrayMode2dTiledThinPrt:
+  case kArrayMode2dTiledThickPrt:
+  case kArrayMode3dTiledThinPrt:
+  case kArrayMode3dTiledThickPrt:
+    std::abort();
+  }
+
+  std::abort();
+}
+
+SurfaceInfo amdgpu::computeSurfaceInfo(const gnm::TBuffer &tbuffer,
+                                       TileMode tileMode) {
+  return computeSurfaceInfo(
+      tileMode, tbuffer.type, tbuffer.dfmt, tbuffer.width + 1,
+      tbuffer.height + 1, tbuffer.depth + 1, tbuffer.pitch + 1,
+      tbuffer.base_array, tbuffer.last_array - tbuffer.base_array + 1,
+      tbuffer.base_level, tbuffer.last_level - tbuffer.base_level + 1,
+      tbuffer.pow2pad != 0);
+}
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/src/tiler_cpu.cpp b/rpcsx-gpu2/lib/amdgpu-tiler/src/tiler_cpu.cpp
new file mode 100644
index 00000000..206def23
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/src/tiler_cpu.cpp
@@ -0,0 +1,441 @@
+#include "amdgpu/tiler_cpu.hpp"
+#include "amdgpu/tiler.hpp"
+#include "gnm/gnm.hpp"
+
+constexpr std::uint64_t
+getTiledOffset1D(gnm::TextureType texType, bool isPow2Padded,
+                 gnm::DataFormat dfmt, amdgpu::TileMode tileMode, int mipLevel,
+                 int arraySlice, int numFragments, int width, int height,
+                 int depth, int pitch, int x, int y, int z) {
+
+  using namespace amdgpu;
+  bool isCubemap = texType == gnm::TextureType::Cube;
+  bool isVolume = texType == gnm::TextureType::Dim3D;
+
+  auto bitsPerFragment = getBitsPerElement(dfmt);
+  uint32_t arraySliceCount = depth;
+
+  if (isCubemap) {
+    arraySliceCount *= 6;
+  } else if (isVolume) {
+    arraySliceCount = 1;
+  }
+
+  auto numFragmentsPerPixel = 1 << numFragments;
+  auto isBlockCompressed = getTexelsPerElement(dfmt) > 1;
+  auto arrayMode = tileMode.arrayMode();
+
+  auto bitsPerElement = bitsPerFragment;
+  auto paddedWidth = std::max((mipLevel != 0 ? pitch : width) >> mipLevel, 1);
+  auto paddedHeight = std::max(height >> mipLevel, 1);
+
+  auto tileThickness = (arrayMode == amdgpu::kArrayMode1dTiledThick) ? 4 : 1;
+
+  if (isBlockCompressed) {
+    switch (bitsPerFragment) {
+    case 1:
+      bitsPerElement *= 8;
+      paddedWidth = std::max((paddedWidth + 7) / 8, 1);
+      break;
+    case 4:
+    case 8:
+      bitsPerElement *= 16;
+      paddedWidth = std::max((paddedWidth + 3) / 4, 1);
+      paddedHeight = std::max((paddedHeight + 3) / 4, 1);
+      break;
+    case 16:
+      std::abort();
+      break;
+
+    default:
+      std::abort();
+      break;
+    }
+  }
+
+  if (isPow2Padded) {
+    arraySliceCount = std::bit_ceil(arraySliceCount);
+    paddedWidth = std::bit_ceil(unsigned(paddedWidth));
+    paddedHeight = std::bit_ceil(unsigned(paddedHeight));
+  }
+
+  uint64_t finalSurfaceOffset = 0;
+  uint64_t finalSurfaceSize = 0;
+
+  auto thickness = getMicroTileThickness(arrayMode);
+
+  for (int i = 0; i <= mipLevel; i++) {
+    finalSurfaceOffset += arraySliceCount * finalSurfaceSize;
+
+    std::uint32_t elemWidth =
+        std::max<std::uint64_t>((i > 0 ? pitch : width) >> i, 1);
+    std::uint32_t elemHeight = std::max<std::uint64_t>(height >> i, 1);
+    std::uint32_t elemDepth =
+        std::max<std::uint64_t>((isVolume ? depth : 1) >> i, 1);
+
+    if (isBlockCompressed) {
+      switch (bitsPerFragment) {
+      case 1:
+        elemWidth = std::max<std::uint64_t>((elemWidth + 7) / 8, 1);
+        break;
+      case 4:
+      case 8:
+        elemWidth = std::max<std::uint64_t>((elemWidth + 3) / 4, 1);
+        elemHeight = std::max<std::uint64_t>((elemHeight + 3) / 4, 1);
+        break;
+      case 16:
+        std::abort();
+        break;
+
+      default:
+        std::abort();
+        break;
+      }
+    }
+
+    if (isPow2Padded) {
+      elemWidth = std::bit_ceil(elemWidth);
+      elemHeight = std::bit_ceil(elemHeight);
+      elemDepth = std::bit_ceil(elemDepth);
+    }
+
+    elemWidth = (elemWidth + kMicroTileWidth - 1) & ~(kMicroTileWidth - 1);
+    elemHeight = (elemHeight + kMicroTileHeight - 1) & ~(kMicroTileHeight - 1);
+    elemDepth = (elemDepth + thickness - 1) & ~(thickness - 1);
+
+    std::uint32_t tempPitch = elemWidth;
+    std::uint64_t logicalSliceSizeBytes = std::uint64_t(tempPitch) *
+                                          elemHeight * bitsPerElement *
+                                          numFragmentsPerPixel;
+    logicalSliceSizeBytes = (logicalSliceSizeBytes + 7) / 8;
+
+    uint64_t physicalSliceSizeBytes = logicalSliceSizeBytes * thickness;
+    while ((physicalSliceSizeBytes % kPipeInterleaveBytes) != 0) {
+      tempPitch += 8;
+      logicalSliceSizeBytes = std::uint64_t(tempPitch) * elemHeight *
+                              bitsPerElement * numFragmentsPerPixel;
+      logicalSliceSizeBytes = (logicalSliceSizeBytes + 7) / 8;
+      physicalSliceSizeBytes = logicalSliceSizeBytes * thickness;
+    }
+
+    finalSurfaceSize = logicalSliceSizeBytes * elemDepth;
+  }
+
+  finalSurfaceOffset += finalSurfaceSize * (uint64_t)arraySlice;
+
+  auto tileBytes =
+      (kMicroTileWidth * kMicroTileHeight * tileThickness * bitsPerElement +
+       7) /
+      8;
+  auto tilesPerRow = paddedWidth / kMicroTileWidth;
+  auto tilesPerSlice =
+      std::max(tilesPerRow * (paddedHeight / kMicroTileHeight), 1U);
+
+  uint64_t elementIndex = getElementIndex(x, y, z, bitsPerElement,
+                                          tileMode.microTileMode(), arrayMode);
+
+  uint64_t sliceOffset = (z / tileThickness) * tilesPerSlice * tileBytes;
+
+  uint64_t tileRowIndex = y / kMicroTileHeight;
+  uint64_t tileColumnIndex = x / kMicroTileWidth;
+  uint64_t tileOffset =
+      (tileRowIndex * tilesPerRow + tileColumnIndex) * tileBytes;
+
+  uint64_t elementOffset = elementIndex * bitsPerElement;
+  uint64_t finalOffset = (sliceOffset + tileOffset) * 8 + elementOffset;
+
+  return finalOffset + finalSurfaceOffset * 8;
+}
+
+constexpr std::uint64_t getTiledOffsetLinear(gnm::DataFormat dfmt, int height,
+                                             int pitch, int x, int y, int z) {
+  auto bitsPerFragment = getBitsPerElement(dfmt);
+
+  auto bitsPerElement = bitsPerFragment;
+  auto paddedHeight = height;
+  auto paddedWidth = pitch;
+
+  if (bitsPerFragment == 1) {
+    bitsPerElement *= 8;
+    paddedWidth = std::max((paddedWidth + 7) / 8, 1);
+  }
+
+  uint64_t tiledRowSizeBits = bitsPerElement * paddedWidth;
+  uint64_t tiledSliceBits = paddedWidth * paddedHeight * bitsPerElement;
+  return tiledSliceBits * z + tiledRowSizeBits * y + bitsPerElement * x;
+}
+
+constexpr std::uint64_t
+getTiledOffset2D(gnm::TextureType texType, bool isPow2Padded,
+                 gnm::DataFormat dfmt, amdgpu::TileMode tileMode,
+                 amdgpu::MacroTileMode macroTileMode, int mipLevel,
+                 int arraySlice, int numFragments, int width, int height,
+                 int depth, int pitch, int x, int y, int z, int fragmentIndex) {
+  using namespace amdgpu;
+
+  bool isCubemap = texType == gnm::TextureType::Cube;
+  bool isVolume = texType == gnm::TextureType::Dim3D;
+  auto m_bitsPerFragment = getBitsPerElement(dfmt);
+
+  auto m_isBlockCompressed = getTexelsPerElement(dfmt) > 1;
+  auto tileSwizzleMask = 0;
+  auto numFragmentsPerPixel = 1 << numFragments;
+  auto arrayMode = tileMode.arrayMode();
+
+  auto tileThickness = 1;
+
+  switch (arrayMode) {
+  case amdgpu::kArrayMode2dTiledThin:
+  case amdgpu::kArrayMode3dTiledThin:
+  case amdgpu::kArrayModeTiledThinPrt:
+  case amdgpu::kArrayMode2dTiledThinPrt:
+  case amdgpu::kArrayMode3dTiledThinPrt:
+    tileThickness = 1;
+    break;
+  case amdgpu::kArrayMode1dTiledThick:
+  case amdgpu::kArrayMode2dTiledThick:
+  case amdgpu::kArrayMode3dTiledThick:
+  case amdgpu::kArrayModeTiledThickPrt:
+  case amdgpu::kArrayMode2dTiledThickPrt:
+  case amdgpu::kArrayMode3dTiledThickPrt:
+    tileThickness = 4;
+    break;
+  case amdgpu::kArrayMode2dTiledXThick:
+  case amdgpu::kArrayMode3dTiledXThick:
+    tileThickness = 8;
+    break;
+  default:
+    break;
+  }
+
+  auto bitsPerElement = m_bitsPerFragment;
+  auto paddedWidth = pitch;
+  auto paddedHeight = height;
+
+  if (m_isBlockCompressed) {
+    switch (m_bitsPerFragment) {
+    case 1:
+      bitsPerElement *= 8;
+      paddedWidth = std::max((paddedWidth + 7) / 8, 1);
+      break;
+    case 4:
+    case 8:
+      bitsPerElement *= 16;
+      paddedWidth = std::max((paddedWidth + 3) / 4, 1);
+      paddedHeight = std::max((paddedHeight + 3) / 4, 1);
+      break;
+    case 16:
+      std::abort();
+      break;
+    default:
+      std::abort();
+      break;
+    }
+  }
+
+  auto bankWidthHW = macroTileMode.bankWidth();
+  auto bankHeightHW = macroTileMode.bankHeight();
+  auto macroAspectHW = macroTileMode.macroTileAspect();
+  auto numBanksHW = macroTileMode.numBanks();
+
+  auto bankWidth = 1 << bankWidthHW;
+  auto bankHeight = 1 << bankHeightHW;
+  unsigned numBanks = 2 << numBanksHW;
+  auto macroTileAspect = 1 << macroAspectHW;
+
+  uint32_t tileBytes1x =
+      (tileThickness * bitsPerElement * kMicroTileWidth * kMicroTileHeight +
+       7) /
+      8;
+
+  auto sampleSplitHw = tileMode.sampleSplit();
+  auto tileSplitHw = tileMode.tileSplit();
+  uint32_t sampleSplit = 1 << sampleSplitHw;
+  uint32_t tileSplitC =
+      (tileMode.microTileMode() == amdgpu::kMicroTileModeDepth)
+          ? (64 << tileSplitHw)
+          : std::max(256U, tileBytes1x * sampleSplit);
+
+  auto tileSplitBytes = std::min(kDramRowSize, tileSplitC);
+
+  auto numPipes = getPipeCount(tileMode.pipeConfig());
+  auto pipeInterleaveBits = std::countr_zero(kPipeInterleaveBytes);
+  auto pipeInterleaveMask = (1 << pipeInterleaveBits) - 1;
+  auto pipeBits = std::countr_zero(numPipes);
+  auto bankBits = std::countr_zero(numBanks);
+  // auto pipeMask = (numPipes - 1) << pipeInterleaveBits;
+  auto bankSwizzleMask = tileSwizzleMask;
+  auto pipeSwizzleMask = 0;
+  auto macroTileWidth =
+      (kMicroTileWidth * bankWidth * numPipes) * macroTileAspect;
+  auto macroTileHeight =
+      (kMicroTileHeight * bankHeight * numBanks) / macroTileAspect;
+
+  auto microTileMode = tileMode.microTileMode();
+
+  uint64_t elementIndex =
+      getElementIndex(x, y, z, bitsPerElement, microTileMode, arrayMode);
+
+  uint32_t xh = x, yh = y;
+  if (arrayMode == amdgpu::kArrayModeTiledThinPrt ||
+      arrayMode == amdgpu::kArrayModeTiledThickPrt) {
+    xh %= macroTileWidth;
+    yh %= macroTileHeight;
+  }
+  uint64_t pipe = getPipeIndex(xh, yh, tileMode.pipeConfig());
+  uint64_t bank =
+      getBankIndex(xh, yh, bankWidth, bankHeight, numBanks, numPipes);
+
+  uint32_t tileBytes = (kMicroTileWidth * kMicroTileHeight * tileThickness *
+                            bitsPerElement * numFragmentsPerPixel +
+                        7) /
+                       8;
+
+  uint64_t elementOffset = 0;
+  if (microTileMode == amdgpu::kMicroTileModeDepth) {
+    uint64_t pixelOffset = elementIndex * bitsPerElement * numFragmentsPerPixel;
+    elementOffset = pixelOffset + (fragmentIndex * bitsPerElement);
+  } else {
+    uint64_t fragmentOffset =
+        fragmentIndex * (tileBytes / numFragmentsPerPixel) * 8;
+    elementOffset = fragmentOffset + (elementIndex * bitsPerElement);
+  }
+
+  uint64_t slicesPerTile = 1;
+  uint64_t tileSplitSlice = 0;
+  if (tileBytes > tileSplitBytes && tileThickness == 1) {
+    slicesPerTile = tileBytes / tileSplitBytes;
+    tileSplitSlice = elementOffset / (tileSplitBytes * 8);
+    elementOffset %= (tileSplitBytes * 8);
+    tileBytes = tileSplitBytes;
+  }
+
+  uint64_t macroTileBytes = (macroTileWidth / kMicroTileWidth) *
+                            (macroTileHeight / kMicroTileHeight) * tileBytes /
+                            (numPipes * numBanks);
+  uint64_t macroTilesPerRow = paddedWidth / macroTileWidth;
+  uint64_t macroTileRowIndex = y / macroTileHeight;
+  uint64_t macroTileColumnIndex = x / macroTileWidth;
+  uint64_t macroTileIndex =
+      (macroTileRowIndex * macroTilesPerRow) + macroTileColumnIndex;
+  uint64_t macro_tile_offset = macroTileIndex * macroTileBytes;
+  uint64_t macroTilesPerSlice =
+      macroTilesPerRow * (paddedHeight / macroTileHeight);
+  uint64_t sliceBytes = macroTilesPerSlice * macroTileBytes;
+
+  uint32_t slice = z;
+  uint64_t sliceOffset =
+      (tileSplitSlice + slicesPerTile * slice / tileThickness) * sliceBytes;
+  if (arraySlice != 0) {
+    slice = arraySlice;
+  }
+
+  uint64_t tileRowIndex = (y / kMicroTileHeight) % bankHeight;
+  uint64_t tileColumnIndex = ((x / kMicroTileWidth) / numPipes) % bankWidth;
+  uint64_t tileIndex = (tileRowIndex * bankWidth) + tileColumnIndex;
+  uint64_t tileOffset = tileIndex * tileBytes;
+
+  uint64_t bankSwizzle = bankSwizzleMask;
+  uint64_t pipeSwizzle = pipeSwizzleMask;
+
+  uint64_t pipeSliceRotation = 0;
+  switch (arrayMode) {
+  case amdgpu::kArrayMode3dTiledThin:
+  case amdgpu::kArrayMode3dTiledThick:
+  case amdgpu::kArrayMode3dTiledXThick:
+    pipeSliceRotation =
+        std::max(1UL, (numPipes / 2UL) - 1UL) * (slice / tileThickness);
+    break;
+  default:
+    break;
+  }
+  pipeSwizzle += pipeSliceRotation;
+  pipeSwizzle &= (numPipes - 1);
+  pipe = pipe ^ pipeSwizzle;
+
+  uint32_t sliceRotation = 0;
+  switch (arrayMode) {
+  case amdgpu::kArrayMode2dTiledThin:
+  case amdgpu::kArrayMode2dTiledThick:
+  case amdgpu::kArrayMode2dTiledXThick:
+    sliceRotation = ((numBanks / 2) - 1) * (slice / tileThickness);
+    break;
+  case amdgpu::kArrayMode3dTiledThin:
+  case amdgpu::kArrayMode3dTiledThick:
+  case amdgpu::kArrayMode3dTiledXThick:
+    sliceRotation = std::max(1UL, (numPipes / 2UL) - 1UL) *
+                    (slice / tileThickness) / numPipes;
+    break;
+  default:
+    break;
+  }
+  uint64_t tileSplitSliceRotation = 0;
+  switch (arrayMode) {
+  case amdgpu::kArrayMode2dTiledThin:
+  case amdgpu::kArrayMode3dTiledThin:
+  case amdgpu::kArrayMode2dTiledThinPrt:
+  case amdgpu::kArrayMode3dTiledThinPrt:
+    tileSplitSliceRotation = ((numBanks / 2) + 1) * tileSplitSlice;
+    break;
+  default:
+    break;
+  }
+  bank ^= bankSwizzle + sliceRotation;
+  bank ^= tileSplitSliceRotation;
+  bank &= (numBanks - 1);
+
+  uint64_t totalOffset =
+      (sliceOffset + macro_tile_offset + tileOffset) * 8 + elementOffset;
+  uint64_t bitOffset = totalOffset & 0x7;
+  totalOffset /= 8;
+
+  uint64_t pipeInterleaveOffset = totalOffset & pipeInterleaveMask;
+  uint64_t offset = totalOffset >> pipeInterleaveBits;
+
+  uint64_t finalByteOffset =
+      pipeInterleaveOffset | (pipe << (pipeInterleaveBits)) |
+      (bank << (pipeInterleaveBits + pipeBits)) |
+      (offset << (pipeInterleaveBits + pipeBits + bankBits));
+  return (finalByteOffset << 3) | bitOffset;
+}
+
+std::uint64_t amdgpu::getTiledOffset(gnm::TextureType texType,
+                                     bool isPow2Padded, int numFragments,
+                                     gnm::DataFormat dfmt,
+                                     amdgpu::TileMode tileMode,
+                                     amdgpu::MacroTileMode macroTileMode,
+                                     int mipLevel, int arraySlice, int width,
+                                     int height, int depth, int pitch, int x,
+                                     int y, int z, int fragmentIndex) {
+  switch (tileMode.arrayMode()) {
+  case amdgpu::kArrayModeLinearGeneral:
+  case amdgpu::kArrayModeLinearAligned:
+    return getTiledOffsetLinear(dfmt, height, pitch, x, y, z);
+
+  case amdgpu::kArrayMode1dTiledThin:
+  case amdgpu::kArrayMode1dTiledThick: {
+    return getTiledOffset1D(texType, isPow2Padded, dfmt, tileMode, mipLevel,
+                            arraySlice, numFragments, width, height, depth,
+                            pitch, x, y, z);
+  }
+
+  case amdgpu::kArrayMode2dTiledThin:
+  case amdgpu::kArrayMode2dTiledThick:
+  case amdgpu::kArrayMode2dTiledXThick:
+  case amdgpu::kArrayMode3dTiledThin:
+  case amdgpu::kArrayMode3dTiledThick:
+  case amdgpu::kArrayMode3dTiledXThick:
+  case amdgpu::kArrayModeTiledThinPrt:
+  case amdgpu::kArrayModeTiledThickPrt:
+  case amdgpu::kArrayMode2dTiledThinPrt:
+  case amdgpu::kArrayMode2dTiledThickPrt:
+  case amdgpu::kArrayMode3dTiledThinPrt:
+  case amdgpu::kArrayMode3dTiledThickPrt:
+    return getTiledOffset2D(texType, isPow2Padded, dfmt, tileMode,
+                            macroTileMode, mipLevel, arraySlice, numFragments,
+                            width, height, depth, pitch, x, y, z,
+                            fragmentIndex);
+  }
+
+  std::abort();
+}
diff --git a/rpcsx-gpu2/lib/amdgpu-tiler/src/tiler_vulkan.cpp b/rpcsx-gpu2/lib/amdgpu-tiler/src/tiler_vulkan.cpp
new file mode 100644
index 00000000..63bb1763
--- /dev/null
+++ b/rpcsx-gpu2/lib/amdgpu-tiler/src/tiler_vulkan.cpp
@@ -0,0 +1,354 @@
+#include "amdgpu/tiler_vulkan.hpp"
+#include "Scheduler.hpp"
+#include "amdgpu/tiler.hpp"
+#include <bit>
+#include <cstring>
+#include <memory>
+#include <vk.hpp>
+
+#include <shaders/detiler1d.comp.h>
+#include <shaders/detiler2d.comp.h>
+#include <shaders/detilerLinear.comp.h>
+#include <shaders/tiler1d.comp.h>
+#include <shaders/tiler2d.comp.h>
+#include <shaders/tilerLinear.comp.h>
+
+struct TilerDecriptorSetLayout {
+  VkDescriptorSetLayout layout;
+
+  TilerDecriptorSetLayout() {
+    std::vector<VkDescriptorSetLayoutBinding> bindings{{
+        .binding = 0,
+        .descriptorType = VK_DESCRIPTOR_TYPE_UNIFORM_BUFFER,
+        .descriptorCount = 1,
+        .stageFlags = VK_SHADER_STAGE_COMPUTE_BIT,
+    }};
+
+    VkDescriptorSetLayoutCreateInfo layoutInfo{
+        .sType = VK_STRUCTURE_TYPE_DESCRIPTOR_SET_LAYOUT_CREATE_INFO,
+        .bindingCount = static_cast<uint32_t>(bindings.size()),
+        .pBindings = bindings.data(),
+    };
+
+    VK_VERIFY(vkCreateDescriptorSetLayout(vk::context->device, &layoutInfo,
+                                          nullptr, &layout));
+  }
+
+  ~TilerDecriptorSetLayout() {
+    vkDestroyDescriptorSetLayout(vk::context->device, layout,
+                                 vk::context->allocator);
+  }
+};
+
+struct TilerShader {
+  VkShaderEXT shader;
+
+  TilerShader(TilerDecriptorSetLayout &setLayout,
+              std::span<const std::uint32_t> spirv) {
+
+    VkShaderCreateInfoEXT shaderInfo{
+        .sType = VK_STRUCTURE_TYPE_SHADER_CREATE_INFO_EXT,
+        .flags = 0,
+        .stage = VK_SHADER_STAGE_COMPUTE_BIT,
+        .nextStage = 0,
+        .codeType = VK_SHADER_CODE_TYPE_SPIRV_EXT,
+        .codeSize = spirv.size_bytes(),
+        .pCode = spirv.data(),
+        .pName = "main",
+        .setLayoutCount = 1,
+        .pSetLayouts = &setLayout.layout,
+        .pushConstantRangeCount = 0,
+        .pPushConstantRanges = 0,
+        .pSpecializationInfo = 0,
+    };
+
+    VK_VERIFY(vk::CreateShadersEXT(vk::context->device, 1, &shaderInfo, nullptr,
+                                   &shader));
+  }
+
+  ~TilerShader() {
+    vk::DestroyShaderEXT(vk::context->device, shader, vk::context->allocator);
+  }
+};
+
+struct amdgpu::GpuTiler::Impl {
+  TilerDecriptorSetLayout descriptorSetLayout;
+  std::mutex descriptorMtx;
+  VkDescriptorSet descriptorSets[4]{};
+  VkDescriptorPool descriptorPool;
+  std::uint32_t inUseDescriptorSets = 0;
+
+  vk::Buffer configData;
+  TilerShader detilerLinear{descriptorSetLayout, spirv_detilerLinear_comp};
+  TilerShader detiler1d{descriptorSetLayout, spirv_detiler1d_comp};
+  TilerShader detiler2d{descriptorSetLayout, spirv_detilerLinear_comp};
+  TilerShader tilerLinear{descriptorSetLayout, spirv_tiler2d_comp};
+  TilerShader tiler1d{descriptorSetLayout, spirv_tiler1d_comp};
+  TilerShader tiler2d{descriptorSetLayout, spirv_tiler2d_comp};
+  VkPipelineLayout pipelineLayout;
+
+  struct Config {
+    uint64_t srcAddress;
+    uint64_t dstAddress;
+    uint32_t dataWidth;
+    uint32_t dataHeight;
+    uint32_t tileMode;
+    uint32_t numFragments;
+    uint32_t bitsPerElement;
+    uint32_t tiledSurfaceSize;
+    uint32_t linearSurfaceSize;
+  };
+
+  Impl() {
+    std::size_t count = 256;
+
+    configData = vk::Buffer::Allocate(
+        vk::getHostVisibleMemory(), sizeof(Config) * count,
+        VK_BUFFER_USAGE_TRANSFER_DST_BIT | VK_BUFFER_USAGE_TRANSFER_SRC_BIT |
+            VK_BUFFER_USAGE_UNIFORM_BUFFER_BIT);
+
+    VkPipelineLayoutCreateInfo piplineLayoutInfo{
+        .sType = VK_STRUCTURE_TYPE_PIPELINE_LAYOUT_CREATE_INFO,
+        .setLayoutCount = 1,
+        .pSetLayouts = &descriptorSetLayout.layout,
+    };
+
+    VK_VERIFY(vkCreatePipelineLayout(vk::context->device, &piplineLayoutInfo,
+                                     nullptr, &pipelineLayout));
+
+    {
+      VkDescriptorPoolSize poolSizes[]{{
+          .type = VK_DESCRIPTOR_TYPE_UNIFORM_BUFFER,
+          .descriptorCount = 1,
+      }};
+
+      VkDescriptorPoolCreateInfo info{
+          .sType = VK_STRUCTURE_TYPE_DESCRIPTOR_POOL_CREATE_INFO,
+          .maxSets = static_cast<std::uint32_t>(std::size(descriptorSets)) * 4,
+          .poolSizeCount = static_cast<uint32_t>(std::size(poolSizes)),
+          .pPoolSizes = poolSizes,
+      };
+
+      VK_VERIFY(vkCreateDescriptorPool(
+          vk::context->device, &info, vk::context->allocator, &descriptorPool));
+    }
+
+    VkDescriptorSetAllocateInfo info{
+        .sType = VK_STRUCTURE_TYPE_DESCRIPTOR_SET_ALLOCATE_INFO,
+        .descriptorPool = descriptorPool,
+        .descriptorSetCount = 1,
+        .pSetLayouts = &descriptorSetLayout.layout,
+    };
+    for (std::size_t i = 0; i < std::size(descriptorSets); ++i) {
+      VK_VERIFY(vkAllocateDescriptorSets(vk::context->device, &info,
+                                         descriptorSets + i));
+    }
+  }
+
+  ~Impl() {
+    vkDestroyDescriptorPool(vk::context->device, descriptorPool,
+                            vk::context->allocator);
+    vkDestroyPipelineLayout(vk::context->device, pipelineLayout,
+                            vk::context->allocator);
+  }
+
+  std::uint32_t allocateDescriptorSlot() {
+    std::lock_guard lock(descriptorMtx);
+
+    auto result = std::countl_one(inUseDescriptorSets);
+    rx::dieIf(result >= std::size(descriptorSets),
+              "out of tiler descriptor sets");
+    inUseDescriptorSets |= (1 << result);
+
+    return result;
+  }
+
+  void releaseDescriptorSlot(std::uint32_t slot) {
+    std::lock_guard lock(descriptorMtx);
+    inUseDescriptorSets &= ~(1u << slot);
+  }
+};
+
+amdgpu::GpuTiler::GpuTiler() { mImpl = std::make_unique<Impl>(); }
+amdgpu::GpuTiler::~GpuTiler() = default;
+
+void amdgpu::GpuTiler::detile(Scheduler &scheduler,
+                              const amdgpu::SurfaceInfo &info,
+                              amdgpu::TileMode tileMode,
+                              std::uint64_t srcTiledAddress,
+                              std::uint64_t dstLinearAddress, int mipLevel,
+                              int baseArray, int arrayCount) {
+  auto commandBuffer = scheduler.getCommandBuffer();
+  auto slot = mImpl->allocateDescriptorSlot();
+
+  auto configOffset = slot * sizeof(Impl::Config);
+  auto config = reinterpret_cast<Impl::Config *>(mImpl->configData.getData() +
+                                                 configOffset);
+
+  auto &subresource = info.getSubresourceInfo(mipLevel);
+  config->srcAddress = srcTiledAddress + subresource.offset +
+                       (subresource.tiledSize * baseArray);
+  config->dstAddress = dstLinearAddress + (subresource.linearSize * baseArray);
+  config->dataWidth = subresource.dataWidth;
+  config->dataHeight = subresource.dataHeight;
+  config->tileMode = tileMode.raw;
+  config->numFragments = info.numFragments;
+  config->bitsPerElement = info.bitsPerElement;
+  uint32_t groupCountZ = subresource.dataDepth;
+
+  if (arrayCount > 1) {
+    config->tiledSurfaceSize = subresource.tiledSize;
+    config->linearSurfaceSize = subresource.linearSize;
+    groupCountZ = arrayCount;
+  } else {
+    config->tiledSurfaceSize = 0;
+    config->linearSurfaceSize = 0;
+  }
+
+  VkShaderStageFlagBits stages[]{VK_SHADER_STAGE_COMPUTE_BIT};
+
+  switch (tileMode.arrayMode()) {
+  case amdgpu::kArrayModeLinearGeneral:
+  case amdgpu::kArrayModeLinearAligned:
+    vk::CmdBindShadersEXT(commandBuffer, 1, stages,
+                          &mImpl->detilerLinear.shader);
+    break;
+
+  case amdgpu::kArrayMode1dTiledThin:
+  case amdgpu::kArrayMode1dTiledThick:
+    vk::CmdBindShadersEXT(commandBuffer, 1, stages, &mImpl->detiler1d.shader);
+    break;
+
+  case amdgpu::kArrayMode2dTiledThin:
+  case amdgpu::kArrayModeTiledThinPrt:
+  case amdgpu::kArrayMode2dTiledThinPrt:
+  case amdgpu::kArrayMode2dTiledThick:
+  case amdgpu::kArrayMode2dTiledXThick:
+  case amdgpu::kArrayModeTiledThickPrt:
+  case amdgpu::kArrayMode2dTiledThickPrt:
+  case amdgpu::kArrayMode3dTiledThinPrt:
+  case amdgpu::kArrayMode3dTiledThin:
+  case amdgpu::kArrayMode3dTiledThick:
+  case amdgpu::kArrayMode3dTiledXThick:
+  case amdgpu::kArrayMode3dTiledThickPrt:
+    std::abort();
+    vk::CmdBindShadersEXT(commandBuffer, 1, stages, &mImpl->detiler2d.shader);
+    break;
+  }
+
+  VkDescriptorBufferInfo bufferInfo{
+      .buffer = mImpl->configData.getHandle(),
+      .offset = configOffset,
+      .range = sizeof(Impl::Config),
+  };
+
+  VkWriteDescriptorSet writeDescSet{
+      .sType = VK_STRUCTURE_TYPE_WRITE_DESCRIPTOR_SET,
+      .dstSet = mImpl->descriptorSets[slot],
+      .dstBinding = 0,
+      .descriptorCount = 1,
+      .descriptorType = VK_DESCRIPTOR_TYPE_UNIFORM_BUFFER,
+      .pBufferInfo = &bufferInfo,
+  };
+
+  vkUpdateDescriptorSets(vk::context->device, 1, &writeDescSet, 0, nullptr);
+
+  vkCmdBindDescriptorSets(commandBuffer, VK_PIPELINE_BIND_POINT_COMPUTE,
+                          mImpl->pipelineLayout, 0, 1,
+                          &mImpl->descriptorSets[slot], 0, nullptr);
+
+  vkCmdDispatch(commandBuffer, subresource.dataWidth, subresource.dataHeight,
+                groupCountZ);
+
+  scheduler.afterSubmit([this, slot] { mImpl->releaseDescriptorSlot(slot); });
+}
+
+void amdgpu::GpuTiler::tile(Scheduler &scheduler,
+                            const amdgpu::SurfaceInfo &info,
+                            amdgpu::TileMode tileMode,
+                            std::uint64_t srcLinearAddress,
+                            std::uint64_t dstTiledAddress, int mipLevel,
+                            int baseArray, int arrayCount) {
+  auto commandBuffer = scheduler.getCommandBuffer();
+  auto slot = mImpl->allocateDescriptorSlot();
+
+  auto configOffset = slot * sizeof(Impl::Config);
+  auto config = reinterpret_cast<Impl::Config *>(mImpl->configData.getData() +
+                                                 configOffset);
+
+  auto &subresource = info.getSubresourceInfo(mipLevel);
+  config->srcAddress = srcLinearAddress + subresource.offset +
+                       subresource.linearSize * baseArray;
+  config->dstAddress = dstTiledAddress;
+  config->dataWidth = subresource.dataWidth;
+  config->dataHeight = subresource.dataHeight;
+  config->tileMode = tileMode.raw;
+  config->numFragments = info.numFragments;
+  config->bitsPerElement = info.bitsPerElement;
+  uint32_t groupCountZ = subresource.dataDepth;
+
+  if (arrayCount > 1) {
+    config->tiledSurfaceSize = subresource.tiledSize;
+    config->linearSurfaceSize = subresource.linearSize;
+    groupCountZ = arrayCount;
+  } else {
+    config->tiledSurfaceSize = 0;
+    config->linearSurfaceSize = 0;
+  }
+
+  VkShaderStageFlagBits stages[]{VK_SHADER_STAGE_COMPUTE_BIT};
+
+  switch (tileMode.arrayMode()) {
+  case amdgpu::kArrayModeLinearGeneral:
+  case amdgpu::kArrayModeLinearAligned:
+    vk::CmdBindShadersEXT(commandBuffer, 1, stages, &mImpl->tilerLinear.shader);
+    break;
+
+  case amdgpu::kArrayMode1dTiledThin:
+  case amdgpu::kArrayMode1dTiledThick:
+    vk::CmdBindShadersEXT(commandBuffer, 1, stages, &mImpl->tiler1d.shader);
+    break;
+
+  case amdgpu::kArrayMode2dTiledThin:
+  case amdgpu::kArrayModeTiledThinPrt:
+  case amdgpu::kArrayMode2dTiledThinPrt:
+  case amdgpu::kArrayMode2dTiledThick:
+  case amdgpu::kArrayMode2dTiledXThick:
+  case amdgpu::kArrayModeTiledThickPrt:
+  case amdgpu::kArrayMode2dTiledThickPrt:
+  case amdgpu::kArrayMode3dTiledThinPrt:
+  case amdgpu::kArrayMode3dTiledThin:
+  case amdgpu::kArrayMode3dTiledThick:
+  case amdgpu::kArrayMode3dTiledXThick:
+  case amdgpu::kArrayMode3dTiledThickPrt:
+    std::abort();
+    vk::CmdBindShadersEXT(commandBuffer, 1, stages, &mImpl->tiler2d.shader);
+    break;
+  }
+
+  VkDescriptorBufferInfo bufferInfo{
+      .buffer = mImpl->configData.getHandle(),
+      .offset = configOffset,
+      .range = sizeof(Impl::Config),
+  };
+
+  VkWriteDescriptorSet writeDescSet{
+      .sType = VK_STRUCTURE_TYPE_WRITE_DESCRIPTOR_SET,
+      .dstSet = mImpl->descriptorSets[slot],
+      .dstBinding = 0,
+      .descriptorCount = 1,
+      .descriptorType = VK_DESCRIPTOR_TYPE_UNIFORM_BUFFER,
+      .pBufferInfo = &bufferInfo,
+  };
+
+  vkUpdateDescriptorSets(vk::context->device, 1, &writeDescSet, 0, nullptr);
+
+  vkCmdBindDescriptorSets(commandBuffer, VK_PIPELINE_BIND_POINT_COMPUTE,
+                          mImpl->pipelineLayout, 0, 1,
+                          &mImpl->descriptorSets[slot], 0, nullptr);
+
+  vkCmdDispatch(commandBuffer, subresource.dataWidth, subresource.dataHeight,
+                groupCountZ);
+
+  scheduler.afterSubmit([this, slot] { mImpl->releaseDescriptorSlot(slot); });
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/CMakeLists.txt b/rpcsx-gpu2/lib/gcn-shader/CMakeLists.txt
new file mode 100644
index 00000000..9aff3961
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/CMakeLists.txt
@@ -0,0 +1,48 @@
+file(MAKE_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR}/include/dialect/)
+
+add_custom_command(
+    OUTPUT ${CMAKE_CURRENT_BINARY_DIR}/include/dialect/spv.hpp
+    COMMAND $<TARGET_FILE:spv-gen> ${CMAKE_CURRENT_BINARY_DIR}/include/dialect/spv.hpp
+    DEPENDS spv-gen
+    WORKING_DIRECTORY $<TARGET_PROPERTY:SPIRV-Headers,INTERFACE_INCLUDE_DIRECTORIES>/spirv/unified1
+    COMMENT "Generating ${CMAKE_CURRENT_BINARY_DIR}/include/dialect/spv.hpp..."
+)
+
+add_custom_target(shader-spv-dialect-gen DEPENDS ${CMAKE_CURRENT_BINARY_DIR}/include/dialect/spv.hpp)
+add_library(shader-spv-dialect INTERFACE)
+add_dependencies(shader-spv-dialect shader-spv-dialect-gen)
+target_include_directories(shader-spv-dialect INTERFACE ${CMAKE_CURRENT_BINARY_DIR}/include/)
+
+add_library(gcn-shader STATIC
+    src/analyze.cpp
+    src/eval.cpp
+    src/Evaluator.cpp
+    src/gcn.cpp
+    src/GcnConverter.cpp
+    src/GcnInstruction.cpp
+    src/glsl.cpp
+    src/ModuleInfo.cpp
+    src/opt.cpp
+    src/SemanticModuleInfo.cpp
+    src/spv.cpp
+    src/SpvConverter.cpp
+    src/SpvTypeInfo.cpp
+    src/transform.cpp
+)
+
+target_include_directories(gcn-shader PUBLIC include PRIVATE include/shader)
+
+target_link_libraries(gcn-shader
+PUBLIC
+    shader-spv-dialect
+    rx
+
+PRIVATE
+    glslang::glslang
+    glslang::SPIRV
+    SPIRV-Tools
+    SPIRV-Tools-opt
+    spirv-cross-c-shared
+)
+
+add_subdirectory(shaders)
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/Access.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/Access.hpp
new file mode 100644
index 00000000..df9c01cb
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/Access.hpp
@@ -0,0 +1,26 @@
+#pragma once
+
+namespace shader {
+enum class Access {
+  None = 0,
+  Read = 1 << 0,
+  Write = 1 << 1,
+  ReadWrite = Read | Write
+};
+
+constexpr Access operator|(Access lhs, Access rhs) {
+  return static_cast<Access>(static_cast<int>(lhs) | static_cast<int>(rhs));
+}
+constexpr Access operator&(Access lhs, Access rhs) {
+  return static_cast<Access>(static_cast<int>(lhs) & static_cast<int>(rhs));
+}
+constexpr Access operator~(Access rhs) {
+  return static_cast<Access>(~static_cast<int>(rhs));
+}
+constexpr Access &operator|=(Access &lhs, Access rhs) {
+  return ((lhs = lhs | rhs));
+}
+constexpr Access &operator&=(Access &lhs, Access rhs) {
+  return ((lhs = lhs & rhs));
+}
+} // namespace shader
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/Evaluator.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/Evaluator.hpp
new file mode 100644
index 00000000..58e8226c
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/Evaluator.hpp
@@ -0,0 +1,20 @@
+#pragma once
+#include "eval.hpp"
+#include <map>
+
+namespace shader::eval {
+class Evaluator {
+  std::map<ir::Value, Value> values;
+
+public:
+  virtual ~Evaluator() = default;
+
+  void invalidate(ir::Value node) { values.erase(node); }
+  void setValue(ir::Value node, Value value) { values[node] = value; }
+
+  Value eval(const ir::Operand &op, ir::Value type = nullptr);
+  virtual Value eval(ir::Value op);
+  virtual Value eval(ir::InstructionId instId,
+                     std::span<const ir::Operand> operands);
+};
+} // namespace shader::eval
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/GcnConverter.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/GcnConverter.hpp
new file mode 100644
index 00000000..a35ff109
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/GcnConverter.hpp
@@ -0,0 +1,131 @@
+#pragma once
+
+#include "gcn.hpp"
+#include "rx/MemoryTable.hpp"
+#include <cstdint>
+#include <optional>
+#include <vector>
+
+namespace shader::gcn {
+enum class PsVGprInput {
+  IPerspSample,
+  JPerspSample,
+  IPerspCenter,
+  JPerspCenter,
+  IPerspCentroid,
+  JPerspCentroid,
+  IW,
+  JW,
+  _1W,
+  ILinearSample,
+  JLinearSample,
+  ILinearCenter,
+  JLinearCenter,
+  ILinearCentroid,
+  JLinearCentroid,
+  X,
+  Y,
+  Z,
+  W,
+  FrontFace,
+  Ancillary,
+  SampleCoverage,
+  PosFixed,
+
+  Count
+};
+enum class ConfigType {
+  Imm,
+  UserSgpr,
+  ResourceSlot,
+  MemoryTable,
+  Gds,
+  PsInputVGpr,
+  VsPrimType,
+  CbCompSwap,
+  ViewPortOffsetX,
+  ViewPortOffsetY,
+  ViewPortOffsetZ,
+  ViewPortScaleX,
+  ViewPortScaleY,
+  ViewPortScaleZ,
+};
+
+struct ConfigSlot {
+  ConfigType type;
+  std::uint64_t data;
+};
+
+struct Resources {
+  struct Resource {
+    std::uint32_t resourceSlot;
+  };
+
+  struct Pointer : Resource {
+    std::uint32_t size;
+    ir::Value base;
+    ir::Value offset;
+  };
+
+  struct Texture : Resource {
+    Access access;
+    ir::Value words[8];
+  };
+
+  struct Buffer : Resource {
+    Access access;
+    ir::Value words[4];
+  };
+
+  struct Sampler : Resource {
+    bool unorm;
+    ir::Value words[4];
+  };
+
+  spv::Context context;
+  bool hasUnknown = false;
+  std::uint32_t slots = 0;
+  std::vector<Pointer> pointers;
+  std::vector<Texture> textures;
+  std::vector<Buffer> buffers;
+  std::vector<Sampler> samplers;
+
+  void print(std::ostream &os, ir::NameStorage &ns) const;
+  void dump();
+};
+
+struct ShaderInfo {
+  std::vector<ConfigSlot> configSlots;
+  rx::MemoryAreaTable<> memoryMap;
+  std::vector<std::pair<int, std::uint32_t>> requiredSgprs;
+  Resources resources;
+
+  std::uint32_t create(ConfigType type, std::uint64_t data) {
+    for (std::size_t slotIndex = 0; auto &slotInfo : configSlots) {
+      if (slotInfo.type == type && slotInfo.data == data) {
+        return slotIndex;
+      }
+
+      slotIndex++;
+    }
+
+    configSlots.push_back({
+        .type = type,
+        .data = data,
+    });
+
+    return configSlots.size() - 1;
+  }
+};
+
+struct ConvertedShader {
+  std::vector<std::uint32_t> spv;
+  ShaderInfo info;
+};
+
+std::optional<ConvertedShader>
+convertToSpv(Context &context, ir::Region body,
+             const SemanticModuleInfo &semanticModule, Stage stage,
+             const Environment &state);
+
+} // namespace shader::gcn
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/GcnInstruction.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/GcnInstruction.hpp
new file mode 100644
index 00000000..4c4fad05
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/GcnInstruction.hpp
@@ -0,0 +1,256 @@
+#pragma once
+
+#include "dialect.hpp"
+#include "ir/Kind.hpp"
+
+#include <functional>
+#include <ostream>
+#include <span>
+#include <type_traits>
+
+namespace shader {
+struct GcnOperand {
+  enum class Kind : std::uint8_t {
+    Invalid,
+    Constant,
+    Immediate,
+    VccLo,
+    VccHi,
+    M0,
+    ExecLo,
+    ExecHi,
+    Scc,
+    VccZ,
+    ExecZ,
+    LdsDirect,
+    Vgpr,
+    Sgpr,
+    Attr,
+    Buffer,
+    Texture128,
+    Texture256,
+    Sampler,
+    Pointer,
+  };
+
+  static constexpr auto R = 1 << 0;
+  static constexpr auto W = 1 << 1;
+
+  union {
+    std::uint32_t value;
+    std::uint64_t address = 0;
+
+    struct {
+      std::uint16_t attrId;
+      std::uint16_t attrChannel;
+    };
+
+    struct {
+      Kind firstRegisterKind;
+      union {
+        struct {
+          Kind pointerOffsetKind;
+          std::uint16_t pointeeSize;
+        };
+        bool samplerUnorm;
+      };
+      std::uint32_t firstRegisterIndex;
+
+      union {
+        std::uint32_t pointerOffsetValue;
+        std::uint64_t pointerOffsetAddress;
+      };
+    };
+  };
+
+  Kind kind = Kind::Invalid;
+  std::uint8_t access = 0;
+  std::uint8_t omod : 4 = 0;
+  bool abs : 1 = false;
+  bool clamp : 1 = false;
+  bool neg : 1 = false;
+
+  constexpr GcnOperand getUnderlyingOperand(int offset = 0) const {
+    return {
+        .value = firstRegisterIndex + offset,
+        .kind = firstRegisterKind,
+    };
+  }
+
+  constexpr GcnOperand getPointerOffsetOperand() const {
+    return {
+        .address = pointerOffsetAddress,
+        .kind = pointerOffsetKind,
+    };
+  }
+
+  static constexpr GcnOperand createImmediateConstant(std::uint64_t address) {
+    return GcnOperand{
+        .address = address,
+        .kind = Kind::Immediate,
+        .access = R,
+    };
+  }
+
+  static constexpr GcnOperand createConstant(std::uint32_t value) {
+    return GcnOperand{
+        .value = value,
+        .kind = Kind::Constant,
+        .access = R,
+    };
+  }
+
+  static constexpr GcnOperand createConstant(bool value) {
+    return createConstant(std::uint32_t(value ? 1 : 0));
+  }
+
+  static constexpr GcnOperand createConstant(float value) {
+    return createConstant(std::bit_cast<std::uint32_t>(value));
+  }
+
+  static constexpr GcnOperand createVgpr(std::uint32_t index) {
+    return {
+        .value = index,
+        .kind = Kind::Vgpr,
+    };
+  }
+
+  static constexpr GcnOperand createSgpr(std::uint32_t index) {
+    return {
+        .value = index,
+        .kind = Kind::Sgpr,
+    };
+  }
+
+  static constexpr GcnOperand createSampler(GcnOperand firstReg, bool unorm) {
+    return {
+        .firstRegisterKind = firstReg.kind,
+        .samplerUnorm = unorm,
+        .firstRegisterIndex = static_cast<std::uint8_t>(firstReg.value),
+        .kind = Kind::Sampler,
+    };
+  }
+  static constexpr GcnOperand createTexture(GcnOperand firstReg, bool is128) {
+    return {
+        .firstRegisterKind = firstReg.kind,
+        .firstRegisterIndex = static_cast<std::uint8_t>(firstReg.value),
+        .kind = (is128 ? Kind::Texture128 : Kind::Texture256),
+    };
+  }
+  static constexpr GcnOperand createBuffer(GcnOperand firstReg) {
+    return {
+        .firstRegisterKind = firstReg.kind,
+        .firstRegisterIndex = static_cast<std::uint8_t>(firstReg.value),
+        .kind = Kind::Buffer,
+    };
+  }
+  static constexpr GcnOperand
+  createPointer(GcnOperand firstReg, std::uint16_t size, GcnOperand offset) {
+    return {
+        .firstRegisterKind = firstReg.kind,
+        .pointerOffsetKind = offset.kind,
+        .pointeeSize = size,
+        .firstRegisterIndex = static_cast<std::uint8_t>(firstReg.value),
+        .pointerOffsetAddress = offset.address,
+        .kind = Kind::Pointer,
+    };
+  }
+
+  static constexpr GcnOperand createAttr(std::uint16_t id,
+                                         std::uint16_t channel) {
+    return {
+        .attrId = id,
+        .attrChannel = channel,
+        .kind = Kind::Attr,
+    };
+  }
+
+  constexpr GcnOperand withRW() const { return withAccess(R | W); }
+  constexpr GcnOperand withR() const { return withAccess(R); }
+  constexpr GcnOperand withW() const { return withAccess(W); }
+
+  constexpr GcnOperand withAccess(std::uint8_t access) const {
+    GcnOperand result = *this;
+    result.access = access;
+    return result;
+  }
+
+  constexpr GcnOperand withNeg(bool value) const {
+    GcnOperand result = *this;
+    result.neg = value;
+    return result;
+  }
+
+  constexpr GcnOperand withAbs(bool value) const {
+    GcnOperand result = *this;
+    result.abs = value;
+    return result;
+  }
+
+  constexpr GcnOperand withClamp(bool value) const {
+    GcnOperand result = *this;
+    result.clamp = value;
+    return result;
+  }
+
+  constexpr GcnOperand withOutputModifier(std::uint8_t value) const {
+    GcnOperand result = *this;
+    result.omod = value;
+    return result;
+  }
+
+  static constexpr GcnOperand createVccLo() { return {.kind = Kind::VccLo}; }
+  static constexpr GcnOperand createVccHi() { return {.kind = Kind::VccHi}; }
+  static constexpr GcnOperand createM0() { return {.kind = Kind::M0}; }
+  static constexpr GcnOperand createExecLo() { return {.kind = Kind::ExecLo}; }
+  static constexpr GcnOperand createExecHi() { return {.kind = Kind::ExecHi}; }
+  static constexpr GcnOperand createVccZ() { return {.kind = Kind::VccZ}; }
+  static constexpr GcnOperand createExecZ() { return {.kind = Kind::ExecZ}; }
+  static constexpr GcnOperand createScc() { return {.kind = Kind::Scc}; }
+  static constexpr GcnOperand createLdsDirect() {
+    return {.kind = Kind::LdsDirect};
+  }
+
+  void print(std::ostream &os) const;
+  void dump() const;
+};
+
+struct GcnInstruction {
+  ir::Kind kind = ir::Kind::Builtin;
+  unsigned op = ir::builtin::INVALID_INSTRUCTION;
+  GcnOperand operands[16];
+  std::size_t operandCount{};
+
+  std::span<const GcnOperand> getOperands() const {
+    return {operands, operandCount};
+  }
+
+  const GcnOperand &getOperand(std::size_t index) const {
+    if (index >= operandCount) {
+      std::abort();
+    }
+    return operands[index];
+  }
+
+  void addOperand(GcnOperand op) {
+    if (operandCount >= std::size(operands)) {
+      std::abort();
+    }
+
+    operands[operandCount++] = op;
+  }
+
+  template <typename T>
+  bool operator==(T testOp)
+    requires(ir::kOpToKind<std::remove_cvref_t<T>> != ir::Kind::Count)
+  {
+    return ir::kOpToKind<std::remove_cvref_t<T>> == kind && op == testOp;
+  }
+
+  void print(std::ostream &os) const;
+  void dump() const;
+};
+
+void readGcnInst(GcnInstruction &isaInst, std::uint64_t &address,
+                 const std::function<std::uint32_t(std::uint64_t)> &readMemory);
+} // namespace shader
\ No newline at end of file
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ModuleInfo.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ModuleInfo.hpp
new file mode 100644
index 00000000..af013a38
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ModuleInfo.hpp
@@ -0,0 +1,28 @@
+#pragma once
+
+#include "Access.hpp"
+#include "ir/Value.hpp"
+#include "spv.hpp"
+#include <map>
+#include <vector>
+
+namespace shader {
+struct ModuleInfo {
+  struct Param {
+    ir::Value type;
+    Access access = Access::None;
+  };
+
+  struct Function {
+    std::map<ir::Value, Access> variables;
+    std::vector<Param> parameters;
+    ir::Value returnType;
+  };
+
+  std::map<ir::Value, Function> functions;
+};
+
+ModuleInfo::Function &collectFunctionInfo(ModuleInfo &moduleInfo,
+                                          ir::Value function);
+void collectModuleInfo(ModuleInfo &moduleInfo, const spv::BinaryLayout &layout);
+} // namespace shader
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/SemanticInfo.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/SemanticInfo.hpp
new file mode 100644
index 00000000..5f6e62e4
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/SemanticInfo.hpp
@@ -0,0 +1,46 @@
+#pragma once
+
+#include "ModuleInfo.hpp"
+#include "SpvTypeInfo.hpp"
+
+namespace shader {
+struct SemanticModuleInfo : ModuleInfo {
+  std::unordered_map<ir::InstructionId, ir::Value> semantics;
+
+  ir::Value findSemanticOf(ir::InstructionId sem) const {
+    auto semIt = semantics.find(sem);
+    if (semIt == semantics.end()) {
+      return nullptr;
+    }
+
+    return semIt->second;
+  }
+};
+
+struct SemanticInfo {
+  struct Param {
+    spv::TypeInfo type;
+    Access access = Access::None;
+  };
+
+  struct Function {
+    std::unordered_map<int, Access> registerAccesses;
+    std::vector<Param> parameters;
+    spv::TypeInfo returnType;
+    Access bufferAccess = Access::None;
+  };
+
+  std::unordered_map<ir::InstructionId, Function> semantics;
+
+  const Function *findSemantic(ir::InstructionId sem) const {
+    if (auto it = semantics.find(sem); it != semantics.end()) {
+      return &it->second;
+    }
+
+    return nullptr;
+  }
+};
+
+void collectSemanticModuleInfo(SemanticModuleInfo &moduleInfo,
+                               const spv::BinaryLayout &layout);
+} // namespace shader
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/SpvConverter.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/SpvConverter.hpp
new file mode 100644
index 00000000..0c4ae8c3
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/SpvConverter.hpp
@@ -0,0 +1,154 @@
+#pragma once
+#include "SpvTypeInfo.hpp"
+#include "dialect/spv.hpp"
+#include "spv.hpp"
+
+namespace shader::spv {
+struct Import : ir::CloneMap {
+  ir::Node getOrCloneImpl(ir::Context &context, ir::Node node,
+                          bool isOperand) override;
+};
+
+struct Context : ir::Context {
+  BinaryLayout layout;
+  ir::Location rootLocation;
+
+  ir::NameStorage ns;
+  ir::Value perVertex;
+  std::map<int, ir::Value> outputs;
+  std::map<int, ir::Value> inputs;
+
+  ir::RegionLike localVariables;
+  ir::RegionLike epilogue;
+  ir::Value entryPoint;
+
+  std::map<ir::InstructionId, std::vector<ir::Value>> globals;
+  std::map<ir::InstructionId, std::vector<ir::Value>> constants;
+
+  Context();
+
+  ir::Value createRegionWithLabel(ir::Location loc);
+
+  void setName(ir::spv::IdRef inst, std::string name);
+  void setConstantName(ir::Value constant);
+
+  ir::Value getOrCreateConstant(ir::Value typeValue, const ir::Operand &value);
+
+  ir::Value getType(ir::spv::Op baseType, int width, bool isSigned);
+  ir::Value getType(const TypeInfo &info);
+
+  ir::Value imm64(std::uint64_t value) {
+    return getOrCreateConstant(getTypeUInt64(), value);
+  }
+  ir::Value imm32(std::uint32_t value) {
+    return getOrCreateConstant(getTypeUInt32(), value);
+  }
+
+  ir::Value simm64(std::int64_t value) {
+    return getOrCreateConstant(getTypeSInt64(), value);
+  }
+  ir::Value simm32(std::int32_t value) {
+    return getOrCreateConstant(getTypeSInt32(), value);
+  }
+  ir::Value fimm64(double value) {
+    return getOrCreateConstant(getTypeFloat(64), value);
+  }
+  ir::Value fimm32(float value) {
+    return getOrCreateConstant(getTypeFloat(32), value);
+  }
+  ir::Value getBool(bool value) { return value ? getTrue() : getFalse(); }
+  ir::Value getTrue() {
+    return getOrCreateGlobal(ir::spv::OpConstantTrue, {{getTypeBool()}});
+  }
+  ir::Value getFalse() {
+    return getOrCreateGlobal(ir::spv::OpConstantFalse, {{getTypeBool()}});
+  }
+
+  ir::Value getIndex(std::int32_t index) { return simm32(index); }
+
+  void setTypeName(ir::Value type);
+
+  void addGlobal(ir::Value type) {
+    globals[type.getInstId()].push_back(type);
+    setTypeName(type);
+  }
+
+  ir::Value findGlobal(ir::spv::Op op,
+                       std::span<const ir::Operand> operands = {}) const;
+  ir::Value createGlobal(ir::spv::Op op, std::span<const ir::Operand> operands);
+  ir::Value getOrCreateGlobal(ir::spv::Op op,
+                              std::span<const ir::Operand> operands = {});
+
+  ir::Value getTypeInt(int width, bool sign) {
+    return getOrCreateGlobal(ir::spv::OpTypeInt, {{width, sign ? 1 : 0}});
+  }
+  ir::Value getTypeFloat(int width) {
+    return getOrCreateGlobal(ir::spv::OpTypeFloat, {{width}});
+  }
+  ir::Value getTypeVoid() { return getOrCreateGlobal(ir::spv::OpTypeVoid); }
+  ir::Value getTypeBool() { return getOrCreateGlobal(ir::spv::OpTypeBool); }
+  ir::Value getTypeSampler() {
+    return getOrCreateGlobal(ir::spv::OpTypeSampler);
+  }
+  ir::Value getTypeArray(ir::Value elementType, ir::Value count) {
+    return getOrCreateGlobal(ir::spv::OpTypeArray, {{elementType, count}});
+  }
+  ir::Value getTypeVector(ir::Value elementType, int count) {
+    return getOrCreateGlobal(ir::spv::OpTypeVector, {{elementType, count}});
+  }
+
+  ir::Value getTypeStruct(auto... elements) {
+    return getOrCreateGlobal(ir::spv::OpTypeStruct, {{elements...}});
+  }
+  ir::Value getTypeSInt8() { return getTypeInt(8, true); }
+  ir::Value getTypeUInt8() { return getTypeInt(8, false); }
+  ir::Value getTypeSInt16() { return getTypeInt(16, true); }
+  ir::Value getTypeUInt16() { return getTypeInt(16, false); }
+  ir::Value getTypeSInt32() { return getTypeInt(32, true); }
+  ir::Value getTypeUInt32() { return getTypeInt(32, false); }
+  ir::Value getTypeSInt64() { return getTypeInt(64, true); }
+  ir::Value getTypeUInt64() { return getTypeInt(64, false); }
+  ir::Value getTypeFloat16() { return getTypeFloat(16); }
+  ir::Value getTypeFloat32() { return getTypeFloat(32); }
+  ir::Value getTypeFloat64() { return getTypeFloat(64); }
+
+  ir::Value getTypeFunction(ir::Value returnType,
+                            std::span<const ir::Value> params) {
+    std::vector<ir::Operand> operands;
+    operands.reserve(1 + params.size());
+    operands.push_back(returnType);
+    for (auto param : params) {
+      operands.push_back(param);
+    }
+    return getOrCreateGlobal(ir::spv::OpTypeFunction, operands);
+  }
+
+  ir::Value getTypePointer(ir::spv::StorageClass storageClass,
+                           ir::spv::IdRef pointeeType) {
+    return getOrCreateGlobal(ir::spv::OpTypePointer,
+                             {{storageClass, pointeeType}});
+  }
+
+  ir::Value getTypeImage(ir::spv::IdRef sampledType, ir::spv::Dim dim,
+                         std::int32_t depth, bool arrayed, bool multisampled,
+                         std::int32_t sampled, ir::spv::ImageFormat format) {
+    return getOrCreateGlobal(
+        ir::spv::OpTypeImage,
+        {{sampledType, dim, depth, arrayed, multisampled, sampled, format}});
+  }
+
+  ir::Value getOperandValue(const ir::Operand &op, ir::Value type = {});
+
+  void createPerVertex();
+
+  ir::Value createUniformBuffer(int descriptorSet, int binding,
+                                ir::Value structType);
+
+  ir::Value createRuntimeArrayUniformBuffer(int descriptorSet, int binding,
+                                            ir::Value elementType);
+
+  ir::Value createOutput(ir::Location loc, int index);
+  ir::Value createInput(ir::Location loc, int index);
+  ir::Value createAttr(ir::Location loc, int attrId, bool perVertex, bool flat);
+};
+} // namespace shader::spv
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/SpvTypeInfo.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/SpvTypeInfo.hpp
new file mode 100644
index 00000000..8279306b
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/SpvTypeInfo.hpp
@@ -0,0 +1,18 @@
+#pragma once
+
+#include "dialect/spv.hpp"
+
+namespace shader::spv {
+struct TypeInfo {
+  ir::spv::Op baseType = {};
+  ir::spv::Op componentType = {};
+  int componentWidth = 0;
+  int componentsCount = 1;
+  bool isSigned = false;
+
+  int width() const { return componentWidth * componentsCount; }
+  bool operator==(const TypeInfo &other) const = default;
+};
+
+TypeInfo getTypeInfo(ir::Value type);
+} // namespace shader::spv
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/Vector.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/Vector.hpp
new file mode 100644
index 00000000..5cc827f2
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/Vector.hpp
@@ -0,0 +1,129 @@
+#pragma once
+
+#include <array>
+#include <cstdint>
+
+namespace shader {
+template <typename T, std::size_t N> struct Vector : std::array<T, N> {
+  using std::array<T, N>::array;
+
+  template<typename U>
+  constexpr explicit operator Vector<U, N>() const {
+     Vector<U, N> result;
+     for (std::size_t i = 0; i < N; ++i) {
+       result[i] = static_cast<U>((*this)[i]);
+     }
+     return result;
+  }
+
+#define DEFINE_BINOP(OP)                                                       \
+  constexpr auto operator OP(const Vector &other) const                        \
+    requires requires(T lhs, T rhs) { lhs OP rhs; }                            \
+  {                                                                            \
+    using ResultElementT =                                                     \
+        std::remove_cvref_t<decltype(std::declval<T>() OP std::declval<T>())>; \
+    Vector<ResultElementT, N> result;                                          \
+    for (std::size_t i = 0; i < N; ++i) {                                      \
+      result[i] = (*this)[i] OP other[i];                                      \
+    }                                                                          \
+    return result;                                                             \
+  }                                                                            \
+  constexpr auto operator OP(const T &other) const                             \
+    requires requires(T lhs, T rhs) { lhs OP rhs; }                            \
+  {                                                                            \
+    using ResultElementT =                                                     \
+        std::remove_cvref_t<decltype(std::declval<T>() OP std::declval<T>())>; \
+    Vector<ResultElementT, N> result;                                          \
+    for (std::size_t i = 0; i < N; ++i) {                                      \
+      result[i] = (*this)[i] OP other;                                         \
+    }                                                                          \
+    return result;                                                             \
+  }
+
+#define DEFINE_UNOP(OP)                                                        \
+  constexpr auto operator OP() const                                           \
+    requires requires(T rhs) { OP rhs; }                                       \
+  {                                                                            \
+    using ResultElementT =                                                     \
+        std::remove_cvref_t<decltype(OP std::declval<T>())>;                   \
+    Vector<ResultElementT, N> result;                                          \
+    for (std::size_t i = 0; i < N; ++i) {                                      \
+      result[i] = OP(*this)[i];                                                \
+    }                                                                          \
+    return result;                                                             \
+  }
+
+  DEFINE_BINOP(+)
+  DEFINE_BINOP(-)
+  DEFINE_BINOP(*)
+  DEFINE_BINOP(/)
+  DEFINE_BINOP(%)
+  DEFINE_BINOP(&)
+  DEFINE_BINOP(|)
+  DEFINE_BINOP(^)
+  DEFINE_BINOP(>>)
+  DEFINE_BINOP(<<)
+  DEFINE_BINOP(&&)
+  DEFINE_BINOP(||)
+  DEFINE_BINOP(<)
+  DEFINE_BINOP(>)
+  DEFINE_BINOP(<=)
+  DEFINE_BINOP(>=)
+  DEFINE_BINOP(==)
+  DEFINE_BINOP(!=)
+
+  DEFINE_UNOP(-)
+  DEFINE_UNOP(~)
+  DEFINE_UNOP(!)
+
+#undef DEFINE_BINOP
+#undef DEFINE_UNOP
+};
+
+using float16_t = _Float16;
+using float32_t = float;
+using float64_t = double;
+
+using u8vec2 = Vector<std::uint8_t, 2>;
+using u8vec3 = Vector<std::uint8_t, 3>;
+using u8vec4 = Vector<std::uint8_t, 4>;
+using i8vec2 = Vector<std::int8_t, 2>;
+using i8vec3 = Vector<std::int8_t, 3>;
+using i8vec4 = Vector<std::int8_t, 4>;
+
+using u16vec2 = Vector<std::uint16_t, 2>;
+using u16vec3 = Vector<std::uint16_t, 3>;
+using u16vec4 = Vector<std::uint16_t, 4>;
+using i16vec2 = Vector<std::int16_t, 2>;
+using i16vec3 = Vector<std::int16_t, 3>;
+using i16vec4 = Vector<std::int16_t, 4>;
+
+using u32vec2 = Vector<std::uint32_t, 2>;
+using u32vec3 = Vector<std::uint32_t, 3>;
+using u32vec4 = Vector<std::uint32_t, 4>;
+using i32vec2 = Vector<std::int32_t, 2>;
+using i32vec3 = Vector<std::int32_t, 3>;
+using i32vec4 = Vector<std::int32_t, 4>;
+
+using u64vec2 = Vector<std::uint64_t, 2>;
+using u64vec3 = Vector<std::uint64_t, 3>;
+using u64vec4 = Vector<std::uint64_t, 4>;
+using i64vec2 = Vector<std::int64_t, 2>;
+using i64vec3 = Vector<std::int64_t, 3>;
+using i64vec4 = Vector<std::int64_t, 4>;
+
+using f32vec2 = Vector<float32_t, 2>;
+using f32vec3 = Vector<float32_t, 3>;
+using f32vec4 = Vector<float32_t, 4>;
+using f64vec2 = Vector<float64_t, 2>;
+using f64vec3 = Vector<float64_t, 3>;
+using f64vec4 = Vector<float64_t, 4>;
+
+using f16vec2 = Vector<float16_t, 2>;
+using f16vec3 = Vector<float16_t, 3>;
+using f16vec4 = Vector<float16_t, 4>;
+
+using bvec2 = Vector<bool, 2>;
+using bvec3 = Vector<bool, 3>;
+using bvec4 = Vector<bool, 4>;
+} // namespace shader
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/analyze.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/analyze.hpp
new file mode 100644
index 00000000..d028de69
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/analyze.hpp
@@ -0,0 +1,445 @@
+#pragma once
+
+#include "ModuleInfo.hpp"
+#include "SemanticInfo.hpp"
+#include "dialect/memssa.hpp"
+#include "graph.hpp"
+#include "ir/Instruction.hpp"
+#include "ir/Value.hpp"
+#include "rx/FunctionRef.hpp"
+#include "rx/TypeId.hpp"
+#include <map>
+#include <ostream>
+#include <utility>
+#include <vector>
+
+namespace shader {
+struct DomTree;
+struct PostDomTree;
+class CFG {
+public:
+  class Node {
+    ir::Value mLabel;
+    ir::Instruction mTerminator;
+    std::unordered_set<Node *> mPredecessors;
+    std::unordered_set<Node *> mSuccessors;
+
+  public:
+    using Iterator = std::unordered_set<Node *>::iterator;
+
+    Node() = default;
+    Node(ir::Value label) : mLabel(label) {}
+
+    ir::Value getLabel() { return mLabel; }
+
+    void setTerminator(ir::Instruction inst) { mTerminator = inst; }
+    bool hasTerminator() { return mTerminator != nullptr; }
+    ir::Instruction getTerminator() { return mTerminator; }
+
+    void addEdge(Node *to) {
+      to->mPredecessors.insert(this);
+      mSuccessors.insert(to);
+    }
+
+    bool hasPredecessor(Node *node) { return mPredecessors.contains(node); }
+    bool hasSuccessor(Node *node) { return mSuccessors.contains(node); }
+    auto &getPredecessors() { return mPredecessors; }
+    auto &getSuccessors() { return mSuccessors; }
+    std::size_t getPredecessorCount() { return mPredecessors.size(); }
+    std::size_t getSuccessorCount() { return mSuccessors.size(); }
+    bool hasPredecessors() { return !mPredecessors.empty(); }
+    bool hasSuccessors() { return !mSuccessors.empty(); }
+
+    template <typename T = ir::Instruction> auto range() {
+      return ir::range<T>(mLabel, mTerminator.getNext());
+    }
+
+    template <typename T = ir::Instruction> auto rangeWithoutLabel() {
+      return ir::range<T>(mLabel.getNext(),
+                          mTerminator ? mTerminator.getNext() : nullptr);
+    }
+
+    template <typename T = ir::Instruction> auto rangeWithoutTerminator() {
+      return ir::range<T>(mLabel, mTerminator);
+    }
+
+    template <typename T = ir::Instruction>
+    auto rangeWithoutLabelAndTerminator() {
+      return ir::range<T>(mLabel.getNext(), mTerminator);
+    }
+  };
+
+private:
+  std::map<ir::Value, Node> mNodes;
+  std::vector<Node *> mPreorderNodes;
+  std::vector<Node *> mPostorderNodes;
+  Node *mEntryNode = nullptr;
+
+public:
+  bool empty() { return mNodes.empty(); }
+  void clear() {
+    mNodes.clear();
+    mPreorderNodes.clear();
+    mPostorderNodes.clear();
+    mEntryNode = nullptr;
+  }
+
+  void addPreorderNode(Node *node) { mPreorderNodes.push_back(node); }
+  void addPostorderNode(Node *node) { mPostorderNodes.push_back(node); }
+
+  Node *getEntryNode() { return mEntryNode; }
+  ir::Value getEntryLabel() { return getEntryNode()->getLabel(); }
+  void setEntryNode(Node *node) { mEntryNode = node; }
+
+  std::span<Node *> getPreorderNodes() { return mPreorderNodes; }
+  std::span<Node *> getPostorderNodes() { return mPostorderNodes; }
+
+  Node *getOrCreateNode(ir::Value label) {
+    return &mNodes.emplace(label, label).first->second;
+  }
+
+  Node *getNode(ir::Value label) {
+    if (auto it = mNodes.find(label); it != mNodes.end()) {
+      return &it->second;
+    }
+
+    return nullptr;
+  }
+
+  auto &getSuccessors(ir::Value label) {
+    return getNode(label)->getSuccessors();
+  }
+
+  auto &getPredecessors(ir::Value label) {
+    return getNode(label)->getPredecessors();
+  }
+
+  void print(std::ostream &os, ir::NameStorage &ns, bool subgraph = false,
+             std::string_view nameSuffix = "");
+  std::string genTest();
+
+  CFG buildView(CFG::Node *from, PostDomTree *domTree = nullptr,
+                const std::unordered_set<ir::Value> &stopLabels = {},
+                ir::Value continueLabel = nullptr);
+
+  CFG buildView(ir::Value from, PostDomTree *domTree = nullptr,
+                const std::unordered_set<ir::Value> &stopLabels = {},
+                ir::Value continueLabel = nullptr) {
+    return buildView(getNode(from), domTree, stopLabels, continueLabel);
+  }
+};
+
+class MemorySSA {
+public:
+  ir::Context context;
+  ir::Region region;
+  std::map<ir::Value, ir::memssa::Var> variableToVar;
+  std::map<ir::Instruction, std::map<ir::memssa::Var, ir::memssa::Def>>
+      userDefs;
+
+  ir::memssa::Var getVar(ir::Value variable, std::span<const ir::Operand> path);
+  ir::memssa::Var getVar(ir::Value pointer);
+
+  ir::memssa::Def getDef(ir::Instruction user, ir::memssa::Var var) {
+    auto userIt = userDefs.find(user);
+    if (userIt == userDefs.end()) {
+      return {};
+    }
+
+    if (auto it = userIt->second.find(var); it != userIt->second.end()) {
+      return it->second;
+    }
+
+    return {};
+  }
+
+  ir::memssa::Def getDef(ir::Instruction user, ir::Value pointer) {
+    if (auto var = getVar(pointer)) {
+      return getDef(user, var);
+    }
+
+    return {};
+  }
+
+  ir::Instruction getDefInst(ir::Instruction user, ir::Value pointer) {
+    if (auto def = getDef(user, pointer)) {
+      return def.getLinkedInst();
+    }
+
+    return {};
+  }
+
+  void print(std::ostream &os, ir::Region irRegion, ir::NameStorage &ns);
+  void print(std::ostream &os, ir::NameStorage &ns);
+  void dump();
+
+private:
+  ir::memssa::Var getVarImpl(ir::Value variable);
+};
+
+bool isWithoutSideEffects(ir::InstructionId id);
+bool isTerminator(ir::Instruction inst);
+bool isBranch(ir::Instruction inst);
+ir::Value unwrapPointer(ir::Value pointer);
+graph::DomTree<ir::Value> buildDomTree(CFG &cfg, ir::Value root = nullptr);
+graph::DomTree<ir::Value> buildPostDomTree(CFG &cfg, ir::Value root);
+
+CFG buildCFG(ir::Instruction firstInstruction,
+             const std::unordered_set<ir::Value> &exitLabels = {},
+             ir::Value continueLabel = nullptr);
+MemorySSA buildMemorySSA(CFG &cfg, ModuleInfo *moduleInfo = nullptr);
+
+MemorySSA buildMemorySSA(CFG &cfg, const SemanticInfo &instructionSemantic,
+                         std::function<ir::Value(int)> getRegisterVarCb);
+
+bool dominates(ir::Instruction a, ir::Instruction b, bool isPostDom,
+               graph::DomTree<ir::Value> &domTree);
+
+ir::Value findNearestCommonDominator(ir::Instruction a, ir::Instruction b,
+                                     graph::DomTree<ir::Value> &domTree);
+
+class BackEdgeStorage {
+  std::unordered_map<ir::Value, std::unordered_set<ir::Value>> backEdges;
+
+public:
+  BackEdgeStorage() = default;
+  BackEdgeStorage(CFG &cfg);
+
+  const std::unordered_set<ir::Value> *get(ir::Value value) {
+    if (auto it = backEdges.find(value); it != backEdges.end()) {
+      return &it->second;
+    }
+    return nullptr;
+  }
+
+  auto &all() { return backEdges; }
+};
+
+struct AnalysisStorage {
+  template <typename... T>
+    requires(sizeof...(T) > 0)
+  bool invalidate() {
+    bool invalidated = false;
+    ((invalidated = invalidate(rx::TypeId::get<T>()) || invalidated), ...);
+    return invalidated;
+  }
+
+  bool invalidate(rx::TypeId id) {
+    if (auto it = mStorage.find(id); it != mStorage.end()) {
+      return std::exchange(it->second.invalid, true) == false;
+    }
+
+    return false;
+  }
+  void invalidateAll() {
+    for (auto &entry : mStorage) {
+      entry.second.invalid = true;
+    }
+  }
+
+  template <typename T, typename... ArgsT>
+  T &get(ArgsT &&...args)
+    requires requires { T(std::forward<ArgsT>(args)...); }
+  {
+    void *result = getImpl(
+        rx::TypeId::get<T>(), getDeleter<T>(),
+        [&] {
+          return std::make_unique<T>(std::forward<ArgsT>(args)...).release();
+        },
+        [&](void *object) {
+          *reinterpret_cast<T *>(object) = T(std::forward<ArgsT>(args)...);
+        });
+
+    return *static_cast<T *>(result);
+  }
+
+  template <typename T, typename BuilderFn>
+  T &get(BuilderFn &&builder)
+    requires requires { T(std::forward<BuilderFn>(builder)()); }
+  {
+    void *result = getImpl(
+        rx::TypeId::get<T>(), getDeleter<T>(),
+        [&] {
+          return std::make_unique<T>(std::forward<BuilderFn>(builder)())
+              .release();
+        },
+        [&](void *object) {
+          *reinterpret_cast<T *>(object) = std::forward<BuilderFn>(builder)();
+        });
+
+    return *static_cast<T *>(result);
+  }
+
+private:
+  template <typename T> static void (*getDeleter())(void *) {
+    return +[](void *data) { delete static_cast<T *>(data); };
+  }
+
+  void *getImpl(rx::TypeId typeId, void (*deleter)(void *),
+                rx::FunctionRef<void *()> constructor,
+                rx::FunctionRef<void(void *)> placementConstructor) {
+    auto [it, inserted] = mStorage.emplace(typeId, getNullPointer());
+
+    if (inserted) {
+      it->second.object =
+          std::unique_ptr<void, void (*)(void *)>(constructor(), deleter);
+    } else if (it->second.invalid) {
+      placementConstructor(it->second.object.get());
+      it->second.invalid = false;
+    }
+
+    return it->second.object.get();
+  }
+  static constexpr std::unique_ptr<void, void (*)(void *)> getNullPointer() {
+    return {nullptr, [](void *) {}};
+  }
+
+  struct Entry {
+    std::unique_ptr<void, void (*)(void *)> object;
+    bool invalid = false;
+  };
+
+  std::map<rx::TypeId, Entry> mStorage;
+};
+
+struct PostDomTree : graph::DomTree<ir::Value> {
+  PostDomTree() = default;
+  PostDomTree(graph::DomTree<ir::Value> &&other)
+      : graph::DomTree<ir::Value>::DomTree(std::move(other)) {}
+  PostDomTree(CFG &cfg, ir::Value root)
+      : PostDomTree(buildPostDomTree(cfg, root)) {}
+};
+
+struct DomTree : graph::DomTree<ir::Value> {
+  DomTree() = default;
+  DomTree(graph::DomTree<ir::Value> &&other)
+      : graph::DomTree<ir::Value>::DomTree(std::move(other)) {}
+  DomTree(CFG &cfg, ir::Value root = nullptr)
+      : DomTree(buildDomTree(cfg, root)) {}
+};
+
+template <typename T, std::size_t> struct Tag : T {
+  using T::T;
+  using T::operator=;
+
+  Tag(T &&other) : T(std::move(other)) {}
+  Tag(const T &other) : T(other) {}
+
+  Tag &operator=(T &&other) {
+    T::operator=(std::move(other));
+    return *this;
+  }
+  Tag &operator=(const T &other) {
+    T::operator=(other);
+    return *this;
+  }
+};
+
+struct Construct {
+  Construct *parent;
+  std::forward_list<Construct> children;
+  ir::Value header;
+  ir::Value merge;
+  ir::Value loopBody;
+  ir::Value loopContinue;
+  AnalysisStorage analysis;
+
+  static std::unique_ptr<Construct> createRoot(ir::RegionLike region,
+                                               ir::Value merge) {
+    auto result = std::make_unique<Construct>();
+    auto &cfg =
+        result->analysis.get<CFG>([&] { return buildCFG(region.getFirst()); });
+    result->header = cfg.getEntryLabel();
+    result->merge = merge;
+    return result;
+  }
+
+  Construct *createChild(ir::Value header, ir::Value merge) {
+    auto &result = children.emplace_front();
+    result.parent = this;
+    result.header = header;
+    result.merge = merge;
+    return &result;
+  }
+
+  Construct *createChild(ir::Value header, ir::Value merge,
+                         ir::Value loopContinue, ir::Value loopBody) {
+    auto &result = children.emplace_front();
+    result.parent = this;
+    result.header = header;
+    result.merge = merge;
+    result.loopContinue = loopContinue;
+    result.loopBody = loopBody;
+    return &result;
+  }
+
+  Construct createTemporaryChild(ir::Value header, ir::Value merge) {
+    Construct result;
+    result.parent = this;
+    result.header = header;
+    result.merge = merge;
+    return result;
+  }
+
+  CFG &getCfg() {
+    return analysis.get<CFG>([this] {
+      if (parent != nullptr) {
+        return parent->getCfg().buildView(
+            header,
+            &parent->getPostDomTree(),
+            {header, merge});
+      }
+
+      return buildCFG(header);
+    });
+  }
+
+  CFG &getCfgWithoutContinue() {
+    if (loopContinue == nullptr) {
+      return getCfg();
+    }
+
+    return analysis.get<Tag<CFG, kWithoutContinue>>([this] {
+      if (parent != nullptr) {
+        return parent->getCfg().buildView(
+            header,
+            &parent->getPostDomTree(),
+            {header, merge}, loopContinue);
+      }
+
+      return buildCFG(header, {}, loopContinue);
+    });
+  }
+
+  DomTree &getDomTree() { return analysis.get<DomTree>(getCfg(), header); }
+  PostDomTree &getPostDomTree() {
+    return analysis.get<PostDomTree>(getCfg(), merge);
+  }
+  BackEdgeStorage &getBackEdgeStorage() {
+    return analysis.get<BackEdgeStorage>(getCfg());
+  }
+  BackEdgeStorage &getBackEdgeWithoutContinueStorage() {
+    if (loopContinue == nullptr) {
+      return getBackEdgeStorage();
+    }
+    return analysis.get<Tag<BackEdgeStorage, kWithoutContinue>>(
+        getCfgWithoutContinue());
+  }
+  auto getBackEdges(ir::Value node) { return getBackEdgeStorage().get(node); }
+  auto getBackEdgesWithoutContinue(ir::Value node) {
+    return getBackEdgeWithoutContinueStorage().get(node);
+  }
+  auto getBackEdges() { return getBackEdges(header); }
+  void invalidate();
+  void invalidateAll();
+
+  bool isNull() const { return header == nullptr; }
+
+  void removeLastChild() { children.pop_front(); }
+
+private:
+  enum {
+    kWithoutContinue,
+  };
+};
+} // namespace shader
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect.hpp
new file mode 100644
index 00000000..4f678812
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect.hpp
@@ -0,0 +1,78 @@
+#pragma once
+
+#include "dialect/builtin.hpp" // IWYU pragma: export
+#include "dialect/ds.hpp"     // IWYU pragma: export
+#include "dialect/exp.hpp"    // IWYU pragma: export
+#include "dialect/memssa.hpp" // IWYU pragma: export
+#include "dialect/mimg.hpp"   // IWYU pragma: export
+#include "dialect/mtbuf.hpp"  // IWYU pragma: export
+#include "dialect/mubuf.hpp"  // IWYU pragma: export
+#include "dialect/smrd.hpp"   // IWYU pragma: export
+#include "dialect/sop1.hpp"   // IWYU pragma: export
+#include "dialect/sop2.hpp"   // IWYU pragma: export
+#include "dialect/sopc.hpp"   // IWYU pragma: export
+#include "dialect/sopk.hpp"   // IWYU pragma: export
+#include "dialect/sopp.hpp"   // IWYU pragma: export
+#include "dialect/vintrp.hpp" // IWYU pragma: export
+#include "dialect/vop1.hpp"   // IWYU pragma: export
+#include "dialect/vop2.hpp"   // IWYU pragma: export
+#include "dialect/vop3.hpp"   // IWYU pragma: export
+#include "dialect/vopc.hpp"   // IWYU pragma: export
+
+#include "dialect/spv.hpp" // IWYU pragma: export
+
+#include "dialect/amdgpu.hpp"  // IWYU pragma: export
+#include <concepts>
+
+namespace shader::ir {
+template <> inline constexpr Kind kOpToKind<spv::Op> = Kind::Spv;
+template <> inline constexpr Kind kOpToKind<builtin::Op> = Kind::Builtin;
+template <> inline constexpr Kind kOpToKind<amdgpu::Op> = Kind::AmdGpu;
+template <> inline constexpr Kind kOpToKind<vop2::Op> = Kind::Vop2;
+template <> inline constexpr Kind kOpToKind<sop2::Op> = Kind::Sop2;
+template <> inline constexpr Kind kOpToKind<sopk::Op> = Kind::Sopk;
+template <> inline constexpr Kind kOpToKind<smrd::Op> = Kind::Smrd;
+template <> inline constexpr Kind kOpToKind<vop3::Op> = Kind::Vop3;
+template <> inline constexpr Kind kOpToKind<mubuf::Op> = Kind::Mubuf;
+template <> inline constexpr Kind kOpToKind<mtbuf::Op> = Kind::Mtbuf;
+template <> inline constexpr Kind kOpToKind<mimg::Op> = Kind::Mimg;
+template <> inline constexpr Kind kOpToKind<ds::Op> = Kind::Ds;
+template <> inline constexpr Kind kOpToKind<vintrp::Op> = Kind::Vintrp;
+template <> inline constexpr Kind kOpToKind<exp::Op> = Kind::Exp;
+template <> inline constexpr Kind kOpToKind<vop1::Op> = Kind::Vop1;
+template <> inline constexpr Kind kOpToKind<vopc::Op> = Kind::Vopc;
+template <> inline constexpr Kind kOpToKind<sop1::Op> = Kind::Sop1;
+template <> inline constexpr Kind kOpToKind<sopc::Op> = Kind::Sopc;
+template <> inline constexpr Kind kOpToKind<sopp::Op> = Kind::Sopp;
+template <> inline constexpr Kind kOpToKind<memssa::Op> = Kind::MemSSA;
+
+template <typename T>
+  requires(kOpToKind<std::remove_cvref_t<T>> != Kind::Count)
+constexpr InstructionId getInstructionId(T op) {
+  return getInstructionId(kOpToKind<std::remove_cvref_t<T>>, op);
+}
+
+constexpr bool operator==(ir::Instruction lhs, InstructionId rhs) {
+  return lhs && lhs.getInstId() == rhs;
+}
+
+template <typename L, typename R>
+constexpr bool operator==(L lhs, R rhs)
+  requires requires {
+    requires(!std::is_same_v<L, R>);
+    { getInstructionId(lhs) == rhs } -> std::convertible_to<bool>;
+  }
+{
+  return getInstructionId(lhs) == rhs;
+}
+
+template <typename L, typename R>
+constexpr bool operator==(L lhs, R rhs)
+  requires requires {
+    requires(!std::is_same_v<L, R>);
+    { getTypeId(lhs) == rhs } -> std::convertible_to<bool>;
+  }
+{
+  return getTypeId(lhs) == rhs;
+}
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/amdgpu.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/amdgpu.hpp
new file mode 100644
index 00000000..468be5ca
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/amdgpu.hpp
@@ -0,0 +1,57 @@
+#pragma once
+
+namespace shader::ir::amdgpu {
+
+enum Op {
+  EXEC_TEST,
+  BRANCH,
+  IMM,
+  USER_SGPR,
+  VBUFFER,
+  SAMPLER,
+  TBUFFER,
+  POINTER,
+  OMOD,
+  NEG_ABS,
+  PS_INPUT_VGPR,
+  PS_COMP_SWAP,
+  VS_GET_INDEX,
+  RESOURCE_PHI,
+
+  OpCount,
+};
+
+inline const char *getInstructionName(unsigned op) {
+  switch (op) {
+  case EXEC_TEST:
+    return "exec_test";
+  case BRANCH:
+    return "branch";
+  case IMM:
+    return "imm";
+  case USER_SGPR:
+    return "user_sgpr";
+  case VBUFFER:
+    return "vbuffer";
+  case SAMPLER:
+    return "sampler";
+  case TBUFFER:
+    return "tbuffer";
+  case POINTER:
+    return "pointer";
+  case OMOD:
+    return "omod";
+  case NEG_ABS:
+    return "neg_abs";
+  case PS_INPUT_VGPR:
+    return "ps_input_vgpr";
+  case PS_COMP_SWAP:
+    return "ps_comp_swap";
+  case VS_GET_INDEX:
+    return "vs_get_index";
+  case RESOURCE_PHI:
+    return "resource_phi";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::amdgpu
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/builtin.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/builtin.hpp
new file mode 100644
index 00000000..ac965896
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/builtin.hpp
@@ -0,0 +1,193 @@
+#pragma once
+#include "../ir/Block.hpp"
+#include "../ir/Builder.hpp"
+#include "../ir/Value.hpp"
+
+namespace shader::ir {
+template <typename T> inline constexpr Kind kOpToKind = Kind::Count;
+}
+
+namespace shader::ir::builtin {
+enum Op {
+  INVALID_INSTRUCTION,
+  BLOCK,
+  IF_ELSE,
+  LOOP,
+};
+
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case INVALID_INSTRUCTION:
+    return "<invalid instruction>";
+
+  case BLOCK:
+    return "block";
+
+  case IF_ELSE:
+    return "ifElse";
+
+  case LOOP:
+    return "loop";
+  }
+  return nullptr;
+}
+
+template <typename ImplT>
+struct Builder : BuilderFacade<Builder<ImplT>, ImplT> {
+  /**
+   * Creates an invalid instruction with the given location.
+   *
+   * @param location the location of the instruction
+   *
+   * @return the created invalid instruction
+   */
+  Instruction createInvalidInstruction(Location location) {
+    return this->template create<Instruction>(location, Kind::Builtin,
+                                              INVALID_INSTRUCTION);
+  }
+
+  Instruction createIfElse(Location location, Value cond, Block ifTrue,
+                           Block ifFalse = {}) {
+    std::vector<Operand> operands = {{cond, ifTrue}};
+    if (ifFalse) {
+      operands.push_back(ifFalse);
+    }
+    return this->template create<Instruction>(location, Kind::Builtin, IF_ELSE,
+                                              operands);
+  }
+
+  Instruction createLoop(Location location, Block body) {
+    return this->template create<Instruction>(location, Kind::Builtin, IF_ELSE,
+                                              {{body}});
+  }
+
+  auto createBlock(Location location) {
+    return this->template create<Block>(location);
+  }
+
+  auto createRegion(Location location) {
+    return this->getContext().template create<Region>(location);
+  }
+
+  /**
+   * Creates an instruction with the given location, kind, op, and operands.
+   *
+   * @param location the location of the instruction
+   * @param kind the kind of the instruction
+   * @param op the opcode of the instruction
+   * @param operands the operands of the instruction
+   *
+   * @return the created instruction
+   */
+  Instruction createInstruction(Location location, Kind kind, unsigned op,
+                                std::span<const Operand> operands = {}) {
+    return this->template create<Instruction>(location, kind, op, operands);
+  }
+
+  template <typename OpT>
+  Instruction createInstruction(Location location, OpT &&op,
+                                std::span<const Operand> operands = {})
+    requires requires {
+      this->template create<Instruction>(
+          location, kOpToKind<std::remove_cvref_t<OpT>>, op, operands);
+    }
+  {
+    return this->template create<Instruction>(
+        location, kOpToKind<std::remove_cvref_t<OpT>>, op, operands);
+  }
+
+  /**
+   * Creates an Instruction object with the given location, kind, opcode, and
+   * operands.
+   *
+   * @param location the location of the instruction
+   * @param kind the kind of the instruction
+   * @param op the opcode of the instruction
+   * @param operands variadic parameter pack of operands for the instruction
+   *
+   * @return the created Instruction object
+   */
+  template <typename... T>
+  Instruction createInstruction(Location location, Kind kind, unsigned op,
+                                T &&...operands)
+    requires requires {
+      createInstruction(location, kind, op,
+                        {{Operand(std::forward<T>(operands))...}});
+    }
+  {
+    return createInstruction(location, kind, op,
+                             {{Operand(std::forward<T>(operands))...}});
+  }
+
+  template <typename OpT, typename... T>
+  Instruction createInstruction(Location location, OpT &&op, T &&...operands)
+    requires requires {
+      createInstruction(location, std::forward<OpT>(op),
+                        {{Operand(std::forward<T>(operands))...}});
+    }
+  {
+    return createInstruction(location, std::forward<OpT>(op),
+                             {{Operand(std::forward<T>(operands))...}});
+  }
+
+  /**
+   * Creates a Value object with the given location, kind, opcode, and operands.
+   *
+   * @param location the location of the Value object
+   * @param kind the kind of the Value object
+   * @param op the opcode of the Value object
+   * @param operands a span of operands for the Value object
+   *
+   * @return the created Value object
+   */
+  auto createValue(Location location, Kind kind, unsigned op,
+                   std::span<const Operand> operands = {}) {
+    return this->template create<Value>(location, kind, op, operands);
+  }
+
+  template <typename OpT>
+  auto createValue(Location location, OpT &&op,
+                   std::span<const Operand> operands = {})
+    requires requires {
+      this->template create<Value>(
+          location, kOpToKind<std::remove_cvref_t<OpT>>, op, operands);
+    }
+  {
+    return this->template create<Value>(
+        location, kOpToKind<std::remove_cvref_t<OpT>>, op, operands);
+  }
+
+  /**
+   * Creates a Value object with the given location, kind, opcode, and operands.
+   *
+   * @param location the location of the Value object
+   * @param kind the kind of the Value object
+   * @param op the opcode of the Value object
+   * @param operands variadic parameter pack of operands for the Value object
+   *
+   * @return the created Value object
+   */
+  template <typename... T>
+  auto createValue(Location location, Kind kind, unsigned op, T &&...operands)
+    requires requires {
+      createValue(location, kind, op,
+                  {{Operand(std::forward<T>(operands))...}});
+    }
+  {
+    return createValue(location, kind, op,
+                       {{Operand(std::forward<T>(operands))...}});
+  }
+
+  template <typename OpT, typename... T>
+    requires requires { kOpToKind<std::remove_cvref_t<OpT>>; }
+  auto createValue(Location location, OpT &&op, T &&...operands)
+    requires requires {
+      createValue(location, std::forward<OpT>(op),
+                  {{Operand(std::forward<T>(operands))...}});
+    }
+  {
+    return createValue(location, std::forward<OpT>(op),
+                       {{Operand(std::forward<T>(operands))...}});
+  }
+};
+} // namespace shader::ir::builtin
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/ds.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/ds.hpp
new file mode 100644
index 00000000..0c166c10
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/ds.hpp
@@ -0,0 +1,294 @@
+#pragma once
+
+namespace shader::ir::ds {
+enum Op {
+  ADD_U32,
+  SUB_U32,
+  RSUB_U32,
+  INC_U32,
+  DEC_U32,
+  MIN_I32,
+  MAX_I32,
+  MIN_U32,
+  MAX_U32,
+  AND_B32,
+  OR_B32,
+  XOR_B32,
+  MSKOR_B32,
+  WRITE_B32,
+  WRITE2_B32,
+  WRITE2ST64_B32,
+  CMPST_B32,
+  CMPST_F32,
+  MIN_F32,
+  MAX_F32,
+  NOP,
+  GWS_SEMA_RELEASE_ALL = 24,
+  GWS_INIT,
+  GWS_SEMA_V,
+  GWS_SEMA_BR,
+  GWS_SEMA_P,
+  GWS_BARRIER,
+  WRITE_B8,
+  WRITE_B16,
+  ADD_RTN_U32,
+  SUB_RTN_U32,
+  RSUB_RTN_U32,
+  INC_RTN_U32,
+  DEC_RTN_U32,
+  MIN_RTN_I32,
+  MAX_RTN_I32,
+  MIN_RTN_U32,
+  MAX_RTN_U32,
+  AND_RTN_B32,
+  OR_RTN_B32,
+  XOR_RTN_B32,
+  MSKOR_RTN_B32,
+  WRXCHG_RTN_B32,
+  WRXCHG2_RTN_B32,
+  WRXCHG2ST64_RTN_B32,
+  CMPST_RTN_B32,
+  CMPST_RTN_F32,
+  MIN_RTN_F32,
+  MAX_RTN_F32,
+  WRAP_RTN_B32,
+  SWIZZLE_B32,
+  READ_B32,
+  READ2_B32,
+  READ2ST64_B32,
+  READ_I8,
+  READ_U8,
+  READ_I16,
+  READ_U16,
+  CONSUME,
+  APPEND,
+  ORDERED_COUNT,
+  ADD_U64,
+  SUB_U64,
+  RSUB_U64,
+  INC_U64,
+  DEC_U64,
+  MIN_I64,
+  MAX_I64,
+  MIN_U64,
+  MAX_U64,
+  AND_B64,
+  OR_B64,
+  XOR_B64,
+  MSKOR_B64,
+  WRITE_B64,
+  WRITE2_B64,
+  WRITE2ST64_B64,
+  CMPST_B64,
+  CMPST_F64,
+  MIN_F64,
+  MAX_F64,
+  ADD_RTN_U64 = 96,
+  SUB_RTN_U64,
+  RSUB_RTN_U64,
+  INC_RTN_U64,
+  DEC_RTN_U64,
+  MIN_RTN_I64,
+  MAX_RTN_I64,
+  MIN_RTN_U64,
+  MAX_RTN_U64,
+  AND_RTN_B64,
+  OR_RTN_B64,
+  XOR_RTN_B64,
+  MSKOR_RTN_B64,
+  WRXCHG_RTN_B64,
+  WRXCHG2_RTN_B64,
+  WRXCHG2ST64_RTN_B64,
+  CMPST_RTN_B64,
+  CMPST_RTN_F64,
+  MIN_RTN_F64,
+  MAX_RTN_F64,
+  READ_B64 = 118,
+  READ2_B64,
+  READ2ST64_B64,
+  CONDXCHG32_RTN_B64 = 126,
+  ADD_SRC2_U32 = 128,
+  SUB_SRC2_U32,
+  RSUB_SRC2_U32,
+  INC_SRC2_U32,
+  DEC_SRC2_U32,
+  MIN_SRC2_I32,
+  MAX_SRC2_I32,
+  MIN_SRC2_U32,
+  MAX_SRC2_U32,
+  AND_SRC2_B32,
+  OR_SRC2_B32,
+  XOR_SRC2_B32,
+  WRITE_SRC2_B32,
+  MIN_SRC2_F32 = 146,
+  MAX_SRC2_F32,
+  ADD_SRC2_U64 = 192,
+  SUB_SRC2_U64,
+  RSUB_SRC2_U64,
+  INC_SRC2_U64,
+  DEC_SRC2_U64,
+  MIN_SRC2_I64,
+  MAX_SRC2_I64,
+  MIN_SRC2_U64,
+  MAX_SRC2_U64,
+  AND_SRC2_B64,
+  OR_SRC2_B64,
+  XOR_SRC2_B64,
+  WRITE_SRC2_B64,
+  MIN_SRC2_F64 = 210,
+  MAX_SRC2_F64,
+  WRITE_B96 = 222,
+  WRITE_B128,
+  CONDXCHG32_RTN_B128 = 253,
+  READ_B96,
+  READ_B128,
+
+  OpCount
+};
+
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case ADD_U32: return "ds_add_u32";
+  case SUB_U32: return "ds_sub_u32";
+  case RSUB_U32: return "ds_rsub_u32";
+  case INC_U32: return "ds_inc_u32";
+  case DEC_U32: return "ds_dec_u32";
+  case MIN_I32: return "ds_min_i32";
+  case MAX_I32: return "ds_max_i32";
+  case MIN_U32: return "ds_min_u32";
+  case MAX_U32: return "ds_max_u32";
+  case AND_B32: return "ds_and_b32";
+  case OR_B32: return "ds_or_b32";
+  case XOR_B32: return "ds_xor_b32";
+  case MSKOR_B32: return "ds_mskor_b32";
+  case WRITE_B32: return "ds_write_b32";
+  case WRITE2_B32: return "ds_write2_b32";
+  case WRITE2ST64_B32: return "ds_write2st64_b32";
+  case CMPST_B32: return "ds_cmpst_b32";
+  case CMPST_F32: return "ds_cmpst_f32";
+  case MIN_F32: return "ds_min_f32";
+  case MAX_F32: return "ds_max_f32";
+  case NOP: return "ds_nop";
+  case GWS_SEMA_RELEASE_ALL: return "ds_gws_sema_release_all";
+  case GWS_INIT: return "ds_gws_init";
+  case GWS_SEMA_V: return "ds_gws_sema_v";
+  case GWS_SEMA_BR: return "ds_gws_sema_br";
+  case GWS_SEMA_P: return "ds_gws_sema_p";
+  case GWS_BARRIER: return "ds_gws_barrier";
+  case WRITE_B8: return "ds_write_b8";
+  case WRITE_B16: return "ds_write_b16";
+  case ADD_RTN_U32: return "ds_add_rtn_u32";
+  case SUB_RTN_U32: return "ds_sub_rtn_u32";
+  case RSUB_RTN_U32: return "ds_rsub_rtn_u32";
+  case INC_RTN_U32: return "ds_inc_rtn_u32";
+  case DEC_RTN_U32: return "ds_dec_rtn_u32";
+  case MIN_RTN_I32: return "ds_min_rtn_i32";
+  case MAX_RTN_I32: return "ds_max_rtn_i32";
+  case MIN_RTN_U32: return "ds_min_rtn_u32";
+  case MAX_RTN_U32: return "ds_max_rtn_u32";
+  case AND_RTN_B32: return "ds_and_rtn_b32";
+  case OR_RTN_B32: return "ds_or_rtn_b32";
+  case XOR_RTN_B32: return "ds_xor_rtn_b32";
+  case MSKOR_RTN_B32: return "ds_mskor_rtn_b32";
+  case WRXCHG_RTN_B32: return "ds_wrxchg_rtn_b32";
+  case WRXCHG2_RTN_B32: return "ds_wrxchg2_rtn_b32";
+  case WRXCHG2ST64_RTN_B32: return "ds_wrxchg2st64_rtn_b32";
+  case CMPST_RTN_B32: return "ds_cmpst_rtn_b32";
+  case CMPST_RTN_F32: return "ds_cmpst_rtn_f32";
+  case MIN_RTN_F32: return "ds_min_rtn_f32";
+  case MAX_RTN_F32: return "ds_max_rtn_f32";
+  case WRAP_RTN_B32: return "ds_wrap_rtn_b32";
+  case SWIZZLE_B32: return "ds_swizzle_b32";
+  case READ_B32: return "ds_read_b32";
+  case READ2_B32: return "ds_read2_b32";
+  case READ2ST64_B32: return "ds_read2st64_b32";
+  case READ_I8: return "ds_read_i8";
+  case READ_U8: return "ds_read_u8";
+  case READ_I16: return "ds_read_i16";
+  case READ_U16: return "ds_read_u16";
+  case CONSUME: return "ds_consume";
+  case APPEND: return "ds_append";
+  case ORDERED_COUNT: return "ds_ordered_count";
+  case ADD_U64: return "ds_add_u64";
+  case SUB_U64: return "ds_sub_u64";
+  case RSUB_U64: return "ds_rsub_u64";
+  case INC_U64: return "ds_inc_u64";
+  case DEC_U64: return "ds_dec_u64";
+  case MIN_I64: return "ds_min_i64";
+  case MAX_I64: return "ds_max_i64";
+  case MIN_U64: return "ds_min_u64";
+  case MAX_U64: return "ds_max_u64";
+  case AND_B64: return "ds_and_b64";
+  case OR_B64: return "ds_or_b64";
+  case XOR_B64: return "ds_xor_b64";
+  case MSKOR_B64: return "ds_mskor_b64";
+  case WRITE_B64: return "ds_write_b64";
+  case WRITE2_B64: return "ds_write2_b64";
+  case WRITE2ST64_B64: return "ds_write2st64_b64";
+  case CMPST_B64: return "ds_cmpst_b64";
+  case CMPST_F64: return "ds_cmpst_f64";
+  case MIN_F64: return "ds_min_f64";
+  case MAX_F64: return "ds_max_f64";
+  case ADD_RTN_U64: return "ds_add_rtn_u64";
+  case SUB_RTN_U64: return "ds_sub_rtn_u64";
+  case RSUB_RTN_U64: return "ds_rsub_rtn_u64";
+  case INC_RTN_U64: return "ds_inc_rtn_u64";
+  case DEC_RTN_U64: return "ds_dec_rtn_u64";
+  case MIN_RTN_I64: return "ds_min_rtn_i64";
+  case MAX_RTN_I64: return "ds_max_rtn_i64";
+  case MIN_RTN_U64: return "ds_min_rtn_u64";
+  case MAX_RTN_U64: return "ds_max_rtn_u64";
+  case AND_RTN_B64: return "ds_and_rtn_b64";
+  case OR_RTN_B64: return "ds_or_rtn_b64";
+  case XOR_RTN_B64: return "ds_xor_rtn_b64";
+  case MSKOR_RTN_B64: return "ds_mskor_rtn_b64";
+  case WRXCHG_RTN_B64: return "ds_wrxchg_rtn_b64";
+  case WRXCHG2_RTN_B64: return "ds_wrxchg2_rtn_b64";
+  case WRXCHG2ST64_RTN_B64: return "ds_wrxchg2st64_rtn_b64";
+  case CMPST_RTN_B64: return "ds_cmpst_rtn_b64";
+  case CMPST_RTN_F64: return "ds_cmpst_rtn_f64";
+  case MIN_RTN_F64: return "ds_min_rtn_f64";
+  case MAX_RTN_F64: return "ds_max_rtn_f64";
+  case READ_B64: return "ds_read_b64";
+  case READ2_B64: return "ds_read2_b64";
+  case READ2ST64_B64: return "ds_read2st64_b64";
+  case CONDXCHG32_RTN_B64: return "ds_condxchg32_rtn_b64";
+  case ADD_SRC2_U32: return "ds_add_src2_u32";
+  case SUB_SRC2_U32: return "ds_sub_src2_u32";
+  case RSUB_SRC2_U32: return "ds_rsub_src2_u32";
+  case INC_SRC2_U32: return "ds_inc_src2_u32";
+  case DEC_SRC2_U32: return "ds_dec_src2_u32";
+  case MIN_SRC2_I32: return "ds_min_src2_i32";
+  case MAX_SRC2_I32: return "ds_max_src2_i32";
+  case MIN_SRC2_U32: return "ds_min_src2_u32";
+  case MAX_SRC2_U32: return "ds_max_src2_u32";
+  case AND_SRC2_B32: return "ds_and_src2_b32";
+  case OR_SRC2_B32: return "ds_or_src2_b32";
+  case XOR_SRC2_B32: return "ds_xor_src2_b32";
+  case WRITE_SRC2_B32: return "ds_write_src2_b32";
+  case MIN_SRC2_F32: return "ds_min_src2_f32";
+  case MAX_SRC2_F32: return "ds_max_src2_f32";
+  case ADD_SRC2_U64: return "ds_add_src2_u64";
+  case SUB_SRC2_U64: return "ds_sub_src2_u64";
+  case RSUB_SRC2_U64: return "ds_rsub_src2_u64";
+  case INC_SRC2_U64: return "ds_inc_src2_u64";
+  case DEC_SRC2_U64: return "ds_dec_src2_u64";
+  case MIN_SRC2_I64: return "ds_min_src2_i64";
+  case MAX_SRC2_I64: return "ds_max_src2_i64";
+  case MIN_SRC2_U64: return "ds_min_src2_u64";
+  case MAX_SRC2_U64: return "ds_max_src2_u64";
+  case AND_SRC2_B64: return "ds_and_src2_b64";
+  case OR_SRC2_B64: return "ds_or_src2_b64";
+  case XOR_SRC2_B64: return "ds_xor_src2_b64";
+  case WRITE_SRC2_B64: return "ds_write_src2_b64";
+  case MIN_SRC2_F64: return "ds_min_src2_f64";
+  case MAX_SRC2_F64: return "ds_max_src2_f64";
+  case WRITE_B96: return "ds_write_b96";
+  case WRITE_B128: return "ds_write_b128";
+  case CONDXCHG32_RTN_B128: return "ds_condxchg32_rtn_b128";
+  case READ_B96: return "ds_read_b96";
+  case READ_B128: return "ds_read_b128";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::ds
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/exp.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/exp.hpp
new file mode 100644
index 00000000..f704031a
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/exp.hpp
@@ -0,0 +1,11 @@
+#pragma once
+
+namespace shader::ir::exp {
+enum Op {
+  EXP = 0,
+
+  OpCount
+};
+
+inline const char *getInstructionName(unsigned) { return "exp"; }
+} // namespace shader::ir::exp
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/memssa.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/memssa.hpp
new file mode 100644
index 00000000..293d9c0a
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/memssa.hpp
@@ -0,0 +1,423 @@
+#pragma once
+
+#include "../ir/Block.hpp"
+#include "../ir/Builder.hpp"
+#include "../ir/Value.hpp"
+#include "../ir/ValueImpl.hpp"
+
+namespace shader::ir::memssa {
+enum Op {
+  OpVar,
+  OpDef,
+  OpPhi,
+  OpUse,
+  OpBarrier,
+  OpJump,
+  OpExit,
+
+  OpCount,
+};
+
+template <typename BaseT> struct BaseImpl : BaseT {
+  Instruction link;
+
+  using BaseT::BaseT;
+  using BaseT::operator=;
+
+  void print(std::ostream &os, NameStorage &ns) const override {
+    BaseT::print(os, ns);
+
+    if (link) {
+      os << " : ";
+      link.print(os, ns);
+    }
+  }
+};
+
+template <typename ImplT, template <typename> typename BaseT>
+struct BaseWrapper : BaseT<ImplT> {
+  using BaseT<ImplT>::BaseT;
+  using BaseT<ImplT>::operator=;
+
+  Instruction getLinkedInst() const { return this->impl->link; }
+};
+
+struct DefImpl : BaseImpl<ValueImpl> {
+  using BaseImpl::BaseImpl;
+  using BaseImpl::operator=;
+
+  Node clone(Context &context, CloneMap &map) const override;
+};
+struct UseImpl : BaseImpl<InstructionImpl> {
+  using BaseImpl::BaseImpl;
+  using BaseImpl::operator=;
+
+  Node clone(Context &context, CloneMap &map) const override;
+};
+struct VarImpl : BaseImpl<ValueImpl> {
+  using BaseImpl::BaseImpl;
+  using BaseImpl::operator=;
+
+  Node clone(Context &context, CloneMap &map) const override;
+};
+struct PhiImpl : DefImpl {
+  using DefImpl::DefImpl;
+  using DefImpl::operator=;
+
+  Node clone(Context &context, CloneMap &map) const override;
+};
+
+using Use = BaseWrapper<UseImpl, InstructionWrapper>;
+using Var = BaseWrapper<VarImpl, ValueWrapper>;
+
+template <typename ImplT> struct DefWrapper : BaseWrapper<ImplT, ValueWrapper> {
+  using BaseWrapper<ImplT, ValueWrapper>::BaseWrapper;
+  using BaseWrapper<ImplT, ValueWrapper>::operator=;
+
+  void addVariable(Var variable) {
+    this->addOperand(variable);
+
+    std::vector<Var> workList;
+
+    for (auto &comp : variable.getOperands()) {
+      auto compVar = comp.getAsValue().staticCast<Var>();
+      this->addOperand(compVar);
+
+      if (compVar.getOperandCount() > 1) {
+        workList.push_back(compVar);
+      } else if (compVar.getOperandCount() == 1) {
+        this->addOperand(compVar.getOperand(0).getAsValue().staticCast<Var>());
+      }
+    }
+
+    while (!workList.empty()) {
+      auto var = workList.back();
+      workList.pop_back();
+
+      for (auto &comp : var.getOperands()) {
+        auto compVar = comp.getAsValue().staticCast<Var>();
+        this->addOperand(compVar);
+
+        if (compVar.getOperandCount() > 1) {
+          workList.push_back(var);
+        } else if (compVar.getOperandCount() == 1) {
+          this->addOperand(
+              compVar.getOperand(0).getAsValue().staticCast<Var>());
+        }
+      }
+    }
+  }
+
+  Var getRootVar() {
+    return this->getOperand(0).getAsValue().template staticCast<Var>();
+  }
+
+  Var getVar(std::size_t index) {
+    return this->getOperand(index).getAsValue().template staticCast<Var>();
+  }
+};
+
+struct ScopeImpl : BaseImpl<ir::BlockImpl> {
+  using BaseImpl::BaseImpl;
+  using BaseImpl::operator=;
+
+  Node clone(Context &context, CloneMap &map) const override;
+};
+
+template <typename ImplT> struct ScopeWrapper;
+
+using Scope = ScopeWrapper<ScopeImpl>;
+using Def = DefWrapper<DefImpl>;
+
+template <typename ImplT> struct BarrierWrapper : DefWrapper<ImplT> {
+  using DefWrapper<ImplT>::DefWrapper;
+  using DefWrapper<ImplT>::operator=;
+};
+
+using Barrier = BarrierWrapper<PhiImpl>;
+
+template <typename ImplT>
+struct ScopeWrapper : BaseWrapper<ImplT, ir::BlockWrapper> {
+  using BaseWrapper<ImplT, ir::BlockWrapper>::BaseWrapper;
+  using BaseWrapper<ImplT, ir::BlockWrapper>::operator=;
+
+  Scope getSingleSuccessor() {
+    if (this->empty()) {
+      return {};
+    }
+    auto terminator = this->getLast();
+    if (terminator.getKind() != Kind::MemSSA || terminator.getOp() != OpJump) {
+      return {};
+    }
+    if (terminator.getOperandCount() != 1) {
+      return {};
+    }
+
+    return terminator.getOperand(0).getAsValue().template cast<Scope>();
+  }
+
+  std::vector<Scope> getSuccessors() {
+    if (this->empty()) {
+      return {};
+    }
+    auto terminator = this->getLast();
+    if (terminator.getKind() != Kind::MemSSA || terminator.getOp() != OpJump) {
+      return {};
+    }
+
+    std::vector<Scope> result;
+    result.reserve(terminator.getOperandCount());
+    for (auto &successor : terminator.getOperands()) {
+      if (auto block = successor.getAsValue().template cast<Scope>()) {
+        result.push_back(block);
+      }
+    }
+    return result;
+  }
+
+  auto getPredecessors() {
+    std::set<Scope> predecessors;
+    for (auto &use : this->getUseList()) {
+      if (use.user != OpJump) {
+        continue;
+      }
+
+      if (auto userParent = use.user.getParent().template cast<Scope>()) {
+        predecessors.insert(userParent);
+      }
+    }
+    return predecessors;
+  }
+
+  auto getSinglePredecessor() {
+    Scope predecessor;
+
+    for (auto &use : this->getUseList()) {
+      if (use.user != OpJump) {
+        continue;
+      }
+
+      if (auto userParent = use.user.getParent().template cast<Scope>()) {
+        if (predecessor == nullptr) {
+          predecessor = userParent;
+        } else if (predecessor != userParent) {
+          return Scope(nullptr);
+        }
+      }
+    }
+
+    return predecessor;
+  }
+
+  Def findVarDef(Var var, Instruction point = nullptr) {
+    if (point == nullptr) {
+      point = this->getLast();
+    }
+
+    std::optional<std::set<Var>> compList;
+
+    auto buildMatchList = [&] {
+      std::set<Var> result;
+      std::vector<Var> workList;
+
+      for (auto comp : var.getOperands()) {
+        auto compVar = comp.getAsValue().staticCast<Var>();
+        result.insert(compVar);
+
+        if (compVar.getOperandCount() > 1) {
+          workList.push_back(compVar);
+        } else if (compVar.getOperandCount() == 1) {
+          result.insert(compVar.getOperand(0).getAsValue().staticCast<Var>());
+        }
+      }
+
+      while (!workList.empty()) {
+        auto var = workList.back();
+        workList.pop_back();
+
+        for (auto comp : var.getOperands()) {
+          auto compVar = comp.getAsValue().staticCast<Var>();
+          result.insert(compVar);
+
+          if (compVar.getOperandCount() > 1) {
+            workList.push_back(compVar);
+          } else if (compVar.getOperandCount() == 1) {
+            result.insert(compVar.getOperand(0).getAsValue().staticCast<Var>());
+          }
+        }
+      }
+
+      return result;
+    };
+
+    for (auto child : revRange(point)) {
+      if (child.getKind() != Kind::MemSSA) {
+        continue;
+      }
+
+      if (child.getOp() == OpDef || child.getOp() == OpPhi) {
+        if (child.getOperand(0) == var) {
+          return child.template staticCast<Def>();
+        }
+
+        if (!compList) {
+          compList = buildMatchList();
+        }
+
+        if (compList->empty()) {
+          continue;
+        }
+
+        if (compList->contains(
+                child.getOperand(0).getAsValue().staticCast<Var>())) {
+          return child.template staticCast<Def>();
+        }
+      }
+
+      if (child.getOp() == OpBarrier) {
+        // barrier is definition for everything
+        return child.template staticCast<Def>();
+      }
+    }
+
+    return {};
+  }
+};
+
+template <typename ImplT> struct PhiWrapper : ValueWrapper<ImplT> {
+  using ValueWrapper<ImplT>::ValueWrapper;
+  using ValueWrapper<ImplT>::operator=;
+
+  void addValue(Scope scope, Def def) {
+    this->addOperand(scope);
+    this->addOperand(def);
+  }
+
+  // Set value for specified block or add new node
+  // Returns true if node was added
+  bool setValue(Scope pred, Def def) {
+    for (std::size_t i = 1, end = this->getOperandCount(); i < end; i += 2) {
+      if (pred == this->getOperand(i).getAsValue()) {
+        this->replaceOperand(i + 1, def);
+        return false;
+      }
+    }
+
+    addValue(pred, def);
+    return true;
+  }
+
+  Def getDef(Scope pred) {
+    for (std::size_t i = 1, end = this->getOperandCount(); i < end; i += 2) {
+      if (pred == this->getOperand(i).getAsValue()) {
+        return this->getOperand(i + 1).getAsValue().template staticCast<Def>();
+      }
+    }
+
+    return {};
+  }
+
+  bool empty() { return this->getOperandCount() < 2; }
+
+  Def getUniqDef() {
+    if (empty()) {
+      return {};
+    }
+
+    Def result = this->getOperand(2).getAsValue().template staticCast<Def>();
+
+    for (std::size_t i = 4, end = this->getOperandCount(); i < end; i += 2) {
+      if (this->getOperand(i) != result) {
+        return {};
+      }
+    }
+
+    return result;
+  }
+
+  Var getVar() {
+    return this->getOperand(0).getAsValue().template staticCast<Var>();
+  }
+};
+
+using Phi = PhiWrapper<PhiImpl>;
+
+template <typename ImplT>
+struct Builder : BuilderFacade<Builder<ImplT>, ImplT> {
+  Def createDef(Instruction defInst, Var var) {
+    auto result =
+        this->template create<Def>(defInst.getLocation(), Kind::MemSSA, OpDef);
+    result.impl->link = defInst;
+    result.addOperand(var);
+    return result;
+  }
+
+  Scope createScope(ir::Instruction labelInst) {
+    Scope result = this->template create<Scope>(labelInst.getLocation());
+    result.impl->link = labelInst;
+    return result;
+  }
+
+  Phi createPhi(Var var) {
+    auto result =
+        this->template create<Phi>(var.getLocation(), Kind::MemSSA, OpPhi);
+    result.addOperand(var);
+    return result;
+  }
+
+  Use createUse(ir::Instruction useInst) {
+    Use result =
+        this->template create<Use>(useInst.getLocation(), Kind::MemSSA, OpUse);
+    result.impl->link = useInst;
+    return result;
+  }
+
+  Use createUse(ir::Instruction useInst, Def def) {
+    auto result = createUse(useInst);
+    result.addOperand(def);
+    return result;
+  }
+
+  Var createVar(ir::Instruction varInst) {
+    Var result =
+        this->template create<Var>(varInst.getLocation(), Kind::MemSSA, OpVar);
+    result.impl->link = varInst;
+    return result;
+  }
+
+  Barrier createBarrier(ir::Instruction barrierInst) {
+    Barrier result = this->template create<Barrier>(barrierInst.getLocation(),
+                                                    Kind::MemSSA, OpBarrier);
+    result.impl->link = barrierInst;
+    return result;
+  }
+
+  Instruction createJump(Location loc) {
+    return this->template create<Instruction>(loc, Kind::MemSSA, OpJump);
+  }
+
+  Instruction createExit(Location loc) {
+    return this->template create<Instruction>(loc, Kind::MemSSA, OpExit);
+  }
+};
+
+inline const char *getInstructionName(unsigned op) {
+  switch (op) {
+  case OpVar:
+    return "var";
+  case OpDef:
+    return "def";
+  case OpPhi:
+    return "phi";
+  case OpUse:
+    return "use";
+  case OpBarrier:
+    return "barrier";
+  case OpJump:
+    return "jump";
+  case OpExit:
+    return "exit";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::memssa
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/mimg.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/mimg.hpp
new file mode 100644
index 00000000..811a2656
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/mimg.hpp
@@ -0,0 +1,199 @@
+#pragma once
+
+namespace shader::ir::mimg {
+enum Op {
+  LOAD,
+  LOAD_MIP,
+  LOAD_PCK,
+  LOAD_PCK_SGN,
+  LOAD_MIP_PCK,
+  LOAD_MIP_PCK_SGN,
+  STORE = 8,
+  STORE_MIP,
+  STORE_PCK,
+  STORE_MIP_PCK,
+  GET_RESINFO = 14,
+  ATOMIC_SWAP,
+  ATOMIC_CMPSWAP,
+  ATOMIC_ADD,
+  ATOMIC_SUB,
+  ATOMIC_RSUB,
+  ATOMIC_SMIN,
+  ATOMIC_UMIN,
+  ATOMIC_SMAX,
+  ATOMIC_UMAX,
+  ATOMIC_AND,
+  ATOMIC_OR,
+  ATOMIC_XOR,
+  ATOMIC_INC,
+  ATOMIC_DEC,
+  ATOMIC_FCMPSWAP,
+  ATOMIC_FMIN,
+  ATOMIC_FMAX,
+  SAMPLE,
+  SAMPLE_CL,
+  SAMPLE_D,
+  SAMPLE_D_CL,
+  SAMPLE_L,
+  SAMPLE_B,
+  SAMPLE_B_CL,
+  SAMPLE_LZ,
+  SAMPLE_C,
+  SAMPLE_C_CL,
+  SAMPLE_C_D,
+  SAMPLE_C_D_CL,
+  SAMPLE_C_L,
+  SAMPLE_C_B,
+  SAMPLE_C_B_CL,
+  SAMPLE_C_LZ,
+  SAMPLE_O,
+  SAMPLE_CL_O,
+  SAMPLE_D_O,
+  SAMPLE_D_CL_O,
+  SAMPLE_L_O,
+  SAMPLE_B_O,
+  SAMPLE_B_CL_O,
+  SAMPLE_LZ_O,
+  SAMPLE_C_O,
+  SAMPLE_C_CL_O,
+  SAMPLE_C_D_O,
+  SAMPLE_C_D_CL_O,
+  SAMPLE_C_L_O,
+  SAMPLE_C_B_O,
+  SAMPLE_C_B_CL_O,
+  SAMPLE_C_LZ_O,
+  GATHER4,
+  GATHER4_CL,
+  GATHER4_L = 68,
+  GATHER4_B,
+  GATHER4_B_CL,
+  GATHER4_LZ,
+  GATHER4_C,
+  GATHER4_C_CL,
+  GATHER4_C_L = 76,
+  GATHER4_C_B,
+  GATHER4_C_B_CL,
+  GATHER4_C_LZ,
+  GATHER4_O,
+  GATHER4_CL_O,
+  GATHER4_L_O = 84,
+  GATHER4_B_O,
+  GATHER4_B_CL_O,
+  GATHER4_LZ_O,
+  GATHER4_C_O,
+  GATHER4_C_CL_O,
+  GATHER4_C_L_O = 92,
+  GATHER4_C_B_O,
+  GATHER4_C_B_CL_O,
+  GATHER4_C_LZ_O,
+  GET_LOD,
+  SAMPLE_CD = 104,
+  SAMPLE_CD_CL,
+  SAMPLE_C_CD,
+  SAMPLE_C_CD_CL,
+  SAMPLE_CD_O,
+  SAMPLE_CD_CL_O,
+  SAMPLE_C_CD_O,
+  SAMPLE_C_CD_CL_O,
+
+  OpCount
+};
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case LOAD: return "image_load";
+  case LOAD_MIP: return "image_load_mip";
+  case LOAD_PCK: return "image_load_pck";
+  case LOAD_PCK_SGN: return "image_load_pck_sgn";
+  case LOAD_MIP_PCK: return "image_load_mip_pck";
+  case LOAD_MIP_PCK_SGN: return "image_load_mip_pck_sgn";
+  case STORE: return "image_store";
+  case STORE_MIP: return "image_store_mip";
+  case STORE_PCK: return "image_store_pck";
+  case STORE_MIP_PCK: return "image_store_mip_pck";
+  case GET_RESINFO: return "image_get_resinfo";
+  case ATOMIC_SWAP: return "image_atomic_swap";
+  case ATOMIC_CMPSWAP: return "image_atomic_cmpswap";
+  case ATOMIC_ADD: return "image_atomic_add";
+  case ATOMIC_SUB: return "image_atomic_sub";
+  case ATOMIC_RSUB: return "image_atomic_rsub";
+  case ATOMIC_SMIN: return "image_atomic_smin";
+  case ATOMIC_UMIN: return "image_atomic_umin";
+  case ATOMIC_SMAX: return "image_atomic_smax";
+  case ATOMIC_UMAX: return "image_atomic_umax";
+  case ATOMIC_AND: return "image_atomic_and";
+  case ATOMIC_OR: return "image_atomic_or";
+  case ATOMIC_XOR: return "image_atomic_xor";
+  case ATOMIC_INC: return "image_atomic_inc";
+  case ATOMIC_DEC: return "image_atomic_dec";
+  case ATOMIC_FCMPSWAP: return "image_atomic_fcmpswap";
+  case ATOMIC_FMIN: return "image_atomic_fmin";
+  case ATOMIC_FMAX: return "image_atomic_fmax";
+  case SAMPLE: return "image_sample";
+  case SAMPLE_CL: return "image_sample_cl";
+  case SAMPLE_D: return "image_sample_d";
+  case SAMPLE_D_CL: return "image_sample_d_cl";
+  case SAMPLE_L: return "image_sample_l";
+  case SAMPLE_B: return "image_sample_b";
+  case SAMPLE_B_CL: return "image_sample_b_cl";
+  case SAMPLE_LZ: return "image_sample_lz";
+  case SAMPLE_C: return "image_sample_c";
+  case SAMPLE_C_CL: return "image_sample_c_cl";
+  case SAMPLE_C_D: return "image_sample_c_d";
+  case SAMPLE_C_D_CL: return "image_sample_c_d_cl";
+  case SAMPLE_C_L: return "image_sample_c_l";
+  case SAMPLE_C_B: return "image_sample_c_b";
+  case SAMPLE_C_B_CL: return "image_sample_c_b_cl";
+  case SAMPLE_C_LZ: return "image_sample_c_lz";
+  case SAMPLE_O: return "image_sample_o";
+  case SAMPLE_CL_O: return "image_sample_cl_o";
+  case SAMPLE_D_O: return "image_sample_d_o";
+  case SAMPLE_D_CL_O: return "image_sample_d_cl_o";
+  case SAMPLE_L_O: return "image_sample_l_o";
+  case SAMPLE_B_O: return "image_sample_b_o";
+  case SAMPLE_B_CL_O: return "image_sample_b_cl_o";
+  case SAMPLE_LZ_O: return "image_sample_lz_o";
+  case SAMPLE_C_O: return "image_sample_c_o";
+  case SAMPLE_C_CL_O: return "image_sample_c_cl_o";
+  case SAMPLE_C_D_O: return "image_sample_c_d_o";
+  case SAMPLE_C_D_CL_O: return "image_sample_c_d_cl_o";
+  case SAMPLE_C_L_O: return "image_sample_c_l_o";
+  case SAMPLE_C_B_O: return "image_sample_c_b_o";
+  case SAMPLE_C_B_CL_O: return "image_sample_c_b_cl_o";
+  case SAMPLE_C_LZ_O: return "image_sample_c_lz_o";
+  case GATHER4: return "image_gather4";
+  case GATHER4_CL: return "image_gather4_cl";
+  case GATHER4_L: return "image_gather4_l";
+  case GATHER4_B: return "image_gather4_b";
+  case GATHER4_B_CL: return "image_gather4_b_cl";
+  case GATHER4_LZ: return "image_gather4_lz";
+  case GATHER4_C: return "image_gather4_c";
+  case GATHER4_C_CL: return "image_gather4_c_cl";
+  case GATHER4_C_L: return "image_gather4_c_l";
+  case GATHER4_C_B: return "image_gather4_c_b";
+  case GATHER4_C_B_CL: return "image_gather4_c_b_cl";
+  case GATHER4_C_LZ: return "image_gather4_c_lz";
+  case GATHER4_O: return "image_gather4_o";
+  case GATHER4_CL_O: return "image_gather4_cl_o";
+  case GATHER4_L_O: return "image_gather4_l_o";
+  case GATHER4_B_O: return "image_gather4_b_o";
+  case GATHER4_B_CL_O: return "image_gather4_b_cl_o";
+  case GATHER4_LZ_O: return "image_gather4_lz_o";
+  case GATHER4_C_O: return "image_gather4_c_o";
+  case GATHER4_C_CL_O: return "image_gather4_c_cl_o";
+  case GATHER4_C_L_O: return "image_gather4_c_l_o";
+  case GATHER4_C_B_O: return "image_gather4_c_b_o";
+  case GATHER4_C_B_CL_O: return "image_gather4_c_b_cl_o";
+  case GATHER4_C_LZ_O: return "image_gather4_c_lz_o";
+  case GET_LOD: return "image_get_lod";
+  case SAMPLE_CD: return "image_sample_cd";
+  case SAMPLE_CD_CL: return "image_sample_cd_cl";
+  case SAMPLE_C_CD: return "image_sample_c_cd";
+  case SAMPLE_C_CD_CL: return "image_sample_c_cd_cl";
+  case SAMPLE_CD_O: return "image_sample_cd_o";
+  case SAMPLE_CD_CL_O: return "image_sample_cd_cl_o";
+  case SAMPLE_C_CD_O: return "image_sample_c_cd_o";
+  case SAMPLE_C_CD_CL_O: return "image_sample_c_cd_cl_o";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::mimg
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/mtbuf.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/mtbuf.hpp
new file mode 100644
index 00000000..34db57c4
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/mtbuf.hpp
@@ -0,0 +1,37 @@
+#pragma once
+
+namespace shader::ir::mtbuf {
+enum Op {
+  LOAD_FORMAT_X,
+  LOAD_FORMAT_XY,
+  LOAD_FORMAT_XYZ,
+  LOAD_FORMAT_XYZW,
+  STORE_FORMAT_X,
+  STORE_FORMAT_XY,
+  STORE_FORMAT_XYZ,
+  STORE_FORMAT_XYZW,
+
+  OpCount
+};
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case LOAD_FORMAT_X:
+    return "tbuffer_load_format_x";
+  case LOAD_FORMAT_XY:
+    return "tbuffer_load_format_xy";
+  case LOAD_FORMAT_XYZ:
+    return "tbuffer_load_format_xyz";
+  case LOAD_FORMAT_XYZW:
+    return "tbuffer_load_format_xyzw";
+  case STORE_FORMAT_X:
+    return "tbuffer_store_format_x";
+  case STORE_FORMAT_XY:
+    return "tbuffer_store_format_xy";
+  case STORE_FORMAT_XYZ:
+    return "tbuffer_store_format_xyz";
+  case STORE_FORMAT_XYZW:
+    return "tbuffer_store_format_xyzw";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::mtbuf
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/mubuf.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/mubuf.hpp
new file mode 100644
index 00000000..aa781352
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/mubuf.hpp
@@ -0,0 +1,129 @@
+#pragma once
+
+namespace shader::ir::mubuf {
+enum Op {
+  LOAD_FORMAT_X,
+  LOAD_FORMAT_XY,
+  LOAD_FORMAT_XYZ,
+  LOAD_FORMAT_XYZW,
+  STORE_FORMAT_X,
+  STORE_FORMAT_XY,
+  STORE_FORMAT_XYZ,
+  STORE_FORMAT_XYZW,
+  LOAD_UBYTE,
+  LOAD_SBYTE,
+  LOAD_USHORT,
+  LOAD_SSHORT,
+  LOAD_DWORD,
+  LOAD_DWORDX2,
+  LOAD_DWORDX4,
+  LOAD_DWORDX3,
+  STORE_BYTE = 24,
+  STORE_SHORT = 26,
+  STORE_DWORD = 28,
+  STORE_DWORDX2,
+  STORE_DWORDX4,
+  STORE_DWORDX3,
+  ATOMIC_SWAP = 48,
+  ATOMIC_CMPSWAP,
+  ATOMIC_ADD,
+  ATOMIC_SUB,
+  ATOMIC_RSUB,
+  ATOMIC_SMIN,
+  ATOMIC_UMIN,
+  ATOMIC_SMAX,
+  ATOMIC_UMAX,
+  ATOMIC_AND,
+  ATOMIC_OR,
+  ATOMIC_XOR,
+  ATOMIC_INC,
+  ATOMIC_DEC,
+  ATOMIC_FCMPSWAP,
+  ATOMIC_FMIN,
+  ATOMIC_FMAX,
+  ATOMIC_SWAP_X2 = 80,
+  ATOMIC_CMPSWAP_X2,
+  ATOMIC_ADD_X2,
+  ATOMIC_SUB_X2,
+  ATOMIC_RSUB_X2,
+  ATOMIC_SMIN_X2,
+  ATOMIC_UMIN_X2,
+  ATOMIC_SMAX_X2,
+  ATOMIC_UMAX_X2,
+  ATOMIC_AND_X2,
+  ATOMIC_OR_X2,
+  ATOMIC_XOR_X2,
+  ATOMIC_INC_X2,
+  ATOMIC_DEC_X2,
+  ATOMIC_FCMPSWAP_X2,
+  ATOMIC_FMIN_X2,
+  ATOMIC_FMAX_X2,
+  WBINVL1_SC_VOL = 112,
+  WBINVL1,
+
+  OpCount
+};
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case LOAD_FORMAT_X:return "buffer_load_format_x";
+  case LOAD_FORMAT_XY:return "buffer_load_format_xy";
+  case LOAD_FORMAT_XYZ:return "buffer_load_format_xyz";
+  case LOAD_FORMAT_XYZW:return "buffer_load_format_xyzw";
+  case STORE_FORMAT_X:return "buffer_store_format_x";
+  case STORE_FORMAT_XY:return "buffer_store_format_xy";
+  case STORE_FORMAT_XYZ:return "buffer_store_format_xyz";
+  case STORE_FORMAT_XYZW:return "buffer_store_format_xyzw";
+  case LOAD_UBYTE:return "buffer_load_ubyte";
+  case LOAD_SBYTE:return "buffer_load_sbyte";
+  case LOAD_USHORT:return "buffer_load_ushort";
+  case LOAD_SSHORT:return "buffer_load_sshort";
+  case LOAD_DWORD:return "buffer_load_dword";
+  case LOAD_DWORDX2:return "buffer_load_dwordx2";
+  case LOAD_DWORDX4:return "buffer_load_dwordx4";
+  case LOAD_DWORDX3:return "buffer_load_dwordx3";
+  case STORE_BYTE:return "buffer_store_byte";
+  case STORE_SHORT:return "buffer_store_short";
+  case STORE_DWORD:return "buffer_store_dword";
+  case STORE_DWORDX2:return "buffer_store_dwordx2";
+  case STORE_DWORDX4:return "buffer_store_dwordx4";
+  case STORE_DWORDX3:return "buffer_store_dwordx3";
+  case ATOMIC_SWAP:return "buffer_atomic_swap";
+  case ATOMIC_CMPSWAP:return "buffer_atomic_cmpswap";
+  case ATOMIC_ADD:return "buffer_atomic_add";
+  case ATOMIC_SUB:return "buffer_atomic_sub";
+  case ATOMIC_RSUB:return "buffer_atomic_rsub";
+  case ATOMIC_SMIN:return "buffer_atomic_smin";
+  case ATOMIC_UMIN:return "buffer_atomic_umin";
+  case ATOMIC_SMAX:return "buffer_atomic_smax";
+  case ATOMIC_UMAX:return "buffer_atomic_umax";
+  case ATOMIC_AND:return "buffer_atomic_and";
+  case ATOMIC_OR:return "buffer_atomic_or";
+  case ATOMIC_XOR:return "buffer_atomic_xor";
+  case ATOMIC_INC:return "buffer_atomic_inc";
+  case ATOMIC_DEC:return "buffer_atomic_dec";
+  case ATOMIC_FCMPSWAP:return "buffer_atomic_fcmpswap";
+  case ATOMIC_FMIN:return "buffer_atomic_fmin";
+  case ATOMIC_FMAX:return "buffer_atomic_fmax";
+  case ATOMIC_SWAP_X2:return "buffer_atomic_swap_x2";
+  case ATOMIC_CMPSWAP_X2:return "buffer_atomic_cmpswap_x2";
+  case ATOMIC_ADD_X2:return "buffer_atomic_add_x2";
+  case ATOMIC_SUB_X2:return "buffer_atomic_sub_x2";
+  case ATOMIC_RSUB_X2:return "buffer_atomic_rsub_x2";
+  case ATOMIC_SMIN_X2:return "buffer_atomic_smin_x2";
+  case ATOMIC_UMIN_X2:return "buffer_atomic_umin_x2";
+  case ATOMIC_SMAX_X2:return "buffer_atomic_smax_x2";
+  case ATOMIC_UMAX_X2:return "buffer_atomic_umax_x2";
+  case ATOMIC_AND_X2:return "buffer_atomic_and_x2";
+  case ATOMIC_OR_X2:return "buffer_atomic_or_x2";
+  case ATOMIC_XOR_X2:return "buffer_atomic_xor_x2";
+  case ATOMIC_INC_X2:return "buffer_atomic_inc_x2";
+  case ATOMIC_DEC_X2:return "buffer_atomic_dec_x2";
+  case ATOMIC_FCMPSWAP_X2:return "buffer_atomic_fcmpswap_x2";
+  case ATOMIC_FMIN_X2:return "buffer_atomic_fmin_x2";
+  case ATOMIC_FMAX_X2:return "buffer_atomic_fmax_x2";
+  case WBINVL1_SC_VOL:return "buffer_wbinvl1_sc_vol";
+  case WBINVL1:return "buffer_wbinvl1";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::mubuf
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/smrd.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/smrd.hpp
new file mode 100644
index 00000000..acc8e590
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/smrd.hpp
@@ -0,0 +1,39 @@
+#pragma once
+
+namespace shader::ir::smrd {
+enum Op {
+  LOAD_DWORD,
+  LOAD_DWORDX2,
+  LOAD_DWORDX4,
+  LOAD_DWORDX8,
+  LOAD_DWORDX16,
+  BUFFER_LOAD_DWORD = 8,
+  BUFFER_LOAD_DWORDX2,
+  BUFFER_LOAD_DWORDX4,
+  BUFFER_LOAD_DWORDX8,
+  BUFFER_LOAD_DWORDX16,
+  DCACHE_INV_VOL = 29,
+  MEMTIME,
+  DCACHE_INV,
+
+  OpCount
+};
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case LOAD_DWORD: return "s_load_dword";
+  case LOAD_DWORDX2: return "s_load_dwordx2";
+  case LOAD_DWORDX4: return "s_load_dwordx4";
+  case LOAD_DWORDX8: return "s_load_dwordx8";
+  case LOAD_DWORDX16: return "s_load_dwordx16";
+  case BUFFER_LOAD_DWORD: return "s_buffer_load_dword";
+  case BUFFER_LOAD_DWORDX2: return "s_buffer_load_dwordx2";
+  case BUFFER_LOAD_DWORDX4: return "s_buffer_load_dwordx4";
+  case BUFFER_LOAD_DWORDX8: return "s_buffer_load_dwordx8";
+  case BUFFER_LOAD_DWORDX16: return "s_buffer_load_dwordx16";
+  case DCACHE_INV_VOL: return "s_dcache_inv_vol";
+  case MEMTIME: return "s_memtime";
+  case DCACHE_INV: return "s_dcache_inv";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::smrd
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sop1.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sop1.hpp
new file mode 100644
index 00000000..32d2102f
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sop1.hpp
@@ -0,0 +1,109 @@
+#pragma once
+
+namespace shader::ir::sop1 {
+enum Op {
+  MOV_B32 = 3,
+  MOV_B64,
+  CMOV_B32,
+  CMOV_B64,
+  NOT_B32,
+  NOT_B64,
+  WQM_B32,
+  WQM_B64,
+  BREV_B32,
+  BREV_B64,
+  BCNT0_I32_B32,
+  BCNT0_I32_B64,
+  BCNT1_I32_B32,
+  BCNT1_I32_B64,
+  FF0_I32_B32,
+  FF0_I32_B64,
+  FF1_I32_B32,
+  FF1_I32_B64,
+  FLBIT_I32_B32,
+  FLBIT_I32_B64,
+  FLBIT_I32,
+  FLBIT_I32_I64,
+  SEXT_I32_I8,
+  SEXT_I32_I16,
+  BITSET0_B32,
+  BITSET0_B64,
+  BITSET1_B32,
+  BITSET1_B64,
+  GETPC_B64,
+  SETPC_B64,
+  SWAPPC_B64,
+  AND_SAVEEXEC_B64 = 36,
+  OR_SAVEEXEC_B64,
+  XOR_SAVEEXEC_B64,
+  ANDN2_SAVEEXEC_B64,
+  ORN2_SAVEEXEC_B64,
+  NAND_SAVEEXEC_B64,
+  NOR_SAVEEXEC_B64,
+  XNOR_SAVEEXEC_B64,
+  QUADMASK_B32,
+  QUADMASK_B64,
+  MOVRELS_B32,
+  MOVRELS_B64,
+  MOVRELD_B32,
+  MOVRELD_B64,
+  CBRANCH_JOIN,
+  ABS_I32 = 52,
+  MOV_FED_B32,
+
+  OpCount
+};
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case MOV_B32: return "s_mov_b32";
+  case MOV_B64: return "s_mov_b64";
+  case CMOV_B32: return "s_cmov_b32";
+  case CMOV_B64: return "s_cmov_b64";
+  case NOT_B32: return "s_not_b32";
+  case NOT_B64: return "s_not_b64";
+  case WQM_B32: return "s_wqm_b32";
+  case WQM_B64: return "s_wqm_b64";
+  case BREV_B32: return "s_brev_b32";
+  case BREV_B64: return "s_brev_b64";
+  case BCNT0_I32_B32: return "s_bcnt0_i32_b32";
+  case BCNT0_I32_B64: return "s_bcnt0_i32_b64";
+  case BCNT1_I32_B32: return "s_bcnt1_i32_b32";
+  case BCNT1_I32_B64: return "s_bcnt1_i32_b64";
+  case FF0_I32_B32: return "s_ff0_i32_b32";
+  case FF0_I32_B64: return "s_ff0_i32_b64";
+  case FF1_I32_B32: return "s_ff1_i32_b32";
+  case FF1_I32_B64: return "s_ff1_i32_b64";
+  case FLBIT_I32_B32: return "s_flbit_i32_b32";
+  case FLBIT_I32_B64: return "s_flbit_i32_b64";
+  case FLBIT_I32: return "s_flbit_i32";
+  case FLBIT_I32_I64: return "s_flbit_i32_i64";
+  case SEXT_I32_I8: return "s_sext_i32_i8";
+  case SEXT_I32_I16: return "s_sext_i32_i16";
+  case BITSET0_B32: return "s_bitset0_b32";
+  case BITSET0_B64: return "s_bitset0_b64";
+  case BITSET1_B32: return "s_bitset1_b32";
+  case BITSET1_B64: return "s_bitset1_b64";
+  case GETPC_B64: return "s_getpc_b64";
+  case SETPC_B64: return "s_setpc_b64";
+  case SWAPPC_B64: return "s_swappc_b64";
+  case AND_SAVEEXEC_B64: return "s_and_saveexec_b64";
+  case OR_SAVEEXEC_B64: return "s_or_saveexec_b64";
+  case XOR_SAVEEXEC_B64: return "s_xor_saveexec_b64";
+  case ANDN2_SAVEEXEC_B64: return "s_andn2_saveexec_b64";
+  case ORN2_SAVEEXEC_B64: return "s_orn2_saveexec_b64";
+  case NAND_SAVEEXEC_B64: return "s_nand_saveexec_b64";
+  case NOR_SAVEEXEC_B64: return "s_nor_saveexec_b64";
+  case XNOR_SAVEEXEC_B64: return "s_xnor_saveexec_b64";
+  case QUADMASK_B32: return "s_quadmask_b32";
+  case QUADMASK_B64: return "s_quadmask_b64";
+  case MOVRELS_B32: return "s_movrels_b32";
+  case MOVRELS_B64: return "s_movrels_b64";
+  case MOVRELD_B32: return "s_movreld_b32";
+  case MOVRELD_B64: return "s_movreld_b64";
+  case CBRANCH_JOIN: return "s_cbranch_join";
+  case ABS_I32: return "s_abs_i32";
+  case MOV_FED_B32: return "s_mov_fed_b32";
+  }
+  return nullptr;
+}
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sop2.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sop2.hpp
new file mode 100644
index 00000000..7b6a0870
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sop2.hpp
@@ -0,0 +1,171 @@
+#pragma once
+#include "../ir.hpp"
+
+namespace shader::ir::sop2 {
+enum Op {
+  ADD_U32,
+  SUB_U32,
+  ADD_I32,
+  SUB_I32,
+  ADDC_U32,
+  SUBB_U32,
+  MIN_I32,
+  MIN_U32,
+  MAX_I32,
+  MAX_U32,
+  CSELECT_B32,
+  CSELECT_B64,
+  AND_B32 = 14,
+  AND_B64,
+  OR_B32,
+  OR_B64,
+  XOR_B32,
+  XOR_B64,
+  ANDN2_B32,
+  ANDN2_B64,
+  ORN2_B32,
+  ORN2_B64,
+  NAND_B32,
+  NAND_B64,
+  NOR_B32,
+  NOR_B64,
+  XNOR_B32,
+  XNOR_B64,
+  LSHL_B32,
+  LSHL_B64,
+  LSHR_B32,
+  LSHR_B64,
+  ASHR_I32,
+  ASHR_I64,
+  BFM_B32,
+  BFM_B64,
+  MUL_I32,
+  BFE_U32,
+  BFE_I32,
+  BFE_U64,
+  BFE_I64,
+  CBRANCH_G_FORK,
+  ABSDIFF_I32,
+  LSHL1_ADD_U32,
+  LSHL2_ADD_U32,
+  LSHL3_ADD_U32,
+  LSHL4_ADD_U32,
+  PACK_LL_B32_B16,
+  PACK_LH_B32_B16,
+  PACK_HH_B32_B16,
+  MUL_HI_U32,
+  MUL_HI_I32,
+
+  OpCount
+};
+
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case ADD_U32:
+    return "s_add_u32";
+  case SUB_U32:
+    return "s_sub_u32";
+  case ADD_I32:
+    return "s_add_i32";
+  case SUB_I32:
+    return "s_sub_i32";
+  case ADDC_U32:
+    return "s_addc_u32";
+  case SUBB_U32:
+    return "s_subb_u32";
+  case MIN_I32:
+    return "s_min_i32";
+  case MIN_U32:
+    return "s_min_u32";
+  case MAX_I32:
+    return "s_max_i32";
+  case MAX_U32:
+    return "s_max_u32";
+  case CSELECT_B32:
+    return "s_cselect_b32";
+  case CSELECT_B64:
+    return "s_cselect_b64";
+  case AND_B32:
+    return "s_and_b32";
+  case AND_B64:
+    return "s_and_b64";
+  case OR_B32:
+    return "s_or_b32";
+  case OR_B64:
+    return "s_or_b64";
+  case XOR_B32:
+    return "s_xor_b32";
+  case XOR_B64:
+    return "s_xor_b64";
+  case ANDN2_B32:
+    return "s_andn2_b32";
+  case ANDN2_B64:
+    return "s_andn2_b64";
+  case ORN2_B32:
+    return "s_orn2_b32";
+  case ORN2_B64:
+    return "s_orn2_b64";
+  case NAND_B32:
+    return "s_nand_b32";
+  case NAND_B64:
+    return "s_nand_b64";
+  case NOR_B32:
+    return "s_nor_b32";
+  case NOR_B64:
+    return "s_nor_b64";
+  case XNOR_B32:
+    return "s_xnor_b32";
+  case XNOR_B64:
+    return "s_xnor_b64";
+  case LSHL_B32:
+    return "s_lshl_b32";
+  case LSHL_B64:
+    return "s_lshl_b64";
+  case LSHR_B32:
+    return "s_lshr_b32";
+  case LSHR_B64:
+    return "s_lshr_b64";
+  case ASHR_I32:
+    return "s_ashr_i32";
+  case ASHR_I64:
+    return "s_ashr_i64";
+  case BFM_B32:
+    return "s_bfm_b32";
+  case BFM_B64:
+    return "s_bfm_b64";
+  case MUL_I32:
+    return "s_mul_i32";
+  case BFE_U32:
+    return "s_bfe_u32";
+  case BFE_I32:
+    return "s_bfe_i32";
+  case BFE_U64:
+    return "s_bfe_u64";
+  case BFE_I64:
+    return "s_bfe_i64";
+  case CBRANCH_G_FORK:
+    return "s_cbranch_g_fork";
+  case ABSDIFF_I32:
+    return "s_absdiff_i32";
+  case LSHL1_ADD_U32:
+    return "s_lshl1_add_u32";
+  case LSHL2_ADD_U32:
+    return "s_lshl2_add_u32";
+  case LSHL3_ADD_U32:
+    return "s_lshl3_add_u32";
+  case LSHL4_ADD_U32:
+    return "s_lshl4_add_u32";
+  case PACK_LL_B32_B16:
+    return "s_pack_ll_b32_b16";
+  case PACK_LH_B32_B16:
+    return "s_pack_lh_b32_b16";
+  case PACK_HH_B32_B16:
+    return "s_pack_hh_b32_b16";
+  case MUL_HI_U32:
+    return "s_mul_hi_u32";
+  case MUL_HI_I32:
+    return "s_mul_hi_i32";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::sop2
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sopc.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sopc.hpp
new file mode 100644
index 00000000..860d9e34
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sopc.hpp
@@ -0,0 +1,67 @@
+#pragma once
+
+namespace shader::ir::sopc {
+enum Op {
+  CMP_EQ_I32,
+  CMP_LG_I32,
+  CMP_GT_I32,
+  CMP_GE_I32,
+  CMP_LT_I32,
+  CMP_LE_I32,
+  CMP_EQ_U32,
+  CMP_LG_U32,
+  CMP_GT_U32,
+  CMP_GE_U32,
+  CMP_LT_U32,
+  CMP_LE_U32,
+  BITCMP0_B32,
+  BITCMP1_B32,
+  BITCMP0_B64,
+  BITCMP1_B64,
+  SETVSKIP,
+  ILLEGALD,
+
+  OpCount
+};
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case CMP_EQ_I32:
+    return "s_cmp_eq_i32";
+  case CMP_LG_I32:
+    return "s_cmp_lg_i32";
+  case CMP_GT_I32:
+    return "s_cmp_gt_i32";
+  case CMP_GE_I32:
+    return "s_cmp_ge_i32";
+  case CMP_LT_I32:
+    return "s_cmp_lt_i32";
+  case CMP_LE_I32:
+    return "s_cmp_le_i32";
+  case CMP_EQ_U32:
+    return "s_cmp_eq_u32";
+  case CMP_LG_U32:
+    return "s_cmp_lg_u32";
+  case CMP_GT_U32:
+    return "s_cmp_gt_u32";
+  case CMP_GE_U32:
+    return "s_cmp_ge_u32";
+  case CMP_LT_U32:
+    return "s_cmp_lt_u32";
+  case CMP_LE_U32:
+    return "s_cmp_le_u32";
+  case BITCMP0_B32:
+    return "bitcmp0_b32";
+  case BITCMP1_B32:
+    return "bitcmp1_b32";
+  case BITCMP0_B64:
+    return "bitcmp0_b64";
+  case BITCMP1_B64:
+    return "bitcmp1_b64";
+  case SETVSKIP:
+    return "setvskip";
+  case ILLEGALD:
+    return "illegald";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::sopc
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sopk.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sopk.hpp
new file mode 100644
index 00000000..e0eae029
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sopk.hpp
@@ -0,0 +1,73 @@
+#pragma once
+
+namespace shader::ir::sopk {
+enum Op {
+  MOVK_I32,
+  CMOVK_I32 = 2,
+  CMPK_EQ_I32,
+  CMPK_LG_I32,
+  CMPK_GT_I32,
+  CMPK_GE_I32,
+  CMPK_LT_I32,
+  CMPK_LE_I32,
+  CMPK_EQ_U32,
+  CMPK_LG_U32,
+  CMPK_GT_U32,
+  CMPK_GE_U32,
+  CMPK_LT_U32,
+  CMPK_LE_U32,
+  ADDK_I32,
+  MULK_I32,
+  CBRANCH_I_FORK,
+  GETREG_B32,
+  SETREG_B32,
+  SETREG_IMM,
+
+  OpCount
+};
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case MOVK_I32:
+    return "s_movk_i32";
+  case CMOVK_I32:
+    return "s_cmovk_i32";
+  case CMPK_EQ_I32:
+    return "s_cmpk_eq_i32";
+  case CMPK_LG_I32:
+    return "s_cmpk_lg_i32";
+  case CMPK_GT_I32:
+    return "s_cmpk_gt_i32";
+  case CMPK_GE_I32:
+    return "s_cmpk_ge_i32";
+  case CMPK_LT_I32:
+    return "s_cmpk_lt_i32";
+  case CMPK_LE_I32:
+    return "s_cmpk_le_i32";
+  case CMPK_EQ_U32:
+    return "s_cmpk_eq_u32";
+  case CMPK_LG_U32:
+    return "s_cmpk_lg_u32";
+  case CMPK_GT_U32:
+    return "s_cmpk_gt_u32";
+  case CMPK_GE_U32:
+    return "s_cmpk_ge_u32";
+  case CMPK_LT_U32:
+    return "s_cmpk_lt_u32";
+  case CMPK_LE_U32:
+    return "s_cmpk_le_u32";
+  case ADDK_I32:
+    return "s_addk_i32";
+  case MULK_I32:
+    return "s_mulk_i32";
+  case CBRANCH_I_FORK:
+    return "s_cbranch_i_fork";
+  case GETREG_B32:
+    return "s_getreg_b32";
+  case SETREG_B32:
+    return "s_setreg_b32";
+  case SETREG_IMM:
+    return "s_setreg_imm";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::sopk
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sopp.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sopp.hpp
new file mode 100644
index 00000000..6c200e84
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/sopp.hpp
@@ -0,0 +1,89 @@
+#pragma once
+
+namespace shader::ir::sopp {
+enum Op {
+  NOP,
+  ENDPGM,
+  BRANCH,
+  CBRANCH_SCC0 = 4,
+  CBRANCH_SCC1,
+  CBRANCH_VCCZ,
+  CBRANCH_VCCNZ,
+  CBRANCH_EXECZ,
+  CBRANCH_EXECNZ,
+  BARRIER,
+  WAITCNT = 12,
+  SETHALT,
+  SLEEP,
+  SETPRIO,
+  SENDMSG,
+  SENDMSGHALT,
+  TRAP,
+  ICACHE_INV,
+  INCPERFLEVEL,
+  DECPERFLEVEL,
+  TTRACEDATA,
+  CBRANCH_CDBGSYS = 23,
+  CBRANCH_CDBGUSER = 24,
+  CBRANCH_CDBGSYS_OR_USER = 25,
+  CBRANCH_CDBGSYS_AND_USER = 26,
+
+  OpCount
+};
+
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case NOP:
+    return "s_nop";
+  case ENDPGM:
+    return "s_endpgm";
+  case BRANCH:
+    return "s_branch";
+  case CBRANCH_SCC0:
+    return "s_cbranch_scc0";
+  case CBRANCH_SCC1:
+    return "s_cbranch_scc1";
+  case CBRANCH_VCCZ:
+    return "s_cbranch_vccz";
+  case CBRANCH_VCCNZ:
+    return "s_cbranch_vccnz";
+  case CBRANCH_EXECZ:
+    return "s_cbranch_execz";
+  case CBRANCH_EXECNZ:
+    return "s_cbranch_execnz";
+  case BARRIER:
+    return "s_barrier";
+  case WAITCNT:
+    return "s_waitcnt";
+  case SETHALT:
+    return "s_sethalt";
+  case SLEEP:
+    return "s_sleep";
+  case SETPRIO:
+    return "s_setprio";
+  case SENDMSG:
+    return "s_sendmsg";
+  case SENDMSGHALT:
+    return "s_sendmsghalt";
+  case TRAP:
+    return "s_trap";
+  case ICACHE_INV:
+    return "s_icache_inv";
+  case INCPERFLEVEL:
+    return "s_incperflevel";
+  case DECPERFLEVEL:
+    return "s_decperflevel";
+  case TTRACEDATA:
+    return "s_ttracedata";
+  case CBRANCH_CDBGSYS:
+    return "s_cbranch_cdbgsys";
+  case CBRANCH_CDBGUSER:
+    return "s_cbranch_cdbguser";
+  case CBRANCH_CDBGSYS_OR_USER:
+    return "s_cbranch_cdbgsys_or_user";
+  case CBRANCH_CDBGSYS_AND_USER:
+    return "s_cbranch_cdbgsys_and_user";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::sopp
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vintrp.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vintrp.hpp
new file mode 100644
index 00000000..01160a8d
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vintrp.hpp
@@ -0,0 +1,23 @@
+#pragma once
+
+namespace shader::ir::vintrp {
+enum Op {
+  P1_F32,
+  P2_F32,
+  MOV_F32,
+
+  OpCount
+};
+
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case P1_F32:
+    return "v_interp_p1_f32";
+  case P2_F32:
+    return "v_interp_p2_f32";
+  case MOV_F32:
+    return "v_interp_mov_f32";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::vintrp
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vop1.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vop1.hpp
new file mode 100644
index 00000000..5a6b3a2a
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vop1.hpp
@@ -0,0 +1,259 @@
+#pragma once
+
+namespace shader::ir::vop1 {
+enum Op {
+  NOP,
+  MOV_B32,
+  READFIRSTLANE_B32,
+  CVT_I32_F64,
+  CVT_F64_I32,
+  CVT_F32_I32,
+  CVT_F32_U32,
+  CVT_U32_F32,
+  CVT_I32_F32,
+  MOV_FED_B32,
+  CVT_F16_F32,
+  CVT_F32_F16,
+  CVT_RPI_I32_F32,
+  CVT_FLR_I32_F32,
+  CVT_OFF_F32_I4,
+  CVT_F32_F64,
+  CVT_F64_F32,
+  CVT_F32_UBYTE0,
+  CVT_F32_UBYTE1,
+  CVT_F32_UBYTE2,
+  CVT_F32_UBYTE3,
+  CVT_U32_F64,
+  CVT_F64_U32,
+  FRACT_F32 = 32,
+  TRUNC_F32,
+  CEIL_F32,
+  RNDNE_F32,
+  FLOOR_F32,
+  EXP_F32,
+  LOG_CLAMP_F32,
+  LOG_F32,
+  RCP_CLAMP_F32,
+  RCP_LEGACY_F32,
+  RCP_F32,
+  RCP_IFLAG_F32,
+  RSQ_CLAMP_F32,
+  RSQ_LEGACY_F32,
+  RSQ_F32,
+  RCP_F64,
+  RCP_CLAMP_F64,
+  RSQ_F64,
+  RSQ_CLAMP_F64,
+  SQRT_F32,
+  SQRT_F64,
+  SIN_F32,
+  COS_F32,
+  NOT_B32,
+  BFREV_B32,
+  FFBH_U32,
+  FFBL_B32,
+  FFBH_I32,
+  FREXP_EXP_I32_F64,
+  FREXP_MANT_F64,
+  FRACT_F64,
+  FREXP_EXP_I32_F32,
+  FREXP_MANT_F32,
+  CLREXCP,
+  MOVRELD_B32,
+  MOVRELS_B32,
+  MOVRELSD_B32,
+  CVT_F16_U16 = 80,
+  CVT_F16_I16,
+  CVT_U16_F16,
+  CVT_I16_F16,
+  RCP_F16,
+  SQRT_F16,
+  RSQ_F16,
+  LOG_F16,
+  EXP_F16,
+  FREXP_MANT_F16,
+  FREXP_EXP_I16_F16,
+  FLOOR_F16,
+  CEIL_F16,
+  TRUNC_F16,
+  RNDNE_F16,
+  FRACT_F16,
+  SIN_F16,
+  COS_F16,
+  SAT_PK_U8_I16,
+  CVT_NORM_I16_F16,
+  CVT_NORM_U16_F16,
+  SWAP_B32,
+
+  OpCount
+};
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case NOP:
+    return "v_nop";
+  case MOV_B32:
+    return "v_mov_b32";
+  case READFIRSTLANE_B32:
+    return "v_readfirstlane_b32";
+  case CVT_I32_F64:
+    return "v_cvt_i32_f64";
+  case CVT_F64_I32:
+    return "v_cvt_f64_i32";
+  case CVT_F32_I32:
+    return "v_cvt_f32_i32";
+  case CVT_F32_U32:
+    return "v_cvt_f32_u32";
+  case CVT_U32_F32:
+    return "v_cvt_u32_f32";
+  case CVT_I32_F32:
+    return "v_cvt_i32_f32";
+  case MOV_FED_B32:
+    return "v_mov_fed_b32";
+  case CVT_F16_F32:
+    return "v_cvt_f16_f32";
+  case CVT_F32_F16:
+    return "v_cvt_f32_f16";
+  case CVT_RPI_I32_F32:
+    return "v_cvt_rpi_i32_f32";
+  case CVT_FLR_I32_F32:
+    return "v_cvt_flr_i32_f32";
+  case CVT_OFF_F32_I4:
+    return "v_cvt_off_f32_i4";
+  case CVT_F32_F64:
+    return "v_cvt_f32_f64";
+  case CVT_F64_F32:
+    return "v_cvt_f64_f32";
+  case CVT_F32_UBYTE0:
+    return "v_cvt_f32_ubyte0";
+  case CVT_F32_UBYTE1:
+    return "v_cvt_f32_ubyte1";
+  case CVT_F32_UBYTE2:
+    return "v_cvt_f32_ubyte2";
+  case CVT_F32_UBYTE3:
+    return "v_cvt_f32_ubyte3";
+  case CVT_U32_F64:
+    return "v_cvt_u32_f64";
+  case CVT_F64_U32:
+    return "v_cvt_f64_u32";
+  case FRACT_F32:
+    return "v_fract_f32";
+  case TRUNC_F32:
+    return "v_trunc_f32";
+  case CEIL_F32:
+    return "v_ceil_f32";
+  case RNDNE_F32:
+    return "v_rndne_f32";
+  case FLOOR_F32:
+    return "v_floor_f32";
+  case EXP_F32:
+    return "v_exp_f32";
+  case LOG_CLAMP_F32:
+    return "v_log_clamp_f32";
+  case LOG_F32:
+    return "v_log_f32";
+  case RCP_CLAMP_F32:
+    return "v_rcp_clamp_f32";
+  case RCP_LEGACY_F32:
+    return "v_rcp_legacy_f32";
+  case RCP_F32:
+    return "v_rcp_f32";
+  case RCP_IFLAG_F32:
+    return "v_rcp_iflag_f32";
+  case RSQ_CLAMP_F32:
+    return "v_rsq_clamp_f32";
+  case RSQ_LEGACY_F32:
+    return "v_rsq_legacy_f32";
+  case RSQ_F32:
+    return "v_rsq_f32";
+  case RCP_F64:
+    return "v_rcp_f64";
+  case RCP_CLAMP_F64:
+    return "v_rcp_clamp_f64";
+  case RSQ_F64:
+    return "v_rsq_f64";
+  case RSQ_CLAMP_F64:
+    return "v_rsq_clamp_f64";
+  case SQRT_F32:
+    return "v_sqrt_f32";
+  case SQRT_F64:
+    return "v_sqrt_f64";
+  case SIN_F32:
+    return "v_sin_f32";
+  case COS_F32:
+    return "v_cos_f32";
+  case NOT_B32:
+    return "v_not_b32";
+  case BFREV_B32:
+    return "v_bfrev_b32";
+  case FFBH_U32:
+    return "v_ffbh_u32";
+  case FFBL_B32:
+    return "v_ffbl_b32";
+  case FFBH_I32:
+    return "v_ffbh_i32";
+  case FREXP_EXP_I32_F64:
+    return "v_frexp_exp_i32_f64";
+  case FREXP_MANT_F64:
+    return "v_frexp_mant_f64";
+  case FRACT_F64:
+    return "v_fract_f64";
+  case FREXP_EXP_I32_F32:
+    return "v_frexp_exp_i32_f32";
+  case FREXP_MANT_F32:
+    return "v_frexp_mant_f32";
+  case CLREXCP:
+    return "v_clrexcp";
+  case MOVRELD_B32:
+    return "v_movreld_b32";
+  case MOVRELS_B32:
+    return "v_movrels_b32";
+  case MOVRELSD_B32:
+    return "v_movrelsd_b32";
+  case CVT_F16_U16:
+    return "v_cvt_f16_u16";
+  case CVT_F16_I16:
+    return "v_cvt_f16_i16";
+  case CVT_U16_F16:
+    return "v_cvt_u16_f16";
+  case CVT_I16_F16:
+    return "v_cvt_i16_f16";
+  case RCP_F16:
+    return "v_rcp_f16";
+  case SQRT_F16:
+    return "v_sqrt_f16";
+  case RSQ_F16:
+    return "v_rsq_f16";
+  case LOG_F16:
+    return "v_log_f16";
+  case EXP_F16:
+    return "v_exp_f16";
+  case FREXP_MANT_F16:
+    return "v_frexp_mant_f16";
+  case FREXP_EXP_I16_F16:
+    return "v_frexp_exp_i16_f16";
+  case FLOOR_F16:
+    return "v_floor_f16";
+  case CEIL_F16:
+    return "v_ceil_f16";
+  case TRUNC_F16:
+    return "v_trunc_f16";
+  case RNDNE_F16:
+    return "v_rndne_f16";
+  case FRACT_F16:
+    return "v_fract_f16";
+  case SIN_F16:
+    return "v_sin_f16";
+  case COS_F16:
+    return "v_cos_f16";
+  case SAT_PK_U8_I16:
+    return "v_sat_pk_u8_i16";
+  case CVT_NORM_I16_F16:
+    return "v_cvt_norm_i16_f16";
+  case CVT_NORM_U16_F16:
+    return "v_cvt_norm_u16_f16";
+  case SWAP_B32:
+    return "v_swap_b32";
+  }
+  return nullptr;
+}
+} // namespace shader::ir::vop1
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vop2.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vop2.hpp
new file mode 100644
index 00000000..d6d1a7ce
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vop2.hpp
@@ -0,0 +1,164 @@
+#pragma once
+
+namespace shader::ir::vop2 {
+enum Op {
+  CNDMASK_B32,
+  READLANE_B32,
+  WRITELANE_B32,
+  ADD_F32,
+  SUB_F32,
+  SUBREV_F32,
+  MAC_LEGACY_F32,
+  MUL_LEGACY_F32,
+  MUL_F32,
+  MUL_I32_I24,
+  MUL_HI_I32_I24,
+  MUL_U32_U24,
+  MUL_HI_U32_U24,
+  MIN_LEGACY_F32,
+  MAX_LEGACY_F32,
+  MIN_F32,
+  MAX_F32,
+  MIN_I32,
+  MAX_I32,
+  MIN_U32,
+  MAX_U32,
+  LSHR_B32,
+  LSHRREV_B32,
+  ASHR_I32,
+  ASHRREV_I32,
+  LSHL_B32,
+  LSHLREV_B32,
+  AND_B32,
+  OR_B32,
+  XOR_B32,
+  BFM_B32,
+  MAC_F32,
+  MADMK_F32,
+  MADAK_F32,
+  BCNT_U32_B32,
+  MBCNT_LO_U32_B32,
+  MBCNT_HI_U32_B32,
+  ADD_I32,
+  SUB_I32,
+  SUBREV_I32,
+  ADDC_U32,
+  SUBB_U32,
+  SUBBREV_U32,
+  LDEXP_F32,
+  CVT_PKACCUM_U8_F32,
+  CVT_PKNORM_I16_F32,
+  CVT_PKNORM_U16_F32,
+  CVT_PKRTZ_F16_F32,
+  CVT_PK_U16_U32,
+  CVT_PK_I16_I32,
+
+  OpCount
+};
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case CNDMASK_B32:
+    return "v_cndmask_b32";
+  case READLANE_B32:
+    return "v_readlane_b32";
+  case WRITELANE_B32:
+    return "v_writelane_b32";
+  case ADD_F32:
+    return "v_add_f32";
+  case SUB_F32:
+    return "v_sub_f32";
+  case SUBREV_F32:
+    return "v_subrev_f32";
+  case MAC_LEGACY_F32:
+    return "v_mac_legacy_f32";
+  case MUL_LEGACY_F32:
+    return "v_mul_legacy_f32";
+  case MUL_F32:
+    return "v_mul_f32";
+  case MUL_I32_I24:
+    return "v_mul_i32_i24";
+  case MUL_HI_I32_I24:
+    return "v_mul_hi_i32_i24";
+  case MUL_U32_U24:
+    return "v_mul_u32_u24";
+  case MUL_HI_U32_U24:
+    return "v_mul_hi_u32_u24";
+  case MIN_LEGACY_F32:
+    return "v_min_legacy_f32";
+  case MAX_LEGACY_F32:
+    return "v_max_legacy_f32";
+  case MIN_F32:
+    return "v_min_f32";
+  case MAX_F32:
+    return "v_max_f32";
+  case MIN_I32:
+    return "v_min_i32";
+  case MAX_I32:
+    return "v_max_i32";
+  case MIN_U32:
+    return "v_min_u32";
+  case MAX_U32:
+    return "v_max_u32";
+  case LSHR_B32:
+    return "v_lshr_b32";
+  case LSHRREV_B32:
+    return "v_lshrrev_b32";
+  case ASHR_I32:
+    return "v_ashr_i32";
+  case ASHRREV_I32:
+    return "v_ashrrev_i32";
+  case LSHL_B32:
+    return "v_lshl_b32";
+  case LSHLREV_B32:
+    return "v_lshlrev_b32";
+  case AND_B32:
+    return "v_and_b32";
+  case OR_B32:
+    return "v_or_b32";
+  case XOR_B32:
+    return "v_xor_b32";
+  case BFM_B32:
+    return "v_bfm_b32";
+  case MAC_F32:
+    return "v_mac_f32";
+  case MADMK_F32:
+    return "v_madmk_f32";
+  case MADAK_F32:
+    return "v_madak_f32";
+  case BCNT_U32_B32:
+    return "v_bcnt_u32_b32";
+  case MBCNT_LO_U32_B32:
+    return "v_mbcnt_lo_u32_b32";
+  case MBCNT_HI_U32_B32:
+    return "v_mbcnt_hi_u32_b32";
+  case ADD_I32:
+    return "v_add_i32";
+  case SUB_I32:
+    return "v_sub_i32";
+  case SUBREV_I32:
+    return "v_subrev_i32";
+  case ADDC_U32:
+    return "v_addc_u32";
+  case SUBB_U32:
+    return "v_subb_u32";
+  case SUBBREV_U32:
+    return "v_subbrev_u32";
+  case LDEXP_F32:
+    return "v_ldexp_f32";
+  case CVT_PKACCUM_U8_F32:
+    return "v_cvt_pkaccum_u8_f32";
+  case CVT_PKNORM_I16_F32:
+    return "v_cvt_pknorm_i16_f32";
+  case CVT_PKNORM_U16_F32:
+    return "v_cvt_pknorm_u16_f32";
+  case CVT_PKRTZ_F16_F32:
+    return "v_cvt_pkrtz_f16_f32";
+  case CVT_PK_U16_U32:
+    return "v_cvt_pk_u16_u32";
+  case CVT_PK_I16_I32:
+    return "v_cvt_pk_i16_i32";
+  }
+  return nullptr;
+}
+
+} // namespace shader::ir::vop2
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vop3.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vop3.hpp
new file mode 100644
index 00000000..1deafafc
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vop3.hpp
@@ -0,0 +1,1249 @@
+#pragma once
+
+namespace shader::ir::vop3 {
+enum Op {
+  CMP_F_F32,
+  CMP_LT_F32,
+  CMP_EQ_F32,
+  CMP_LE_F32,
+  CMP_GT_F32,
+  CMP_LG_F32,
+  CMP_GE_F32,
+  CMP_O_F32,
+  CMP_U_F32,
+  CMP_NGE_F32,
+  CMP_NLG_F32,
+  CMP_NGT_F32,
+  CMP_NLE_F32,
+  CMP_NEQ_F32,
+  CMP_NLT_F32,
+  CMP_TRU_F32,
+  CMPX_F_F32,
+  CMPX_LT_F32,
+  CMPX_EQ_F32,
+  CMPX_LE_F32,
+  CMPX_GT_F32,
+  CMPX_LG_F32,
+  CMPX_GE_F32,
+  CMPX_O_F32,
+  CMPX_U_F32,
+  CMPX_NGE_F32,
+  CMPX_NLG_F32,
+  CMPX_NGT_F32,
+  CMPX_NLE_F32,
+  CMPX_NEQ_F32,
+  CMPX_NLT_F32,
+  CMPX_TRU_F32,
+  CMP_F_F64,
+  CMP_LT_F64,
+  CMP_EQ_F64,
+  CMP_LE_F64,
+  CMP_GT_F64,
+  CMP_LG_F64,
+  CMP_GE_F64,
+  CMP_O_F64,
+  CMP_U_F64,
+  CMP_NGE_F64,
+  CMP_NLG_F64,
+  CMP_NGT_F64,
+  CMP_NLE_F64,
+  CMP_NEQ_F64,
+  CMP_NLT_F64,
+  CMP_TRU_F64,
+  CMPX_F_F64,
+  CMPX_LT_F64,
+  CMPX_EQ_F64,
+  CMPX_LE_F64,
+  CMPX_GT_F64,
+  CMPX_LG_F64,
+  CMPX_GE_F64,
+  CMPX_O_F64,
+  CMPX_U_F64,
+  CMPX_NGE_F64,
+  CMPX_NLG_F64,
+  CMPX_NGT_F64,
+  CMPX_NLE_F64,
+  CMPX_NEQ_F64,
+  CMPX_NLT_F64,
+  CMPX_TRU_F64,
+  CMPS_F_F32,
+  CMPS_LT_F32,
+  CMPS_EQ_F32,
+  CMPS_LE_F32,
+  CMPS_GT_F32,
+  CMPS_LG_F32,
+  CMPS_GE_F32,
+  CMPS_O_F32,
+  CMPS_U_F32,
+  CMPS_NGE_F32,
+  CMPS_NLG_F32,
+  CMPS_NGT_F32,
+  CMPS_NLE_F32,
+  CMPS_NEQ_F32,
+  CMPS_NLT_F32,
+  CMPS_TRU_F32,
+  CMPSX_F_F32,
+  CMPSX_LT_F32,
+  CMPSX_EQ_F32,
+  CMPSX_LE_F32,
+  CMPSX_GT_F32,
+  CMPSX_LG_F32,
+  CMPSX_GE_F32,
+  CMPSX_O_F32,
+  CMPSX_U_F32,
+  CMPSX_NGE_F32,
+  CMPSX_NLG_F32,
+  CMPSX_NGT_F32,
+  CMPSX_NLE_F32,
+  CMPSX_NEQ_F32,
+  CMPSX_NLT_F32,
+  CMPSX_TRU_F32,
+  CMPS_F_F64,
+  CMPS_LT_F64,
+  CMPS_EQ_F64,
+  CMPS_LE_F64,
+  CMPS_GT_F64,
+  CMPS_LG_F64,
+  CMPS_GE_F64,
+  CMPS_O_F64,
+  CMPS_U_F64,
+  CMPS_NGE_F64,
+  CMPS_NLG_F64,
+  CMPS_NGT_F64,
+  CMPS_NLE_F64,
+  CMPS_NEQ_F64,
+  CMPS_NLT_F64,
+  CMPS_TRU_F64,
+  CMPSX_F_F64,
+  CMPSX_LT_F64,
+  CMPSX_EQ_F64,
+  CMPSX_LE_F64,
+  CMPSX_GT_F64,
+  CMPSX_LG_F64,
+  CMPSX_GE_F64,
+  CMPSX_O_F64,
+  CMPSX_U_F64,
+  CMPSX_NGE_F64,
+  CMPSX_NLG_F64,
+  CMPSX_NGT_F64,
+  CMPSX_NLE_F64,
+  CMPSX_NEQ_F64,
+  CMPSX_NLT_F64,
+  CMPSX_TRU_F64,
+  CMP_F_I32,
+  CMP_LT_I32,
+  CMP_EQ_I32,
+  CMP_LE_I32,
+  CMP_GT_I32,
+  CMP_NE_I32,
+  CMP_GE_I32,
+  CMP_T_I32,
+  CMP_CLASS_F32,
+  CMP_LT_I16,
+  CMP_EQ_I16,
+  CMP_LE_I16,
+  CMP_GT_I16,
+  CMP_NE_I16,
+  CMP_GE_I16,
+  CMP_CLASS_F16,
+  CMPX_F_I32,
+  CMPX_LT_I32,
+  CMPX_EQ_I32,
+  CMPX_LE_I32,
+  CMPX_GT_I32,
+  CMPX_NE_I32,
+  CMPX_GE_I32,
+  CMPX_T_I32,
+  CMPX_CLASS_F32,
+  CMPX_LT_I16,
+  CMPX_EQ_I16,
+  CMPX_LE_I16,
+  CMPX_GT_I16,
+  CMPX_NE_I16,
+  CMPX_GE_I16,
+  CMPX_CLASS_F16,
+  CMP_F_I64,
+  CMP_LT_I64,
+  CMP_EQ_I64,
+  CMP_LE_I64,
+  CMP_GT_I64,
+  CMP_NE_I64,
+  CMP_GE_I64,
+  CMP_T_I64,
+  CMP_CLASS_F64,
+  CMP_LT_U16,
+  CMP_EQ_U16,
+  CMP_LE_U16,
+  CMP_GT_U16,
+  CMP_NE_U16,
+  CMP_GE_U16,
+  CMPX_F_I64 = 176,
+  CMPX_LT_I64,
+  CMPX_EQ_I64,
+  CMPX_LE_I64,
+  CMPX_GT_I64,
+  CMPX_NE_I64,
+  CMPX_GE_I64,
+  CMPX_T_I64,
+  CMPX_CLASS_F64,
+  CMPX_LT_U16,
+  CMPX_EQ_U16,
+  CMPX_LE_U16,
+  CMPX_GT_U16,
+  CMPX_NE_U16,
+  CMPX_GE_U16,
+  CMP_F_U32 = 192,
+  CMP_LT_U32,
+  CMP_EQ_U32,
+  CMP_LE_U32,
+  CMP_GT_U32,
+  CMP_NE_U32,
+  CMP_GE_U32,
+  CMP_T_U32,
+  CMP_F_F16,
+  CMP_LT_F16,
+  CMP_EQ_F16,
+  CMP_LE_F16,
+  CMP_GT_F16,
+  CMP_LG_F16,
+  CMP_GE_F16,
+  CMP_O_F16,
+  CMPX_F_U32,
+  CMPX_LT_U32,
+  CMPX_EQ_U32,
+  CMPX_LE_U32,
+  CMPX_GT_U32,
+  CMPX_NE_U32,
+  CMPX_GE_U32,
+  CMPX_T_U32,
+  CMPX_F_F16,
+  CMPX_LT_F16,
+  CMPX_EQ_F16,
+  CMPX_LE_F16,
+  CMPX_GT_F16,
+  CMPX_LG_F16,
+  CMPX_GE_F16,
+  CMPX_O_F16,
+  CMP_F_U64,
+  CMP_LT_U64,
+  CMP_EQ_U64,
+  CMP_LE_U64,
+  CMP_GT_U64,
+  CMP_NE_U64,
+  CMP_GE_U64,
+  CMP_T_U64,
+  CMP_U_F16,
+  CMP_NGE_F16,
+  CMP_NLG_F16,
+  CMP_NGT_F16,
+  CMP_NLE_F16,
+  CMP_NEQ_F16,
+  CMP_NLT_F16,
+  CMP_TRU_F16,
+  CMPX_F_U64,
+  CMPX_LT_U64,
+  CMPX_EQ_U64,
+  CMPX_LE_U64,
+  CMPX_GT_U64,
+  CMPX_NE_U64,
+  CMPX_GE_U64,
+  CMPX_T_U64,
+  CNDMASK_B32 = 256,
+  READLANE_B32,
+  WRITELANE_B32,
+  ADD_F32,
+  SUB_F32,
+  SUBREV_F32,
+  MAC_LEGACY_F32,
+  MUL_LEGACY_F32,
+  MUL_F32,
+  MUL_I32_I24,
+  MUL_HI_I32_I24,
+  MUL_U32_U24,
+  MUL_HI_U32_U24,
+  MIN_LEGACY_F32,
+  MAX_LEGACY_F32,
+  MIN_F32,
+  MAX_F32,
+  MIN_I32,
+  MAX_I32,
+  MIN_U32,
+  MAX_U32,
+  LSHR_B32,
+  LSHRREV_B32,
+  ASHR_I32,
+  ASHRREV_I32,
+  LSHL_B32,
+  LSHLREV_B32,
+  AND_B32,
+  OR_B32,
+  XOR_B32,
+  BFM_B32,
+  MAC_F32,
+  MADMK_F32,
+  MADAK_F32,
+  BCNT_U32_B32,
+  MBCNT_LO_U32_B32,
+  MBCNT_HI_U32_B32,
+  ADD_I32,
+  SUB_I32,
+  SUBREV_I32,
+  ADDC_U32,
+  SUBB_U32,
+  SUBBREV_U32,
+  LDEXP_F32,
+  CVT_PKACCUM_U8_F32,
+  CVT_PKNORM_I16_F32,
+  CVT_PKNORM_U16_F32,
+  CVT_PKRTZ_F16_F32,
+  CVT_PK_U16_U32,
+  CVT_PK_I16_I32,
+  MAD_LEGACY_F32 = 320,
+  MAD_F32,
+  MAD_I32_I24,
+  MAD_U32_U24,
+  CUBEID_F32,
+  CUBESC_F32,
+  CUBETC_F32,
+  CUBEMA_F32,
+  BFE_U32,
+  BFE_I32,
+  BFI_B32,
+  FMA_F32,
+  FMA_F64,
+  LERP_U8,
+  ALIGNBIT_B32,
+  ALIGNBYTE_B32,
+  MULLIT_F32,
+  MIN3_F32,
+  MIN3_I32,
+  MIN3_U32,
+  MAX3_F32,
+  MAX3_I32,
+  MAX3_U32,
+  MED3_F32,
+  MED3_I32,
+  MED3_U32,
+  SAD_U8,
+  SAD_HI_U8,
+  SAD_U16,
+  SAD_U32,
+  CVT_PK_U8_F32,
+  DIV_FIXUP_F32,
+  DIV_FIXUP_F64,
+  LSHL_B64,
+  LSHR_B64,
+  ASHR_I64,
+  ADD_F64,
+  MUL_F64,
+  MIN_F64,
+  MAX_F64,
+  LDEXP_F64,
+  MUL_LO_U32,
+  MUL_HI_U32,
+  MUL_LO_I32,
+  MUL_HI_I32,
+  DIV_SCALE_F32,
+  DIV_SCALE_F64,
+  DIV_FMAS_F32,
+  DIV_FMAS_F64,
+  MSAD_U8,
+  QSAD_U8,
+  MQSAD_U8,
+  TRIG_PREOP_F64,
+  MQSAD_U32_U8,
+  MAD_U64_U32,
+  MAD_I64_I32,
+  NOP = 384,
+  MOV_B32,
+  READFIRSTLANE_B32,
+  CVT_I32_F64,
+  CVT_F64_I32,
+  CVT_F32_I32,
+  CVT_F32_U32,
+  CVT_U32_F32,
+  CVT_I32_F32,
+  MOV_FED_B32,
+  CVT_F16_F32,
+  CVT_F32_F16,
+  CVT_RPI_I32_F32,
+  CVT_FLR_I32_F32,
+  CVT_OFF_F32_I4,
+  CVT_F32_F64,
+  CVT_F64_F32,
+  CVT_F32_UBYTE0,
+  CVT_F32_UBYTE1,
+  CVT_F32_UBYTE2,
+  CVT_F32_UBYTE3,
+  CVT_U32_F64,
+  CVT_F64_U32,
+  FRACT_F32 = 416,
+  TRUNC_F32,
+  CEIL_F32,
+  RNDNE_F32,
+  FLOOR_F32,
+  EXP_F32,
+  LOG_CLAMP_F32,
+  LOG_F32,
+  RCP_CLAMP_F32,
+  RCP_LEGACY_F32,
+  RCP_F32,
+  RCP_IFLAG_F32,
+  RSQ_CLAMP_F32,
+  RSQ_LEGACY_F32,
+  RSQ_F32,
+  RCP_F64,
+  RCP_CLAMP_F64,
+  RSQ_F64,
+  RSQ_CLAMP_F64,
+  SQRT_F32,
+  SQRT_F64,
+  SIN_F32,
+  COS_F32,
+  NOT_B32,
+  BFREV_B32,
+  FFBH_U32,
+  FFBL_B32,
+  FFBH_I32,
+  FREXP_EXP_I32_F64,
+  FREXP_MANT_F64,
+  FRACT_F64,
+  FREXP_EXP_I32_F32,
+  FREXP_MANT_F32,
+  CLREXCP,
+  MOVRELD_B32,
+  MOVRELS_B32,
+  MOVRELSD_B32,
+
+  OpCount
+};
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case CMP_F_F32:
+    return "v_cmp_f_f32";
+  case CMP_LT_F32:
+    return "v_cmp_lt_f32";
+  case CMP_EQ_F32:
+    return "v_cmp_eq_f32";
+  case CMP_LE_F32:
+    return "v_cmp_le_f32";
+  case CMP_GT_F32:
+    return "v_cmp_gt_f32";
+  case CMP_LG_F32:
+    return "v_cmp_lg_f32";
+  case CMP_GE_F32:
+    return "v_cmp_ge_f32";
+  case CMP_O_F32:
+    return "v_cmp_o_f32";
+  case CMP_U_F32:
+    return "v_cmp_u_f32";
+  case CMP_NGE_F32:
+    return "v_cmp_nge_f32";
+  case CMP_NLG_F32:
+    return "v_cmp_nlg_f32";
+  case CMP_NGT_F32:
+    return "v_cmp_ngt_f32";
+  case CMP_NLE_F32:
+    return "v_cmp_nle_f32";
+  case CMP_NEQ_F32:
+    return "v_cmp_neq_f32";
+  case CMP_NLT_F32:
+    return "v_cmp_nlt_f32";
+  case CMP_TRU_F32:
+    return "v_cmp_tru_f32";
+  case CMPX_F_F32:
+    return "v_cmpx_f_f32";
+  case CMPX_LT_F32:
+    return "v_cmpx_lt_f32";
+  case CMPX_EQ_F32:
+    return "v_cmpx_eq_f32";
+  case CMPX_LE_F32:
+    return "v_cmpx_le_f32";
+  case CMPX_GT_F32:
+    return "v_cmpx_gt_f32";
+  case CMPX_LG_F32:
+    return "v_cmpx_lg_f32";
+  case CMPX_GE_F32:
+    return "v_cmpx_ge_f32";
+  case CMPX_O_F32:
+    return "v_cmpx_o_f32";
+  case CMPX_U_F32:
+    return "v_cmpx_u_f32";
+  case CMPX_NGE_F32:
+    return "v_cmpx_nge_f32";
+  case CMPX_NLG_F32:
+    return "v_cmpx_nlg_f32";
+  case CMPX_NGT_F32:
+    return "v_cmpx_ngt_f32";
+  case CMPX_NLE_F32:
+    return "v_cmpx_nle_f32";
+  case CMPX_NEQ_F32:
+    return "v_cmpx_neq_f32";
+  case CMPX_NLT_F32:
+    return "v_cmpx_nlt_f32";
+  case CMPX_TRU_F32:
+    return "v_cmpx_tru_f32";
+  case CMP_F_F64:
+    return "v_cmp_f_f64";
+  case CMP_LT_F64:
+    return "v_cmp_lt_f64";
+  case CMP_EQ_F64:
+    return "v_cmp_eq_f64";
+  case CMP_LE_F64:
+    return "v_cmp_le_f64";
+  case CMP_GT_F64:
+    return "v_cmp_gt_f64";
+  case CMP_LG_F64:
+    return "v_cmp_lg_f64";
+  case CMP_GE_F64:
+    return "v_cmp_ge_f64";
+  case CMP_O_F64:
+    return "v_cmp_o_f64";
+  case CMP_U_F64:
+    return "v_cmp_u_f64";
+  case CMP_NGE_F64:
+    return "v_cmp_nge_f64";
+  case CMP_NLG_F64:
+    return "v_cmp_nlg_f64";
+  case CMP_NGT_F64:
+    return "v_cmp_ngt_f64";
+  case CMP_NLE_F64:
+    return "v_cmp_nle_f64";
+  case CMP_NEQ_F64:
+    return "v_cmp_neq_f64";
+  case CMP_NLT_F64:
+    return "v_cmp_nlt_f64";
+  case CMP_TRU_F64:
+    return "v_cmp_tru_f64";
+  case CMPX_F_F64:
+    return "v_cmpx_f_f64";
+  case CMPX_LT_F64:
+    return "v_cmpx_lt_f64";
+  case CMPX_EQ_F64:
+    return "v_cmpx_eq_f64";
+  case CMPX_LE_F64:
+    return "v_cmpx_le_f64";
+  case CMPX_GT_F64:
+    return "v_cmpx_gt_f64";
+  case CMPX_LG_F64:
+    return "v_cmpx_lg_f64";
+  case CMPX_GE_F64:
+    return "v_cmpx_ge_f64";
+  case CMPX_O_F64:
+    return "v_cmpx_o_f64";
+  case CMPX_U_F64:
+    return "v_cmpx_u_f64";
+  case CMPX_NGE_F64:
+    return "v_cmpx_nge_f64";
+  case CMPX_NLG_F64:
+    return "v_cmpx_nlg_f64";
+  case CMPX_NGT_F64:
+    return "v_cmpx_ngt_f64";
+  case CMPX_NLE_F64:
+    return "v_cmpx_nle_f64";
+  case CMPX_NEQ_F64:
+    return "v_cmpx_neq_f64";
+  case CMPX_NLT_F64:
+    return "v_cmpx_nlt_f64";
+  case CMPX_TRU_F64:
+    return "v_cmpx_tru_f64";
+  case CMPS_F_F32:
+    return "v_cmps_f_f32";
+  case CMPS_LT_F32:
+    return "v_cmps_lt_f32";
+  case CMPS_EQ_F32:
+    return "v_cmps_eq_f32";
+  case CMPS_LE_F32:
+    return "v_cmps_le_f32";
+  case CMPS_GT_F32:
+    return "v_cmps_gt_f32";
+  case CMPS_LG_F32:
+    return "v_cmps_lg_f32";
+  case CMPS_GE_F32:
+    return "v_cmps_ge_f32";
+  case CMPS_O_F32:
+    return "v_cmps_o_f32";
+  case CMPS_U_F32:
+    return "v_cmps_u_f32";
+  case CMPS_NGE_F32:
+    return "v_cmps_nge_f32";
+  case CMPS_NLG_F32:
+    return "v_cmps_nlg_f32";
+  case CMPS_NGT_F32:
+    return "v_cmps_ngt_f32";
+  case CMPS_NLE_F32:
+    return "v_cmps_nle_f32";
+  case CMPS_NEQ_F32:
+    return "v_cmps_neq_f32";
+  case CMPS_NLT_F32:
+    return "v_cmps_nlt_f32";
+  case CMPS_TRU_F32:
+    return "v_cmps_tru_f32";
+  case CMPSX_F_F32:
+    return "v_cmpsx_f_f32";
+  case CMPSX_LT_F32:
+    return "v_cmpsx_lt_f32";
+  case CMPSX_EQ_F32:
+    return "v_cmpsx_eq_f32";
+  case CMPSX_LE_F32:
+    return "v_cmpsx_le_f32";
+  case CMPSX_GT_F32:
+    return "v_cmpsx_gt_f32";
+  case CMPSX_LG_F32:
+    return "v_cmpsx_lg_f32";
+  case CMPSX_GE_F32:
+    return "v_cmpsx_ge_f32";
+  case CMPSX_O_F32:
+    return "v_cmpsx_o_f32";
+  case CMPSX_U_F32:
+    return "v_cmpsx_u_f32";
+  case CMPSX_NGE_F32:
+    return "v_cmpsx_nge_f32";
+  case CMPSX_NLG_F32:
+    return "v_cmpsx_nlg_f32";
+  case CMPSX_NGT_F32:
+    return "v_cmpsx_ngt_f32";
+  case CMPSX_NLE_F32:
+    return "v_cmpsx_nle_f32";
+  case CMPSX_NEQ_F32:
+    return "v_cmpsx_neq_f32";
+  case CMPSX_NLT_F32:
+    return "v_cmpsx_nlt_f32";
+  case CMPSX_TRU_F32:
+    return "v_cmpsx_tru_f32";
+  case CMPS_F_F64:
+    return "v_cmps_f_f64";
+  case CMPS_LT_F64:
+    return "v_cmps_lt_f64";
+  case CMPS_EQ_F64:
+    return "v_cmps_eq_f64";
+  case CMPS_LE_F64:
+    return "v_cmps_le_f64";
+  case CMPS_GT_F64:
+    return "v_cmps_gt_f64";
+  case CMPS_LG_F64:
+    return "v_cmps_lg_f64";
+  case CMPS_GE_F64:
+    return "v_cmps_ge_f64";
+  case CMPS_O_F64:
+    return "v_cmps_o_f64";
+  case CMPS_U_F64:
+    return "v_cmps_u_f64";
+  case CMPS_NGE_F64:
+    return "v_cmps_nge_f64";
+  case CMPS_NLG_F64:
+    return "v_cmps_nlg_f64";
+  case CMPS_NGT_F64:
+    return "v_cmps_ngt_f64";
+  case CMPS_NLE_F64:
+    return "v_cmps_nle_f64";
+  case CMPS_NEQ_F64:
+    return "v_cmps_neq_f64";
+  case CMPS_NLT_F64:
+    return "v_cmps_nlt_f64";
+  case CMPS_TRU_F64:
+    return "v_cmps_tru_f64";
+  case CMPSX_F_F64:
+    return "v_cmpsx_f_f64";
+  case CMPSX_LT_F64:
+    return "v_cmpsx_lt_f64";
+  case CMPSX_EQ_F64:
+    return "v_cmpsx_eq_f64";
+  case CMPSX_LE_F64:
+    return "v_cmpsx_le_f64";
+  case CMPSX_GT_F64:
+    return "v_cmpsx_gt_f64";
+  case CMPSX_LG_F64:
+    return "v_cmpsx_lg_f64";
+  case CMPSX_GE_F64:
+    return "v_cmpsx_ge_f64";
+  case CMPSX_O_F64:
+    return "v_cmpsx_o_f64";
+  case CMPSX_U_F64:
+    return "v_cmpsx_u_f64";
+  case CMPSX_NGE_F64:
+    return "v_cmpsx_nge_f64";
+  case CMPSX_NLG_F64:
+    return "v_cmpsx_nlg_f64";
+  case CMPSX_NGT_F64:
+    return "v_cmpsx_ngt_f64";
+  case CMPSX_NLE_F64:
+    return "v_cmpsx_nle_f64";
+  case CMPSX_NEQ_F64:
+    return "v_cmpsx_neq_f64";
+  case CMPSX_NLT_F64:
+    return "v_cmpsx_nlt_f64";
+  case CMPSX_TRU_F64:
+    return "v_cmpsx_tru_f64";
+  case CMP_F_I32:
+    return "v_cmp_f_i32";
+  case CMP_LT_I32:
+    return "v_cmp_lt_i32";
+  case CMP_EQ_I32:
+    return "v_cmp_eq_i32";
+  case CMP_LE_I32:
+    return "v_cmp_le_i32";
+  case CMP_GT_I32:
+    return "v_cmp_gt_i32";
+  case CMP_NE_I32:
+    return "v_cmp_ne_i32";
+  case CMP_GE_I32:
+    return "v_cmp_ge_i32";
+  case CMP_T_I32:
+    return "v_cmp_t_i32";
+  case CMP_CLASS_F32:
+    return "v_cmp_class_f32";
+  case CMP_LT_I16:
+    return "v_cmp_lt_i16";
+  case CMP_EQ_I16:
+    return "v_cmp_eq_i16";
+  case CMP_LE_I16:
+    return "v_cmp_le_i16";
+  case CMP_GT_I16:
+    return "v_cmp_gt_i16";
+  case CMP_NE_I16:
+    return "v_cmp_ne_i16";
+  case CMP_GE_I16:
+    return "v_cmp_ge_i16";
+  case CMP_CLASS_F16:
+    return "v_cmp_class_f16";
+  case CMPX_F_I32:
+    return "v_cmpx_f_i32";
+  case CMPX_LT_I32:
+    return "v_cmpx_lt_i32";
+  case CMPX_EQ_I32:
+    return "v_cmpx_eq_i32";
+  case CMPX_LE_I32:
+    return "v_cmpx_le_i32";
+  case CMPX_GT_I32:
+    return "v_cmpx_gt_i32";
+  case CMPX_NE_I32:
+    return "v_cmpx_ne_i32";
+  case CMPX_GE_I32:
+    return "v_cmpx_ge_i32";
+  case CMPX_T_I32:
+    return "v_cmpx_t_i32";
+  case CMPX_CLASS_F32:
+    return "v_cmpx_class_f32";
+  case CMPX_LT_I16:
+    return "v_cmpx_lt_i16";
+  case CMPX_EQ_I16:
+    return "v_cmpx_eq_i16";
+  case CMPX_LE_I16:
+    return "v_cmpx_le_i16";
+  case CMPX_GT_I16:
+    return "v_cmpx_gt_i16";
+  case CMPX_NE_I16:
+    return "v_cmpx_ne_i16";
+  case CMPX_GE_I16:
+    return "v_cmpx_ge_i16";
+  case CMPX_CLASS_F16:
+    return "v_cmpx_class_f16";
+  case CMP_F_I64:
+    return "v_cmp_f_i64";
+  case CMP_LT_I64:
+    return "v_cmp_lt_i64";
+  case CMP_EQ_I64:
+    return "v_cmp_eq_i64";
+  case CMP_LE_I64:
+    return "v_cmp_le_i64";
+  case CMP_GT_I64:
+    return "v_cmp_gt_i64";
+  case CMP_NE_I64:
+    return "v_cmp_ne_i64";
+  case CMP_GE_I64:
+    return "v_cmp_ge_i64";
+  case CMP_T_I64:
+    return "v_cmp_t_i64";
+  case CMP_CLASS_F64:
+    return "v_cmp_class_f64";
+  case CMP_LT_U16:
+    return "v_cmp_lt_u16";
+  case CMP_EQ_U16:
+    return "v_cmp_eq_u16";
+  case CMP_LE_U16:
+    return "v_cmp_le_u16";
+  case CMP_GT_U16:
+    return "v_cmp_gt_u16";
+  case CMP_NE_U16:
+    return "v_cmp_ne_u16";
+  case CMP_GE_U16:
+    return "v_cmp_ge_u16";
+  case CMPX_F_I64:
+    return "v_cmpx_f_i64";
+  case CMPX_LT_I64:
+    return "v_cmpx_lt_i64";
+  case CMPX_EQ_I64:
+    return "v_cmpx_eq_i64";
+  case CMPX_LE_I64:
+    return "v_cmpx_le_i64";
+  case CMPX_GT_I64:
+    return "v_cmpx_gt_i64";
+  case CMPX_NE_I64:
+    return "v_cmpx_ne_i64";
+  case CMPX_GE_I64:
+    return "v_cmpx_ge_i64";
+  case CMPX_T_I64:
+    return "v_cmpx_t_i64";
+  case CMPX_CLASS_F64:
+    return "v_cmpx_class_f64";
+  case CMPX_LT_U16:
+    return "v_cmpx_lt_u16";
+  case CMPX_EQ_U16:
+    return "v_cmpx_eq_u16";
+  case CMPX_LE_U16:
+    return "v_cmpx_le_u16";
+  case CMPX_GT_U16:
+    return "v_cmpx_gt_u16";
+  case CMPX_NE_U16:
+    return "v_cmpx_ne_u16";
+  case CMPX_GE_U16:
+    return "v_cmpx_ge_u16";
+  case CMP_F_U32:
+    return "v_cmp_f_u32";
+  case CMP_LT_U32:
+    return "v_cmp_lt_u32";
+  case CMP_EQ_U32:
+    return "v_cmp_eq_u32";
+  case CMP_LE_U32:
+    return "v_cmp_le_u32";
+  case CMP_GT_U32:
+    return "v_cmp_gt_u32";
+  case CMP_NE_U32:
+    return "v_cmp_ne_u32";
+  case CMP_GE_U32:
+    return "v_cmp_ge_u32";
+  case CMP_T_U32:
+    return "v_cmp_t_u32";
+  case CMP_F_F16:
+    return "v_cmp_f_f16";
+  case CMP_LT_F16:
+    return "v_cmp_lt_f16";
+  case CMP_EQ_F16:
+    return "v_cmp_eq_f16";
+  case CMP_LE_F16:
+    return "v_cmp_le_f16";
+  case CMP_GT_F16:
+    return "v_cmp_gt_f16";
+  case CMP_LG_F16:
+    return "v_cmp_lg_f16";
+  case CMP_GE_F16:
+    return "v_cmp_ge_f16";
+  case CMP_O_F16:
+    return "v_cmp_o_f16";
+  case CMPX_F_U32:
+    return "v_cmpx_f_u32";
+  case CMPX_LT_U32:
+    return "v_cmpx_lt_u32";
+  case CMPX_EQ_U32:
+    return "v_cmpx_eq_u32";
+  case CMPX_LE_U32:
+    return "v_cmpx_le_u32";
+  case CMPX_GT_U32:
+    return "v_cmpx_gt_u32";
+  case CMPX_NE_U32:
+    return "v_cmpx_ne_u32";
+  case CMPX_GE_U32:
+    return "v_cmpx_ge_u32";
+  case CMPX_T_U32:
+    return "v_cmpx_t_u32";
+  case CMPX_F_F16:
+    return "v_cmpx_f_f16";
+  case CMPX_LT_F16:
+    return "v_cmpx_lt_f16";
+  case CMPX_EQ_F16:
+    return "v_cmpx_eq_f16";
+  case CMPX_LE_F16:
+    return "v_cmpx_le_f16";
+  case CMPX_GT_F16:
+    return "v_cmpx_gt_f16";
+  case CMPX_LG_F16:
+    return "v_cmpx_lg_f16";
+  case CMPX_GE_F16:
+    return "v_cmpx_ge_f16";
+  case CMPX_O_F16:
+    return "v_cmpx_o_f16";
+  case CMP_F_U64:
+    return "v_cmp_f_u64";
+  case CMP_LT_U64:
+    return "v_cmp_lt_u64";
+  case CMP_EQ_U64:
+    return "v_cmp_eq_u64";
+  case CMP_LE_U64:
+    return "v_cmp_le_u64";
+  case CMP_GT_U64:
+    return "v_cmp_gt_u64";
+  case CMP_NE_U64:
+    return "v_cmp_ne_u64";
+  case CMP_GE_U64:
+    return "v_cmp_ge_u64";
+  case CMP_T_U64:
+    return "v_cmp_t_u64";
+  case CMP_U_F16:
+    return "v_cmp_u_f16";
+  case CMP_NGE_F16:
+    return "v_cmp_nge_f16";
+  case CMP_NLG_F16:
+    return "v_cmp_nlg_f16";
+  case CMP_NGT_F16:
+    return "v_cmp_ngt_f16";
+  case CMP_NLE_F16:
+    return "v_cmp_nle_f16";
+  case CMP_NEQ_F16:
+    return "v_cmp_neq_f16";
+  case CMP_NLT_F16:
+    return "v_cmp_nlt_f16";
+  case CMP_TRU_F16:
+    return "v_cmp_tru_f16";
+  case CMPX_F_U64:
+    return "v_cmpx_f_u64";
+  case CMPX_LT_U64:
+    return "v_cmpx_lt_u64";
+  case CMPX_EQ_U64:
+    return "v_cmpx_eq_u64";
+  case CMPX_LE_U64:
+    return "v_cmpx_le_u64";
+  case CMPX_GT_U64:
+    return "v_cmpx_gt_u64";
+  case CMPX_NE_U64:
+    return "v_cmpx_ne_u64";
+  case CMPX_GE_U64:
+    return "v_cmpx_ge_u64";
+  case CMPX_T_U64:
+    return "v_cmpx_t_u64";
+  case CNDMASK_B32:
+    return "v_cndmask_b32";
+  case READLANE_B32:
+    return "v_readlane_b32";
+  case WRITELANE_B32:
+    return "v_writelane_b32";
+  case ADD_F32:
+    return "v_add_f32";
+  case SUB_F32:
+    return "v_sub_f32";
+  case SUBREV_F32:
+    return "v_subrev_f32";
+  case MAC_LEGACY_F32:
+    return "v_mac_legacy_f32";
+  case MUL_LEGACY_F32:
+    return "v_mul_legacy_f32";
+  case MUL_F32:
+    return "v_mul_f32";
+  case MUL_I32_I24:
+    return "v_mul_i32_i24";
+  case MUL_HI_I32_I24:
+    return "v_mul_hi_i32_i24";
+  case MUL_U32_U24:
+    return "v_mul_u32_u24";
+  case MUL_HI_U32_U24:
+    return "v_mul_hi_u32_u24";
+  case MIN_LEGACY_F32:
+    return "v_min_legacy_f32";
+  case MAX_LEGACY_F32:
+    return "v_max_legacy_f32";
+  case MIN_F32:
+    return "v_min_f32";
+  case MAX_F32:
+    return "v_max_f32";
+  case MIN_I32:
+    return "v_min_i32";
+  case MAX_I32:
+    return "v_max_i32";
+  case MIN_U32:
+    return "v_min_u32";
+  case MAX_U32:
+    return "v_max_u32";
+  case LSHR_B32:
+    return "v_lshr_b32";
+  case LSHRREV_B32:
+    return "v_lshrrev_b32";
+  case ASHR_I32:
+    return "v_ashr_i32";
+  case ASHRREV_I32:
+    return "v_ashrrev_i32";
+  case LSHL_B32:
+    return "v_lshl_b32";
+  case LSHLREV_B32:
+    return "v_lshlrev_b32";
+  case AND_B32:
+    return "v_and_b32";
+  case OR_B32:
+    return "v_or_b32";
+  case XOR_B32:
+    return "v_xor_b32";
+  case BFM_B32:
+    return "v_bfm_b32";
+  case MAC_F32:
+    return "v_mac_f32";
+  case MADMK_F32:
+    return "v_madmk_f32";
+  case MADAK_F32:
+    return "v_madak_f32";
+  case BCNT_U32_B32:
+    return "v_bcnt_u32_b32";
+  case MBCNT_LO_U32_B32:
+    return "v_mbcnt_lo_u32_b32";
+  case MBCNT_HI_U32_B32:
+    return "v_mbcnt_hi_u32_b32";
+  case ADD_I32:
+    return "v_add_i32";
+  case SUB_I32:
+    return "v_sub_i32";
+  case SUBREV_I32:
+    return "v_subrev_i32";
+  case ADDC_U32:
+    return "v_addc_u32";
+  case SUBB_U32:
+    return "v_subb_u32";
+  case SUBBREV_U32:
+    return "v_subbrev_u32";
+  case LDEXP_F32:
+    return "v_ldexp_f32";
+  case CVT_PKACCUM_U8_F32:
+    return "v_cvt_pkaccum_u8_f32";
+  case CVT_PKNORM_I16_F32:
+    return "v_cvt_pknorm_i16_f32";
+  case CVT_PKNORM_U16_F32:
+    return "v_cvt_pknorm_u16_f32";
+  case CVT_PKRTZ_F16_F32:
+    return "v_cvt_pkrtz_f16_f32";
+  case CVT_PK_U16_U32:
+    return "v_cvt_pk_u16_u32";
+  case CVT_PK_I16_I32:
+    return "v_cvt_pk_i16_i32";
+  case MAD_LEGACY_F32:
+    return "v_mad_legacy_f32";
+  case MAD_F32:
+    return "v_mad_f32";
+  case MAD_I32_I24:
+    return "v_mad_i32_i24";
+  case MAD_U32_U24:
+    return "v_mad_u32_u24";
+  case CUBEID_F32:
+    return "v_cubeid_f32";
+  case CUBESC_F32:
+    return "v_cubesc_f32";
+  case CUBETC_F32:
+    return "v_cubetc_f32";
+  case CUBEMA_F32:
+    return "v_cubema_f32";
+  case BFE_U32:
+    return "v_bfe_u32";
+  case BFE_I32:
+    return "v_bfe_i32";
+  case BFI_B32:
+    return "v_bfi_b32";
+  case FMA_F32:
+    return "v_fma_f32";
+  case FMA_F64:
+    return "v_fma_f64";
+  case LERP_U8:
+    return "v_lerp_u8";
+  case ALIGNBIT_B32:
+    return "v_alignbit_b32";
+  case ALIGNBYTE_B32:
+    return "v_alignbyte_b32";
+  case MULLIT_F32:
+    return "v_mullit_f32";
+  case MIN3_F32:
+    return "v_min3_f32";
+  case MIN3_I32:
+    return "v_min3_i32";
+  case MIN3_U32:
+    return "v_min3_u32";
+  case MAX3_F32:
+    return "v_max3_f32";
+  case MAX3_I32:
+    return "v_max3_i32";
+  case MAX3_U32:
+    return "v_max3_u32";
+  case MED3_F32:
+    return "v_med3_f32";
+  case MED3_I32:
+    return "v_med3_i32";
+  case MED3_U32:
+    return "v_med3_u32";
+  case SAD_U8:
+    return "v_sad_u8";
+  case SAD_HI_U8:
+    return "v_sad_hi_u8";
+  case SAD_U16:
+    return "v_sad_u16";
+  case SAD_U32:
+    return "v_sad_u32";
+  case CVT_PK_U8_F32:
+    return "v_cvt_pk_u8_f32";
+  case DIV_FIXUP_F32:
+    return "v_div_fixup_f32";
+  case DIV_FIXUP_F64:
+    return "v_div_fixup_f64";
+  case LSHL_B64:
+    return "v_lshl_b64";
+  case LSHR_B64:
+    return "v_lshr_b64";
+  case ASHR_I64:
+    return "v_ashr_i64";
+  case ADD_F64:
+    return "v_add_f64";
+  case MUL_F64:
+    return "v_mul_f64";
+  case MIN_F64:
+    return "v_min_f64";
+  case MAX_F64:
+    return "v_max_f64";
+  case LDEXP_F64:
+    return "v_ldexp_f64";
+  case MUL_LO_U32:
+    return "v_mul_lo_u32";
+  case MUL_HI_U32:
+    return "v_mul_hi_u32";
+  case MUL_LO_I32:
+    return "v_mul_lo_i32";
+  case MUL_HI_I32:
+    return "v_mul_hi_i32";
+  case DIV_SCALE_F32:
+    return "v_div_scale_f32";
+  case DIV_SCALE_F64:
+    return "v_div_scale_f64";
+  case DIV_FMAS_F32:
+    return "v_div_fmas_f32";
+  case DIV_FMAS_F64:
+    return "v_div_fmas_f64";
+  case MSAD_U8:
+    return "v_msad_u8";
+  case QSAD_U8:
+    return "v_qsad_u8";
+  case MQSAD_U8:
+    return "v_mqsad_u8";
+  case TRIG_PREOP_F64:
+    return "v_trig_preop_f64";
+  case MQSAD_U32_U8:
+    return "v_mqsad_u32_u8";
+  case MAD_U64_U32:
+    return "v_mad_u64_u32";
+  case MAD_I64_I32:
+    return "v_mad_i64_i32";
+  case NOP:
+    return "v_nop";
+  case MOV_B32:
+    return "v_mov_b32";
+  case READFIRSTLANE_B32:
+    return "v_readfirstlane_b32";
+  case CVT_I32_F64:
+    return "v_cvt_i32_f64";
+  case CVT_F64_I32:
+    return "v_cvt_f64_i32";
+  case CVT_F32_I32:
+    return "v_cvt_f32_i32";
+  case CVT_F32_U32:
+    return "v_cvt_f32_u32";
+  case CVT_U32_F32:
+    return "v_cvt_u32_f32";
+  case CVT_I32_F32:
+    return "v_cvt_i32_f32";
+  case MOV_FED_B32:
+    return "v_mov_fed_b32";
+  case CVT_F16_F32:
+    return "v_cvt_f16_f32";
+  case CVT_F32_F16:
+    return "v_cvt_f32_f16";
+  case CVT_RPI_I32_F32:
+    return "v_cvt_rpi_i32_f32";
+  case CVT_FLR_I32_F32:
+    return "v_cvt_flr_i32_f32";
+  case CVT_OFF_F32_I4:
+    return "v_cvt_off_f32_i4";
+  case CVT_F32_F64:
+    return "v_cvt_f32_f64";
+  case CVT_F64_F32:
+    return "v_cvt_f64_f32";
+  case CVT_F32_UBYTE0:
+    return "v_cvt_f32_ubyte0";
+  case CVT_F32_UBYTE1:
+    return "v_cvt_f32_ubyte1";
+  case CVT_F32_UBYTE2:
+    return "v_cvt_f32_ubyte2";
+  case CVT_F32_UBYTE3:
+    return "v_cvt_f32_ubyte3";
+  case CVT_U32_F64:
+    return "v_cvt_u32_f64";
+  case CVT_F64_U32:
+    return "v_cvt_f64_u32";
+  case FRACT_F32:
+    return "v_fract_f32";
+  case TRUNC_F32:
+    return "v_trunc_f32";
+  case CEIL_F32:
+    return "v_ceil_f32";
+  case RNDNE_F32:
+    return "v_rndne_f32";
+  case FLOOR_F32:
+    return "v_floor_f32";
+  case EXP_F32:
+    return "v_exp_f32";
+  case LOG_CLAMP_F32:
+    return "v_log_clamp_f32";
+  case LOG_F32:
+    return "v_log_f32";
+  case RCP_CLAMP_F32:
+    return "v_rcp_clamp_f32";
+  case RCP_LEGACY_F32:
+    return "v_rcp_legacy_f32";
+  case RCP_F32:
+    return "v_rcp_f32";
+  case RCP_IFLAG_F32:
+    return "v_rcp_iflag_f32";
+  case RSQ_CLAMP_F32:
+    return "v_rsq_clamp_f32";
+  case RSQ_LEGACY_F32:
+    return "v_rsq_legacy_f32";
+  case RSQ_F32:
+    return "v_rsq_f32";
+  case RCP_F64:
+    return "v_rcp_f64";
+  case RCP_CLAMP_F64:
+    return "v_rcp_clamp_f64";
+  case RSQ_F64:
+    return "v_rsq_f64";
+  case RSQ_CLAMP_F64:
+    return "v_rsq_clamp_f64";
+  case SQRT_F32:
+    return "v_sqrt_f32";
+  case SQRT_F64:
+    return "v_sqrt_f64";
+  case SIN_F32:
+    return "v_sin_f32";
+  case COS_F32:
+    return "v_cos_f32";
+  case NOT_B32:
+    return "v_not_b32";
+  case BFREV_B32:
+    return "v_bfrev_b32";
+  case FFBH_U32:
+    return "v_ffbh_u32";
+  case FFBL_B32:
+    return "v_ffbl_b32";
+  case FFBH_I32:
+    return "v_ffbh_i32";
+  case FREXP_EXP_I32_F64:
+    return "v_frexp_exp_i32_f64";
+  case FREXP_MANT_F64:
+    return "v_frexp_mant_f64";
+  case FRACT_F64:
+    return "v_fract_f64";
+  case FREXP_EXP_I32_F32:
+    return "v_frexp_exp_i32_f32";
+  case FREXP_MANT_F32:
+    return "v_frexp_mant_f32";
+  case CLREXCP:
+    return "v_clrexcp";
+  case MOVRELD_B32:
+    return "v_movreld_b32";
+  case MOVRELS_B32:
+    return "v_movrels_b32";
+  case MOVRELSD_B32:
+    return "v_movrelsd_b32";
+  }
+  return nullptr;
+}
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vopc.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vopc.hpp
new file mode 100644
index 00000000..49cab95d
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/dialect/vopc.hpp
@@ -0,0 +1,522 @@
+#pragma once
+
+namespace shader::ir::vopc {
+enum Op {
+  CMP_F_F32,
+  CMP_LT_F32,
+  CMP_EQ_F32,
+  CMP_LE_F32,
+  CMP_GT_F32,
+  CMP_LG_F32,
+  CMP_GE_F32,
+  CMP_O_F32,
+  CMP_U_F32,
+  CMP_NGE_F32,
+  CMP_NLG_F32,
+  CMP_NGT_F32,
+  CMP_NLE_F32,
+  CMP_NEQ_F32,
+  CMP_NLT_F32,
+  CMP_TRU_F32,
+  CMPX_F_F32,
+  CMPX_LT_F32,
+  CMPX_EQ_F32,
+  CMPX_LE_F32,
+  CMPX_GT_F32,
+  CMPX_LG_F32,
+  CMPX_GE_F32,
+  CMPX_O_F32,
+  CMPX_U_F32,
+  CMPX_NGE_F32,
+  CMPX_NLG_F32,
+  CMPX_NGT_F32,
+  CMPX_NLE_F32,
+  CMPX_NEQ_F32,
+  CMPX_NLT_F32,
+  CMPX_TRU_F32,
+  CMP_F_F64,
+  CMP_LT_F64,
+  CMP_EQ_F64,
+  CMP_LE_F64,
+  CMP_GT_F64,
+  CMP_LG_F64,
+  CMP_GE_F64,
+  CMP_O_F64,
+  CMP_U_F64,
+  CMP_NGE_F64,
+  CMP_NLG_F64,
+  CMP_NGT_F64,
+  CMP_NLE_F64,
+  CMP_NEQ_F64,
+  CMP_NLT_F64,
+  CMP_TRU_F64,
+  CMPX_F_F64,
+  CMPX_LT_F64,
+  CMPX_EQ_F64,
+  CMPX_LE_F64,
+  CMPX_GT_F64,
+  CMPX_LG_F64,
+  CMPX_GE_F64,
+  CMPX_O_F64,
+  CMPX_U_F64,
+  CMPX_NGE_F64,
+  CMPX_NLG_F64,
+  CMPX_NGT_F64,
+  CMPX_NLE_F64,
+  CMPX_NEQ_F64,
+  CMPX_NLT_F64,
+  CMPX_TRU_F64,
+  CMPS_F_F32,
+  CMPS_LT_F32,
+  CMPS_EQ_F32,
+  CMPS_LE_F32,
+  CMPS_GT_F32,
+  CMPS_LG_F32,
+  CMPS_GE_F32,
+  CMPS_O_F32,
+  CMPS_U_F32,
+  CMPS_NGE_F32,
+  CMPS_NLG_F32,
+  CMPS_NGT_F32,
+  CMPS_NLE_F32,
+  CMPS_NEQ_F32,
+  CMPS_NLT_F32,
+  CMPS_TRU_F32,
+  CMPSX_F_F32,
+  CMPSX_LT_F32,
+  CMPSX_EQ_F32,
+  CMPSX_LE_F32,
+  CMPSX_GT_F32,
+  CMPSX_LG_F32,
+  CMPSX_GE_F32,
+  CMPSX_O_F32,
+  CMPSX_U_F32,
+  CMPSX_NGE_F32,
+  CMPSX_NLG_F32,
+  CMPSX_NGT_F32,
+  CMPSX_NLE_F32,
+  CMPSX_NEQ_F32,
+  CMPSX_NLT_F32,
+  CMPSX_TRU_F32,
+  CMPS_F_F64,
+  CMPS_LT_F64,
+  CMPS_EQ_F64,
+  CMPS_LE_F64,
+  CMPS_GT_F64,
+  CMPS_LG_F64,
+  CMPS_GE_F64,
+  CMPS_O_F64,
+  CMPS_U_F64,
+  CMPS_NGE_F64,
+  CMPS_NLG_F64,
+  CMPS_NGT_F64,
+  CMPS_NLE_F64,
+  CMPS_NEQ_F64,
+  CMPS_NLT_F64,
+  CMPS_TRU_F64,
+  CMPSX_F_F64,
+  CMPSX_LT_F64,
+  CMPSX_EQ_F64,
+  CMPSX_LE_F64,
+  CMPSX_GT_F64,
+  CMPSX_LG_F64,
+  CMPSX_GE_F64,
+  CMPSX_O_F64,
+  CMPSX_U_F64,
+  CMPSX_NGE_F64,
+  CMPSX_NLG_F64,
+  CMPSX_NGT_F64,
+  CMPSX_NLE_F64,
+  CMPSX_NEQ_F64,
+  CMPSX_NLT_F64,
+  CMPSX_TRU_F64,
+  CMP_F_I32,
+  CMP_LT_I32,
+  CMP_EQ_I32,
+  CMP_LE_I32,
+  CMP_GT_I32,
+  CMP_NE_I32,
+  CMP_GE_I32,
+  CMP_T_I32,
+  CMP_CLASS_F32,
+  CMP_LT_I16,
+  CMP_EQ_I16,
+  CMP_LE_I16,
+  CMP_GT_I16,
+  CMP_NE_I16,
+  CMP_GE_I16,
+  CMP_CLASS_F16,
+  CMPX_F_I32,
+  CMPX_LT_I32,
+  CMPX_EQ_I32,
+  CMPX_LE_I32,
+  CMPX_GT_I32,
+  CMPX_NE_I32,
+  CMPX_GE_I32,
+  CMPX_T_I32,
+  CMPX_CLASS_F32,
+  CMPX_LT_I16,
+  CMPX_EQ_I16,
+  CMPX_LE_I16,
+  CMPX_GT_I16,
+  CMPX_NE_I16,
+  CMPX_GE_I16,
+  CMPX_CLASS_F16,
+  CMP_F_I64,
+  CMP_LT_I64,
+  CMP_EQ_I64,
+  CMP_LE_I64,
+  CMP_GT_I64,
+  CMP_NE_I64,
+  CMP_GE_I64,
+  CMP_T_I64,
+  CMP_CLASS_F64,
+  CMP_LT_U16,
+  CMP_EQ_U16,
+  CMP_LE_U16,
+  CMP_GT_U16,
+  CMP_NE_U16,
+  CMP_GE_U16,
+  CMPX_F_I64 = 176,
+  CMPX_LT_I64,
+  CMPX_EQ_I64,
+  CMPX_LE_I64,
+  CMPX_GT_I64,
+  CMPX_NE_I64,
+  CMPX_GE_I64,
+  CMPX_T_I64,
+  CMPX_CLASS_F64,
+  CMPX_LT_U16,
+  CMPX_EQ_U16,
+  CMPX_LE_U16,
+  CMPX_GT_U16,
+  CMPX_NE_U16,
+  CMPX_GE_U16,
+  CMP_F_U32 = 192,
+  CMP_LT_U32,
+  CMP_EQ_U32,
+  CMP_LE_U32,
+  CMP_GT_U32,
+  CMP_NE_U32,
+  CMP_GE_U32,
+  CMP_T_U32,
+  CMP_F_F16,
+  CMP_LT_F16,
+  CMP_EQ_F16,
+  CMP_LE_F16,
+  CMP_GT_F16,
+  CMP_LG_F16,
+  CMP_GE_F16,
+  CMP_O_F16,
+  CMPX_F_U32,
+  CMPX_LT_U32,
+  CMPX_EQ_U32,
+  CMPX_LE_U32,
+  CMPX_GT_U32,
+  CMPX_NE_U32,
+  CMPX_GE_U32,
+  CMPX_T_U32,
+  CMPX_F_F16,
+  CMPX_LT_F16,
+  CMPX_EQ_F16,
+  CMPX_LE_F16,
+  CMPX_GT_F16,
+  CMPX_LG_F16,
+  CMPX_GE_F16,
+  CMPX_O_F16,
+  CMP_F_U64,
+  CMP_LT_U64,
+  CMP_EQ_U64,
+  CMP_LE_U64,
+  CMP_GT_U64,
+  CMP_NE_U64,
+  CMP_GE_U64,
+  CMP_T_U64,
+  CMP_U_F16,
+  CMP_NGE_F16,
+  CMP_NLG_F16,
+  CMP_NGT_F16,
+  CMP_NLE_F16,
+  CMP_NEQ_F16,
+  CMP_NLT_F16,
+  CMP_TRU_F16,
+  CMPX_F_U64,
+  CMPX_LT_U64,
+  CMPX_EQ_U64,
+  CMPX_LE_U64,
+  CMPX_GT_U64,
+  CMPX_NE_U64,
+  CMPX_GE_U64,
+  CMPX_T_U64,
+  CMPX_U_F16,
+  CMPX_NGE_F16,
+  CMPX_NLG_F16,
+  CMPX_NGT_F16,
+  CMPX_NLE_F16,
+  CMPX_NEQ_F16,
+  CMPX_NLT_F16,
+  CMPX_TRU_F16,
+
+  OpCount
+};
+
+inline const char *getInstructionName(unsigned id) {
+  switch (id) {
+  case CMP_F_F32: return "v_cmp_f_f32";
+  case CMP_LT_F32: return "v_cmp_lt_f32";
+  case CMP_EQ_F32: return "v_cmp_eq_f32";
+  case CMP_LE_F32: return "v_cmp_le_f32";
+  case CMP_GT_F32: return "v_cmp_gt_f32";
+  case CMP_LG_F32: return "v_cmp_lg_f32";
+  case CMP_GE_F32: return "v_cmp_ge_f32";
+  case CMP_O_F32: return "v_cmp_o_f32";
+  case CMP_U_F32: return "v_cmp_u_f32";
+  case CMP_NGE_F32: return "v_cmp_nge_f32";
+  case CMP_NLG_F32: return "v_cmp_nlg_f32";
+  case CMP_NGT_F32: return "v_cmp_ngt_f32";
+  case CMP_NLE_F32: return "v_cmp_nle_f32";
+  case CMP_NEQ_F32: return "v_cmp_neq_f32";
+  case CMP_NLT_F32: return "v_cmp_nlt_f32";
+  case CMP_TRU_F32: return "v_cmp_tru_f32";
+  case CMPX_F_F32: return "v_cmpx_f_f32";
+  case CMPX_LT_F32: return "v_cmpx_lt_f32";
+  case CMPX_EQ_F32: return "v_cmpx_eq_f32";
+  case CMPX_LE_F32: return "v_cmpx_le_f32";
+  case CMPX_GT_F32: return "v_cmpx_gt_f32";
+  case CMPX_LG_F32: return "v_cmpx_lg_f32";
+  case CMPX_GE_F32: return "v_cmpx_ge_f32";
+  case CMPX_O_F32: return "v_cmpx_o_f32";
+  case CMPX_U_F32: return "v_cmpx_u_f32";
+  case CMPX_NGE_F32: return "v_cmpx_nge_f32";
+  case CMPX_NLG_F32: return "v_cmpx_nlg_f32";
+  case CMPX_NGT_F32: return "v_cmpx_ngt_f32";
+  case CMPX_NLE_F32: return "v_cmpx_nle_f32";
+  case CMPX_NEQ_F32: return "v_cmpx_neq_f32";
+  case CMPX_NLT_F32: return "v_cmpx_nlt_f32";
+  case CMPX_TRU_F32: return "v_cmpx_tru_f32";
+  case CMP_F_F64: return "v_cmp_f_f64";
+  case CMP_LT_F64: return "v_cmp_lt_f64";
+  case CMP_EQ_F64: return "v_cmp_eq_f64";
+  case CMP_LE_F64: return "v_cmp_le_f64";
+  case CMP_GT_F64: return "v_cmp_gt_f64";
+  case CMP_LG_F64: return "v_cmp_lg_f64";
+  case CMP_GE_F64: return "v_cmp_ge_f64";
+  case CMP_O_F64: return "v_cmp_o_f64";
+  case CMP_U_F64: return "v_cmp_u_f64";
+  case CMP_NGE_F64: return "v_cmp_nge_f64";
+  case CMP_NLG_F64: return "v_cmp_nlg_f64";
+  case CMP_NGT_F64: return "v_cmp_ngt_f64";
+  case CMP_NLE_F64: return "v_cmp_nle_f64";
+  case CMP_NEQ_F64: return "v_cmp_neq_f64";
+  case CMP_NLT_F64: return "v_cmp_nlt_f64";
+  case CMP_TRU_F64: return "v_cmp_tru_f64";
+  case CMPX_F_F64: return "v_cmpx_f_f64";
+  case CMPX_LT_F64: return "v_cmpx_lt_f64";
+  case CMPX_EQ_F64: return "v_cmpx_eq_f64";
+  case CMPX_LE_F64: return "v_cmpx_le_f64";
+  case CMPX_GT_F64: return "v_cmpx_gt_f64";
+  case CMPX_LG_F64: return "v_cmpx_lg_f64";
+  case CMPX_GE_F64: return "v_cmpx_ge_f64";
+  case CMPX_O_F64: return "v_cmpx_o_f64";
+  case CMPX_U_F64: return "v_cmpx_u_f64";
+  case CMPX_NGE_F64: return "v_cmpx_nge_f64";
+  case CMPX_NLG_F64: return "v_cmpx_nlg_f64";
+  case CMPX_NGT_F64: return "v_cmpx_ngt_f64";
+  case CMPX_NLE_F64: return "v_cmpx_nle_f64";
+  case CMPX_NEQ_F64: return "v_cmpx_neq_f64";
+  case CMPX_NLT_F64: return "v_cmpx_nlt_f64";
+  case CMPX_TRU_F64: return "v_cmpx_tru_f64";
+  case CMPS_F_F32: return "v_cmps_f_f32";
+  case CMPS_LT_F32: return "v_cmps_lt_f32";
+  case CMPS_EQ_F32: return "v_cmps_eq_f32";
+  case CMPS_LE_F32: return "v_cmps_le_f32";
+  case CMPS_GT_F32: return "v_cmps_gt_f32";
+  case CMPS_LG_F32: return "v_cmps_lg_f32";
+  case CMPS_GE_F32: return "v_cmps_ge_f32";
+  case CMPS_O_F32: return "v_cmps_o_f32";
+  case CMPS_U_F32: return "v_cmps_u_f32";
+  case CMPS_NGE_F32: return "v_cmps_nge_f32";
+  case CMPS_NLG_F32: return "v_cmps_nlg_f32";
+  case CMPS_NGT_F32: return "v_cmps_ngt_f32";
+  case CMPS_NLE_F32: return "v_cmps_nle_f32";
+  case CMPS_NEQ_F32: return "v_cmps_neq_f32";
+  case CMPS_NLT_F32: return "v_cmps_nlt_f32";
+  case CMPS_TRU_F32: return "v_cmps_tru_f32";
+  case CMPSX_F_F32: return "v_cmpsx_f_f32";
+  case CMPSX_LT_F32: return "v_cmpsx_lt_f32";
+  case CMPSX_EQ_F32: return "v_cmpsx_eq_f32";
+  case CMPSX_LE_F32: return "v_cmpsx_le_f32";
+  case CMPSX_GT_F32: return "v_cmpsx_gt_f32";
+  case CMPSX_LG_F32: return "v_cmpsx_lg_f32";
+  case CMPSX_GE_F32: return "v_cmpsx_ge_f32";
+  case CMPSX_O_F32: return "v_cmpsx_o_f32";
+  case CMPSX_U_F32: return "v_cmpsx_u_f32";
+  case CMPSX_NGE_F32: return "v_cmpsx_nge_f32";
+  case CMPSX_NLG_F32: return "v_cmpsx_nlg_f32";
+  case CMPSX_NGT_F32: return "v_cmpsx_ngt_f32";
+  case CMPSX_NLE_F32: return "v_cmpsx_nle_f32";
+  case CMPSX_NEQ_F32: return "v_cmpsx_neq_f32";
+  case CMPSX_NLT_F32: return "v_cmpsx_nlt_f32";
+  case CMPSX_TRU_F32: return "v_cmpsx_tru_f32";
+  case CMPS_F_F64: return "v_cmps_f_f64";
+  case CMPS_LT_F64: return "v_cmps_lt_f64";
+  case CMPS_EQ_F64: return "v_cmps_eq_f64";
+  case CMPS_LE_F64: return "v_cmps_le_f64";
+  case CMPS_GT_F64: return "v_cmps_gt_f64";
+  case CMPS_LG_F64: return "v_cmps_lg_f64";
+  case CMPS_GE_F64: return "v_cmps_ge_f64";
+  case CMPS_O_F64: return "v_cmps_o_f64";
+  case CMPS_U_F64: return "v_cmps_u_f64";
+  case CMPS_NGE_F64: return "v_cmps_nge_f64";
+  case CMPS_NLG_F64: return "v_cmps_nlg_f64";
+  case CMPS_NGT_F64: return "v_cmps_ngt_f64";
+  case CMPS_NLE_F64: return "v_cmps_nle_f64";
+  case CMPS_NEQ_F64: return "v_cmps_neq_f64";
+  case CMPS_NLT_F64: return "v_cmps_nlt_f64";
+  case CMPS_TRU_F64: return "v_cmps_tru_f64";
+  case CMPSX_F_F64: return "v_cmpsx_f_f64";
+  case CMPSX_LT_F64: return "v_cmpsx_lt_f64";
+  case CMPSX_EQ_F64: return "v_cmpsx_eq_f64";
+  case CMPSX_LE_F64: return "v_cmpsx_le_f64";
+  case CMPSX_GT_F64: return "v_cmpsx_gt_f64";
+  case CMPSX_LG_F64: return "v_cmpsx_lg_f64";
+  case CMPSX_GE_F64: return "v_cmpsx_ge_f64";
+  case CMPSX_O_F64: return "v_cmpsx_o_f64";
+  case CMPSX_U_F64: return "v_cmpsx_u_f64";
+  case CMPSX_NGE_F64: return "v_cmpsx_nge_f64";
+  case CMPSX_NLG_F64: return "v_cmpsx_nlg_f64";
+  case CMPSX_NGT_F64: return "v_cmpsx_ngt_f64";
+  case CMPSX_NLE_F64: return "v_cmpsx_nle_f64";
+  case CMPSX_NEQ_F64: return "v_cmpsx_neq_f64";
+  case CMPSX_NLT_F64: return "v_cmpsx_nlt_f64";
+  case CMPSX_TRU_F64: return "v_cmpsx_tru_f64";
+  case CMP_F_I32: return "v_cmp_f_i32";
+  case CMP_LT_I32: return "v_cmp_lt_i32";
+  case CMP_EQ_I32: return "v_cmp_eq_i32";
+  case CMP_LE_I32: return "v_cmp_le_i32";
+  case CMP_GT_I32: return "v_cmp_gt_i32";
+  case CMP_NE_I32: return "v_cmp_ne_i32";
+  case CMP_GE_I32: return "v_cmp_ge_i32";
+  case CMP_T_I32: return "v_cmp_t_i32";
+  case CMP_CLASS_F32: return "v_cmp_class_f32";
+  case CMP_LT_I16: return "v_cmp_lt_i16";
+  case CMP_EQ_I16: return "v_cmp_eq_i16";
+  case CMP_LE_I16: return "v_cmp_le_i16";
+  case CMP_GT_I16: return "v_cmp_gt_i16";
+  case CMP_NE_I16: return "v_cmp_ne_i16";
+  case CMP_GE_I16: return "v_cmp_ge_i16";
+  case CMP_CLASS_F16: return "v_cmp_class_f16";
+  case CMPX_F_I32: return "v_cmpx_f_i32";
+  case CMPX_LT_I32: return "v_cmpx_lt_i32";
+  case CMPX_EQ_I32: return "v_cmpx_eq_i32";
+  case CMPX_LE_I32: return "v_cmpx_le_i32";
+  case CMPX_GT_I32: return "v_cmpx_gt_i32";
+  case CMPX_NE_I32: return "v_cmpx_ne_i32";
+  case CMPX_GE_I32: return "v_cmpx_ge_i32";
+  case CMPX_T_I32: return "v_cmpx_t_i32";
+  case CMPX_CLASS_F32: return "v_cmpx_class_f32";
+  case CMPX_LT_I16: return "v_cmpx_lt_i16";
+  case CMPX_EQ_I16: return "v_cmpx_eq_i16";
+  case CMPX_LE_I16: return "v_cmpx_le_i16";
+  case CMPX_GT_I16: return "v_cmpx_gt_i16";
+  case CMPX_NE_I16: return "v_cmpx_ne_i16";
+  case CMPX_GE_I16: return "v_cmpx_ge_i16";
+  case CMPX_CLASS_F16: return "v_cmpx_class_f16";
+  case CMP_F_I64: return "v_cmp_f_i64";
+  case CMP_LT_I64: return "v_cmp_lt_i64";
+  case CMP_EQ_I64: return "v_cmp_eq_i64";
+  case CMP_LE_I64: return "v_cmp_le_i64";
+  case CMP_GT_I64: return "v_cmp_gt_i64";
+  case CMP_NE_I64: return "v_cmp_ne_i64";
+  case CMP_GE_I64: return "v_cmp_ge_i64";
+  case CMP_T_I64: return "v_cmp_t_i64";
+  case CMP_CLASS_F64: return "v_cmp_class_f64";
+  case CMP_LT_U16: return "v_cmp_lt_u16";
+  case CMP_EQ_U16: return "v_cmp_eq_u16";
+  case CMP_LE_U16: return "v_cmp_le_u16";
+  case CMP_GT_U16: return "v_cmp_gt_u16";
+  case CMP_NE_U16: return "v_cmp_ne_u16";
+  case CMP_GE_U16: return "v_cmp_ge_u16";
+  case CMPX_F_I64: return "v_cmpx_f_i64";
+  case CMPX_LT_I64: return "v_cmpx_lt_i64";
+  case CMPX_EQ_I64: return "v_cmpx_eq_i64";
+  case CMPX_LE_I64: return "v_cmpx_le_i64";
+  case CMPX_GT_I64: return "v_cmpx_gt_i64";
+  case CMPX_NE_I64: return "v_cmpx_ne_i64";
+  case CMPX_GE_I64: return "v_cmpx_ge_i64";
+  case CMPX_T_I64: return "v_cmpx_t_i64";
+  case CMPX_CLASS_F64: return "v_cmpx_class_f64";
+  case CMPX_LT_U16: return "v_cmpx_lt_u16";
+  case CMPX_EQ_U16: return "v_cmpx_eq_u16";
+  case CMPX_LE_U16: return "v_cmpx_le_u16";
+  case CMPX_GT_U16: return "v_cmpx_gt_u16";
+  case CMPX_NE_U16: return "v_cmpx_ne_u16";
+  case CMPX_GE_U16: return "v_cmpx_ge_u16";
+  case CMP_F_U32: return "v_cmp_f_u32";
+  case CMP_LT_U32: return "v_cmp_lt_u32";
+  case CMP_EQ_U32: return "v_cmp_eq_u32";
+  case CMP_LE_U32: return "v_cmp_le_u32";
+  case CMP_GT_U32: return "v_cmp_gt_u32";
+  case CMP_NE_U32: return "v_cmp_ne_u32";
+  case CMP_GE_U32: return "v_cmp_ge_u32";
+  case CMP_T_U32: return "v_cmp_t_u32";
+  case CMP_F_F16: return "v_cmp_f_f16";
+  case CMP_LT_F16: return "v_cmp_lt_f16";
+  case CMP_EQ_F16: return "v_cmp_eq_f16";
+  case CMP_LE_F16: return "v_cmp_le_f16";
+  case CMP_GT_F16: return "v_cmp_gt_f16";
+  case CMP_LG_F16: return "v_cmp_lg_f16";
+  case CMP_GE_F16: return "v_cmp_ge_f16";
+  case CMP_O_F16: return "v_cmp_o_f16";
+  case CMPX_F_U32: return "v_cmpx_f_u32";
+  case CMPX_LT_U32: return "v_cmpx_lt_u32";
+  case CMPX_EQ_U32: return "v_cmpx_eq_u32";
+  case CMPX_LE_U32: return "v_cmpx_le_u32";
+  case CMPX_GT_U32: return "v_cmpx_gt_u32";
+  case CMPX_NE_U32: return "v_cmpx_ne_u32";
+  case CMPX_GE_U32: return "v_cmpx_ge_u32";
+  case CMPX_T_U32: return "v_cmpx_t_u32";
+  case CMPX_F_F16: return "v_cmpx_f_f16";
+  case CMPX_LT_F16: return "v_cmpx_lt_f16";
+  case CMPX_EQ_F16: return "v_cmpx_eq_f16";
+  case CMPX_LE_F16: return "v_cmpx_le_f16";
+  case CMPX_GT_F16: return "v_cmpx_gt_f16";
+  case CMPX_LG_F16: return "v_cmpx_lg_f16";
+  case CMPX_GE_F16: return "v_cmpx_ge_f16";
+  case CMPX_O_F16: return "v_cmpx_o_f16";
+  case CMP_F_U64: return "v_cmp_f_u64";
+  case CMP_LT_U64: return "v_cmp_lt_u64";
+  case CMP_EQ_U64: return "v_cmp_eq_u64";
+  case CMP_LE_U64: return "v_cmp_le_u64";
+  case CMP_GT_U64: return "v_cmp_gt_u64";
+  case CMP_NE_U64: return "v_cmp_ne_u64";
+  case CMP_GE_U64: return "v_cmp_ge_u64";
+  case CMP_T_U64: return "v_cmp_t_u64";
+  case CMP_U_F16: return "v_cmp_u_f16";
+  case CMP_NGE_F16: return "v_cmp_nge_f16";
+  case CMP_NLG_F16: return "v_cmp_nlg_f16";
+  case CMP_NGT_F16: return "v_cmp_ngt_f16";
+  case CMP_NLE_F16: return "v_cmp_nle_f16";
+  case CMP_NEQ_F16: return "v_cmp_neq_f16";
+  case CMP_NLT_F16: return "v_cmp_nlt_f16";
+  case CMP_TRU_F16: return "v_cmp_tru_f16";
+  case CMPX_F_U64: return "v_cmpx_f_u64";
+  case CMPX_LT_U64: return "v_cmpx_lt_u64";
+  case CMPX_EQ_U64: return "v_cmpx_eq_u64";
+  case CMPX_LE_U64: return "v_cmpx_le_u64";
+  case CMPX_GT_U64: return "v_cmpx_gt_u64";
+  case CMPX_NE_U64: return "v_cmpx_ne_u64";
+  case CMPX_GE_U64: return "v_cmpx_ge_u64";
+  case CMPX_T_U64: return "v_cmpx_t_u64";
+  case CMPX_U_F16: return "v_cmpx_u_f16";
+  case CMPX_NGE_F16: return "v_cmpx_nge_f16";
+  case CMPX_NLG_F16: return "v_cmpx_nlg_f16";
+  case CMPX_NGT_F16: return "v_cmpx_ngt_f16";
+  case CMPX_NLE_F16: return "v_cmpx_nle_f16";
+  case CMPX_NEQ_F16: return "v_cmpx_neq_f16";
+  case CMPX_NLT_F16: return "v_cmpx_nlt_f16";
+  case CMPX_TRU_F16: return "v_cmpx_tru_f16";
+  }
+  return nullptr;
+}
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/eval.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/eval.hpp
new file mode 100644
index 00000000..948731dc
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/eval.hpp
@@ -0,0 +1,92 @@
+#pragma once
+
+#include "Vector.hpp"
+#include "ir/Value.hpp"
+#include <cstdint>
+#include <variant>
+#include <array>
+
+namespace shader::eval {
+struct Value {
+  using Storage = std::variant<
+      std::nullptr_t, std::int8_t, std::int16_t, std::int32_t, std::int64_t,
+      std::uint8_t, std::uint16_t, std::uint32_t, std::uint64_t, float16_t,
+      float32_t, float64_t, u8vec2, u8vec3, u8vec4, i8vec2, i8vec3, i8vec4,
+      u16vec2, u16vec3, u16vec4, i16vec2, i16vec3, i16vec4, u32vec2, u32vec3,
+      u32vec4, i32vec2, i32vec3, i32vec4, u64vec2, u64vec3, u64vec4, i64vec2,
+      i64vec3, i64vec4, f32vec2, f32vec3, f32vec4, f64vec2, f64vec3, f64vec4,
+      f16vec2, f16vec3, f16vec4, bool, bvec2, bvec3, bvec4, std::array<uint32_t, 8>>;
+  static constexpr auto StorageSize = std::variant_size_v<Storage>;
+  Storage storage;
+
+  explicit operator bool() const { return !empty(); }
+  bool empty() const { return storage.index() == 0; }
+
+  Value() : storage(nullptr) {}
+
+  template <typename T>
+  Value(T &&value)
+    requires requires { Storage(std::forward<T>(value)); }
+      : storage(std::forward<T>(value)) {}
+
+  static Value compositeConstruct(ir::Value type,
+                                  std::span<const Value> constituents);
+  Value compositeExtract(const Value &index) const;
+  // Value compositeInsert(const Value &object, std::size_t index) const;
+
+  Value isNan() const;
+  Value isInf() const;
+  Value isFinite() const;
+  Value makeUnsigned() const;
+  Value makeSigned() const;
+  Value all() const;
+  Value any() const;
+  Value select(const Value &trueValue, const Value &falseValue) const;
+  Value iConvert(ir::Value type, bool isSigned) const;
+  Value sConvert(ir::Value type) const { return iConvert(type, true); }
+  Value uConvert(ir::Value type) const { return iConvert(type, false); }
+  Value fConvert(ir::Value type) const;
+  Value bitcast(ir::Value type) const;
+  std::optional<std::uint64_t> zExtScalar() const;
+  std::optional<std::int64_t> sExtScalar() const;
+
+  template <typename T>
+    requires requires { std::get<T>(storage); }
+  T get() const {
+    return std::get<T>(storage);
+  }
+
+  template <typename T>
+    requires requires { std::get<T>(storage); }
+  std::optional<T> as() const {
+    if (auto result = std::get_if<T>(&storage)) {
+      return *result;
+    }
+
+    return std::nullopt;
+  }
+
+  Value operator+(const Value &rhs) const;
+  Value operator-(const Value &rhs) const;
+  Value operator*(const Value &rhs) const;
+  Value operator/(const Value &rhs) const;
+  Value operator%(const Value &rhs) const;
+  Value operator&(const Value &rhs) const;
+  Value operator|(const Value &rhs) const;
+  Value operator^(const Value &rhs) const;
+  Value operator>>(const Value &rhs) const;
+  Value operator<<(const Value &rhs) const;
+  Value operator&&(const Value &rhs) const;
+  Value operator||(const Value &rhs) const;
+  Value operator<(const Value &rhs) const;
+  Value operator>(const Value &rhs) const;
+  Value operator<=(const Value &rhs) const;
+  Value operator>=(const Value &rhs) const;
+  Value operator==(const Value &rhs) const;
+  Value operator!=(const Value &rhs) const;
+
+  Value operator-() const;
+  Value operator~() const;
+  Value operator!() const;
+};
+} // namespace shader::eval
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/gcn.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/gcn.hpp
new file mode 100644
index 00000000..5dc6821b
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/gcn.hpp
@@ -0,0 +1,125 @@
+#pragma once
+
+#include "SemanticInfo.hpp"
+#include "SpvConverter.hpp"
+#include "analyze.hpp"
+#include "rx/MemoryTable.hpp"
+#include "spv.hpp"
+
+#include <cstdint>
+#include <functional>
+
+namespace shader::gcn {
+using Builder = ir::Builder<ir::spv::Builder, ir::builtin::Builder>;
+
+enum class Stage {
+  Ps,
+  VsVs,
+  VsEs,
+  VsLs,
+  Cs,
+  Gs,
+  GsVs,
+  Hs,
+  DsVs,
+  DsEs,
+
+  Invalid,
+};
+
+struct Import : spv::Import {
+  ir::Node getOrCloneImpl(ir::Context &context, ir::Node node,
+                          bool isOperand) override;
+};
+
+struct SemanticModuleInfo : shader::SemanticModuleInfo {
+  std::map<int, ir::Value> registerVariables;
+};
+
+void canonicalizeSemantic(ir::Context &context,
+                          const spv::BinaryLayout &semantic);
+void collectSemanticModuleInfo(SemanticModuleInfo &moduleInfo,
+                               const spv::BinaryLayout &layout);
+SemanticInfo collectSemanticInfo(const SemanticModuleInfo &moduleInfo);
+
+struct InstructionRegion : ir::RegionLikeImpl {
+  ir::RegionLike base;
+  ir::Instruction *firstInstruction;
+
+  void insertAfter(ir::Instruction point, ir::Instruction node) {
+    if (!*firstInstruction) {
+      *firstInstruction = node;
+    }
+
+    base.insertAfter(point, node);
+  }
+};
+
+enum RegId {
+  Sgpr,
+  Vgpr,
+  M0,
+  Scc,
+  Vcc,
+  Exec,
+  VccZ,
+  ExecZ,
+  LdsDirect,
+  SgprCount,
+  VgprCount,
+  ThreadId,
+  MemoryTable,
+  Gds,
+};
+
+struct Context : spv::Context {
+  ir::Region body;
+  rx::MemoryAreaTable<> memoryMap;
+  std::uint32_t requiredUserSgprs = 0;
+  std::map<RegId, ir::Value> registerVariables;
+  std::map<std::uint64_t, ir::Instruction> instructions;
+  AnalysisStorage analysis;
+
+  std::pair<ir::Value, bool> getOrCreateLabel(ir::Location loc, ir::Region body,
+                                              std::uint64_t address);
+  Builder createBuilder(InstructionRegion &region, ir::Region bodyRegion,
+                        std::uint64_t address);
+
+  ir::Value createCast(ir::Location loc, Builder &builder, ir::Value targetType,
+                       ir::Value value);
+
+  void setRegisterVariable(RegId id, ir::Value value) {
+    registerVariables[id] = value;
+  }
+
+  ir::Value getOrCreateRegisterVariable(RegId id);
+
+  ir::Value getRegisterRef(ir::Location loc, Builder &builder, RegId id,
+                           const ir::Operand &index, ir::Value lane = nullptr);
+
+  ir::Value readReg(ir::Location loc, Builder &builder, ir::Value typeValue,
+                    RegId id, const ir::Operand &index,
+                    ir::Value lane = nullptr);
+
+  void writeReg(ir::Location loc, Builder &builder, RegId id,
+                const ir::Operand &index, ir::Value value,
+                ir::Value lane = nullptr);
+
+  ir::Value createRegisterAccess(Builder &builder, ir::Location loc,
+                                 ir::Value reg, const ir::Operand &index,
+                                 ir::Value lane = nullptr);
+};
+
+struct Environment {
+  std::uint8_t vgprCount;
+  std::uint8_t sgprCount;
+  std::span<const std::uint32_t> userSgprs;
+  bool supportsBarycentric = true;
+  bool supportsInt8 = false;
+  bool supportsInt64Atomics = false;
+};
+
+ir::Region deserialize(Context &context, const Environment &environment,
+                       const SemanticInfo &semanticInfo, std::uint64_t base,
+                       std::function<std::uint32_t(std::uint64_t)> readMemory);
+} // namespace shader::gcn
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/glsl.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/glsl.hpp
new file mode 100644
index 00000000..b166aed5
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/glsl.hpp
@@ -0,0 +1,31 @@
+#pragma once
+#include "ir/Location.hpp"
+#include "spv.hpp"
+#include <filesystem>
+
+namespace shader::glsl {
+enum class Stage {
+  Library,
+  Vertex,
+  TessControl,
+  TessEvaluation,
+  Geometry,
+  Fragment,
+  Compute,
+  RayGen,
+  Intersect,
+  AnyHit,
+  ClosestHit,
+  Miss,
+  Callable,
+  Task,
+  Mesh,
+};
+
+std::optional<spv::BinaryLayout> parseFile(ir::Context &context, Stage stage,
+                                           const std::filesystem::path &path);
+std::optional<spv::BinaryLayout> parseSource(ir::Context &context, Stage stage,
+                                             std::string_view source,
+                                             ir::Location loc = nullptr);
+std::string decompile(std::span<const std::uint32_t> spv);
+} // namespace shader::glsl
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/graph.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/graph.hpp
new file mode 100644
index 00000000..b505d983
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/graph.hpp
@@ -0,0 +1,320 @@
+#pragma once
+
+#include <map>
+#include <vector>
+
+namespace graph {
+template <typename BasicBlockPtrT> class DomTree {
+public:
+  struct Node {
+    BasicBlockPtrT block = nullptr;
+    Node *immDom = nullptr;
+    unsigned dfsNumIn = ~0;
+    unsigned dfsNumOut = ~0;
+    unsigned level = 0;
+    std::vector<Node *> children;
+
+    bool isLeaf() const { return children.empty(); }
+
+    bool dominatedBy(const Node *other) const {
+      return this->dfsNumIn >= other->dfsNumIn &&
+             this->dfsNumOut <= other->dfsNumOut;
+    }
+  };
+
+private:
+  std::map<BasicBlockPtrT, Node> bbToNodes;
+  Node *rootNode = nullptr;
+
+public:
+  Node *getNode(BasicBlockPtrT bb) {
+    auto it = bbToNodes.find(bb);
+    if (it != bbToNodes.end()) {
+      return &it->second;
+    }
+
+    return nullptr;
+  }
+
+  Node *createChild(BasicBlockPtrT bb, Node *parent) {
+    auto &child = bbToNodes[bb];
+    child.block = bb;
+    child.immDom = parent;
+    child.level = parent->level + 1;
+    parent->children.push_back(&child);
+    return &child;
+  }
+
+  Node *createRoot(BasicBlockPtrT bb) {
+    auto &root = bbToNodes[bb];
+    rootNode = &root;
+    root.block = bb;
+    return rootNode;
+  }
+
+  Node *getRootNode() { return rootNode; }
+
+  void updateDFSNumbers() {
+    std::vector<std::pair<Node *, typename std::vector<Node *>::iterator>>
+        workStack;
+
+    auto root = getRootNode();
+    if (!root)
+      return;
+
+    workStack.push_back({root, root->children.begin()});
+
+    unsigned dfsNum = 0;
+    root->dfsNumIn = dfsNum++;
+
+    while (!workStack.empty()) {
+      auto node = workStack.back().first;
+      const auto childIt = workStack.back().second;
+
+      if (childIt == node->children.end()) {
+        node->dfsNumOut = dfsNum++;
+        workStack.pop_back();
+      } else {
+        auto child = *childIt;
+        ++workStack.back().second;
+
+        workStack.push_back({child, child->children.begin()});
+        child->dfsNumIn = dfsNum++;
+      }
+    }
+  }
+
+  bool dominates(Node *a, Node *b) {
+    if (a == b || b->immDom == a) {
+      return true;
+    }
+
+    if (a->immDom == b || a->level >= b->level) {
+      return false;
+    }
+
+    return b->dominatedBy(a);
+  }
+
+  bool dominates(BasicBlockPtrT a, BasicBlockPtrT b) {
+    return dominates(getNode(a), getNode(b));
+  }
+
+  BasicBlockPtrT getImmediateDominator(BasicBlockPtrT a) {
+    auto immDom = getNode(a)->immDom;
+    if (immDom) {
+      return immDom->block;
+    }
+    return{};
+  }
+
+  bool isImmediateDominator(BasicBlockPtrT block, BasicBlockPtrT immDomBlock) {
+    if (immDomBlock == nullptr) {
+      return false;
+    }
+
+    return getImmediateDominator(immDomBlock) == block;
+  }
+
+  BasicBlockPtrT findNearestCommonDominator(BasicBlockPtrT a,
+                                            BasicBlockPtrT b) {
+    auto aNode = getNode(a);
+    auto bNode = getNode(b);
+
+    if (aNode == rootNode || bNode == rootNode) {
+      return rootNode->block;
+    }
+
+    while (aNode != bNode) {
+      if (aNode->level < bNode->level) {
+        std::swap(aNode, bNode);
+      }
+
+      aNode = aNode->immDom;
+    }
+
+    return aNode->block;
+  }
+};
+
+template <typename BasicBlockPtrT> class DomTreeBuilder {
+  using DomTreeNode = typename DomTree<BasicBlockPtrT>::Node;
+
+  struct NodeInfo {
+    unsigned dfsNum = 0;
+    unsigned parent = 0;
+    unsigned semi = 0;
+    BasicBlockPtrT label = nullptr;
+    BasicBlockPtrT immDom = nullptr;
+    std::vector<BasicBlockPtrT> revChildren;
+  };
+
+  std::vector<BasicBlockPtrT> indexToNode = {nullptr};
+  std::map<BasicBlockPtrT, NodeInfo> nodeToInfo;
+
+  template <typename WalkFn>
+  void runDFS(BasicBlockPtrT root, const WalkFn &walk) {
+    std::vector<BasicBlockPtrT> workList;
+    workList.reserve(10);
+    workList.push_back(root);
+    unsigned index = 0;
+
+    while (!workList.empty()) {
+      auto bb = workList.back();
+      workList.pop_back();
+
+      auto &bbInfo = nodeToInfo[bb];
+
+      if (bbInfo.dfsNum != 0) {
+        continue;
+      }
+
+      bbInfo.dfsNum = bbInfo.semi = ++index;
+      bbInfo.label = bb;
+      indexToNode.push_back(bb);
+
+      walk(bb, [&](BasicBlockPtrT successor) {
+        auto it = nodeToInfo.find(successor);
+        if (it != nodeToInfo.end() && it->second.dfsNum != 0) {
+          if (successor != bb) {
+            it->second.revChildren.push_back(bb);
+          }
+
+          return;
+        }
+
+        auto &succInfo = nodeToInfo[successor];
+        workList.push_back(successor);
+        succInfo.parent = index;
+        succInfo.revChildren.push_back(bb);
+      });
+    }
+  }
+
+  void runSemiNCA() {
+    const unsigned nextDFS = indexToNode.size();
+
+    for (unsigned i = 1; i < nextDFS; ++i) {
+      const BasicBlockPtrT node = indexToNode[i];
+      auto &NodeInfo = nodeToInfo[node];
+      NodeInfo.immDom = indexToNode[NodeInfo.parent];
+    }
+
+    std::vector<NodeInfo *> evalStack;
+    evalStack.reserve(10);
+
+    for (unsigned i = nextDFS - 1; i >= 2; --i) {
+      BasicBlockPtrT node = indexToNode[i];
+      auto &nodeInfo = nodeToInfo[node];
+
+      nodeInfo.semi = nodeInfo.parent;
+      for (const auto &child : nodeInfo.revChildren) {
+        if (!nodeToInfo.contains(child)) {
+          continue;
+        }
+
+        unsigned childSemi = nodeToInfo[eval(child, i + 1, evalStack)].semi;
+        if (childSemi < nodeInfo.semi) {
+          nodeInfo.semi = childSemi;
+        }
+      }
+    }
+
+    for (unsigned i = 2; i < nextDFS; ++i) {
+      const BasicBlockPtrT node = indexToNode[i];
+      auto &nodeInfo = nodeToInfo[node];
+      const unsigned sDomNum = nodeToInfo[indexToNode[nodeInfo.semi]].dfsNum;
+      BasicBlockPtrT immDom = nodeInfo.immDom;
+
+      while (nodeToInfo[immDom].dfsNum > sDomNum) {
+        immDom = nodeToInfo[immDom].immDom;
+      }
+
+      nodeInfo.immDom = immDom;
+    }
+  }
+
+  BasicBlockPtrT eval(BasicBlockPtrT block, unsigned LastLinked,
+                      std::vector<NodeInfo *> &stack) {
+    NodeInfo *blockInfo = &nodeToInfo[block];
+    if (blockInfo->parent < LastLinked)
+      return blockInfo->label;
+
+    do {
+      stack.push_back(blockInfo);
+      blockInfo = &nodeToInfo[indexToNode[blockInfo->parent]];
+    } while (blockInfo->parent >= LastLinked);
+
+    const NodeInfo *pInfo = blockInfo;
+    const NodeInfo *pLabelInfo = &nodeToInfo[pInfo->label];
+    do {
+      blockInfo = stack.back();
+      stack.pop_back();
+
+      blockInfo->parent = pInfo->parent;
+      const NodeInfo *labelInfo = &nodeToInfo[blockInfo->label];
+      if (pLabelInfo->semi < labelInfo->semi) {
+        blockInfo->label = pInfo->label;
+      } else {
+        pLabelInfo = labelInfo;
+      }
+
+      pInfo = blockInfo;
+    } while (!stack.empty());
+    return blockInfo->label;
+  }
+
+  DomTreeNode *getNodeForBlock(BasicBlockPtrT BB, DomTree<BasicBlockPtrT> &DT) {
+    if (auto Node = DT.getNode(BB))
+      return Node;
+
+    BasicBlockPtrT IDom = getIDom(BB);
+    auto IDomNode = getNodeForBlock(IDom, DT);
+
+    return DT.createChild(BB, IDomNode);
+  }
+
+  BasicBlockPtrT getIDom(BasicBlockPtrT BB) const {
+    auto InfoIt = nodeToInfo.find(BB);
+    if (InfoIt == nodeToInfo.end())
+      return nullptr;
+
+    return InfoIt->second.immDom;
+  }
+
+public:
+  template <typename WalkFn>
+  DomTree<BasicBlockPtrT> build(BasicBlockPtrT root,
+                                const WalkFn &walkSuccessors) {
+    runDFS(root, walkSuccessors);
+    runSemiNCA();
+
+    DomTree<BasicBlockPtrT> domTree;
+    domTree.createRoot(root);
+
+    nodeToInfo[indexToNode[1]].immDom = root;
+
+    for (size_t i = 1, e = indexToNode.size(); i != e; ++i) {
+      BasicBlockPtrT node = indexToNode[i];
+
+      if (domTree.getNode(node))
+        continue;
+
+      BasicBlockPtrT immDom = getIDom(node);
+
+      auto immDomNode = getNodeForBlock(immDom, domTree);
+      domTree.createChild(node, immDomNode);
+    }
+
+    domTree.updateDFSNumbers();
+    return domTree;
+  }
+};
+
+template <typename BasicBlockPtrT>
+DomTree<BasicBlockPtrT> buildDomTree(BasicBlockPtrT root, auto &&walkSuccessors)
+  requires requires(void (*cb)(BasicBlockPtrT)) { walkSuccessors(root, cb); }
+{
+  return DomTreeBuilder<BasicBlockPtrT>().build(root, walkSuccessors);
+}
+} // namespace graph
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir.hpp
new file mode 100644
index 00000000..7bcf63d5
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir.hpp
@@ -0,0 +1,14 @@
+#pragma once
+
+#include "ir/Context.hpp" // IWYU pragma: export
+#include "ir/Instruction.hpp" // IWYU pragma: export
+#include "ir/Location.hpp" // IWYU pragma: export
+#include "ir/Node.hpp" // IWYU pragma: export
+#include "ir/Operand.hpp" // IWYU pragma: export
+#include "ir/PointerWrapper.hpp" // IWYU pragma: export
+#include "ir/PrintableWrapper.hpp" // IWYU pragma: export
+#include "ir/Value.hpp" // IWYU pragma: export
+#include "ir/Builder.hpp" // IWYU pragma: export
+#include "ir/Region.hpp" // IWYU pragma: export
+#include "ir/OperandPrint.hpp" // IWYU pragma: export
+#include "ir/Impl.hpp" // IWYU pragma: export
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Block.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Block.hpp
new file mode 100644
index 00000000..5b1198f1
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Block.hpp
@@ -0,0 +1,52 @@
+#pragma once
+
+#include "RegionLike.hpp"
+#include "RegionLikeImpl.hpp"
+#include "ValueImpl.hpp"
+
+namespace shader::ir {
+template <typename ImplT>
+struct BlockWrapper : RegionLikeWrapper<ImplT, ValueWrapper> {
+  using RegionLikeWrapper<ImplT, ValueWrapper>::RegionLikeWrapper;
+  using RegionLikeWrapper<ImplT, ValueWrapper>::operator=;
+};
+
+struct BlockImpl;
+
+struct Block : BlockWrapper<BlockImpl> {
+  using BlockWrapper<BlockImpl>::BlockWrapper;
+  using BlockWrapper<BlockImpl>::operator=;
+};
+
+struct BlockImpl : ValueImpl, RegionLikeImpl {
+  BlockImpl(Location loc);
+  Node clone(Context &context, CloneMap &map) const override;
+
+  void print(std::ostream &os, NameStorage &ns) const override {
+    os << '%' << ns.getNameOf(const_cast<BlockImpl *>(this));
+    os << " = ";
+
+    if (!getOperands().empty()) {
+      os << '[';
+      for (bool first = true; auto &operand : getOperands()) {
+        if (first) {
+          first = false;
+        } else {
+          os << ", ";
+        }
+
+        operand.print(os, ns);
+      }
+      os << "] ";
+    }
+
+    os << "{\n";
+    for (auto child : children()) {
+      os << "  ";
+      child.print(os, ns);
+      os << "\n";
+    }
+    os << "}";
+  }
+};
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Builder.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Builder.hpp
new file mode 100644
index 00000000..4b7a4e85
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Builder.hpp
@@ -0,0 +1,84 @@
+#pragma once
+#include "Context.hpp"
+#include "Node.hpp"
+#include "RegionLikeImpl.hpp"
+
+namespace shader::ir {
+template <typename BuilderT, typename ImplT> struct BuilderFacade {
+  ImplT &instance() {
+    return *static_cast<ImplT *>(static_cast<BuilderT *>(this));
+  }
+  Context &getContext() { return instance().getContext(); }
+
+  Node getInsertionStorage() { return instance().getInsertionStorage(); }
+  template <typename T, typename... ArgsT>
+    requires requires {
+      typename T::underlying_type;
+      requires std::is_constructible_v<typename T::underlying_type, ArgsT...>;
+      requires std::is_base_of_v<NodeImpl, typename T::underlying_type>;
+    }
+  T create(ArgsT &&...args) {
+    return instance().template create<T>(std::forward<ArgsT>(args)...);
+  }
+};
+
+template <template <typename> typename... InterfaceTs>
+class Builder : public InterfaceTs<Builder<InterfaceTs...>>... {
+  Context *mContext{};
+  RegionLike mInsertionStorage;
+  Instruction mInsertionPoint;
+
+public:
+  Builder() = default;
+  Builder(Context &context) : mContext(&context) {}
+
+  static Builder createInsertAfter(Context &context, Instruction point) {
+    auto result = Builder(context);
+    result.mInsertionStorage = point.getParent();
+    result.mInsertionPoint = point;
+    return result;
+  }
+
+  static Builder createInsertBefore(Context &context, Instruction point) {
+    auto result = Builder(context);
+    result.mInsertionStorage = point.getParent();
+    result.mInsertionPoint = point.getPrev().cast<Instruction>();
+    return result;
+  }
+
+  static Builder createAppend(Context &context, RegionLike storage) {
+    auto result = Builder(context);
+    result.mInsertionStorage = storage;
+    result.mInsertionPoint = storage.getLast().cast<Instruction>();
+    return result;
+  }
+
+  static Builder createPrepend(Context &context, RegionLike storage) {
+    auto result = Builder(context);
+    result.mInsertionStorage = storage;
+    result.mInsertionPoint = nullptr;
+    return result;
+  }
+
+  Context &getContext() { return *mContext; }
+  RegionLike getInsertionStorage() { return mInsertionStorage; }
+  Instruction getInsertionPoint() { return mInsertionPoint; }
+  void setInsertionPoint(Instruction inst) { mInsertionPoint = inst; }
+
+  template <typename T, typename... ArgsT>
+    requires requires {
+      typename T::underlying_type;
+      requires std::is_constructible_v<typename T::underlying_type, ArgsT...>;
+      requires std::is_base_of_v<NodeImpl, typename T::underlying_type>;
+    }
+  T create(ArgsT &&...args) {
+    auto result = getContext().template create<T>(std::forward<ArgsT>(args)...);
+    using InstanceType = typename T::underlying_type;
+    getInsertionStorage().insertAfter(getInsertionPoint(), result);
+    if constexpr (requires { mInsertionPoint = Instruction(result); }) {
+      mInsertionPoint = Instruction(result);
+    }
+    return result;
+  }
+};
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Context.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Context.hpp
new file mode 100644
index 00000000..aecb43ae
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Context.hpp
@@ -0,0 +1,84 @@
+#pragma once
+
+#include "Location.hpp"
+#include "NodeImpl.hpp"
+#include "Operand.hpp"
+
+#include <forward_list>
+#include <memory>
+#include <set>
+#include <type_traits>
+#include <utility>
+
+namespace shader::ir {
+struct UniqPtrCompare {
+  static bool operator()(const auto &lhs, const auto &rhs)
+    requires requires { *lhs <=> *rhs; }
+  {
+    return (*lhs <=> *rhs) == std::strong_ordering::less;
+  }
+};
+
+class Context {
+  std::forward_list<std::unique_ptr<NodeImpl>> mNodes;
+  std::set<std::unique_ptr<LocationImpl>, UniqPtrCompare> mLocations;
+  std::unique_ptr<UnknownLocationImpl> mUnknownLocation;
+
+public:
+  Context() = default;
+  Context(const Context &) = delete;
+  Context(Context &&) = default;
+  Context& operator=(Context &&) = default;
+
+  template <typename T, typename... ArgsT>
+    requires requires {
+      typename T::underlying_type;
+      requires std::is_constructible_v<typename T::underlying_type, ArgsT...>;
+      requires std::is_base_of_v<NodeImpl, typename T::underlying_type>;
+    }
+  T create(ArgsT &&...args) {
+    auto result = new typename T::underlying_type(std::forward<ArgsT>(args)...);
+    mNodes.emplace_front(std::unique_ptr<NodeImpl>{result});
+    return T(result);
+  }
+
+  template <typename T, typename... ArgsT>
+    requires requires {
+      typename T::underlying_type;
+      requires std::is_constructible_v<typename T::underlying_type, ArgsT...>;
+      requires std::is_base_of_v<LocationImpl, typename T::underlying_type>;
+    }
+  T getLocation(ArgsT &&...args) {
+    auto result = std::make_unique<typename T::underlying_type>(
+        std::forward<ArgsT>(args)...);
+    auto ptr = mLocations.insert(std::move(result)).first->get();
+    return T(static_cast<typename T::underlying_type *>(ptr));
+  }
+
+  PathLocation getPathLocation(std::string path) {
+    return getLocation<PathLocation>(std::move(path));
+  }
+  TextFileLocation getTextFileLocation(PathLocation location,
+                                       std::uint64_t line,
+                                       std::uint64_t column = 0) {
+    return getLocation<TextFileLocation>(location, line, column);
+  }
+  TextFileLocation getTextFileLocation(std::string path, std::uint64_t line,
+                                       std::uint64_t column = 0) {
+    return getLocation<TextFileLocation>(getPathLocation(path), line, column);
+  }
+  OffsetLocation getOffsetLocation(Location baseLocation,
+                                   std::uint64_t offset) {
+    return getLocation<OffsetLocation>(baseLocation, offset);
+  }
+  MemoryLocation getMemoryLocation(std::uint64_t address, std::uint64_t size) {
+    return getLocation<MemoryLocation>(address, size);
+  }
+  UnknownLocation getUnknownLocation() {
+    if (mUnknownLocation == nullptr) {
+      mUnknownLocation = std::make_unique<UnknownLocationImpl>();
+    }
+    return mUnknownLocation.get();
+  }
+};
+} // namespace shader::ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Impl.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Impl.hpp
new file mode 100644
index 00000000..7bc459d8
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Impl.hpp
@@ -0,0 +1,361 @@
+#pragma once
+#include "../dialect/builtin.hpp"
+#include "../dialect/memssa.hpp"
+#include "Block.hpp"
+#include "Context.hpp"
+#include "InstructionImpl.hpp"
+#include "NodeImpl.hpp"
+#include "RegionImpl.hpp"
+#include "ValueImpl.hpp"
+
+namespace shader::ir {
+inline void InstructionImpl::addOperand(Operand operand) {
+  if (operand != nullptr) {
+    if (auto value = operand.getAsValue()) {
+      value.get()->addUse(this, operands.size());
+    }
+  }
+
+  operands.addOperand(std::move(operand));
+}
+
+inline Operand InstructionImpl::replaceOperand(int index, Operand operand) {
+  if (operands.size() <= unsigned(index)) {
+    std::abort();
+  }
+
+  if (!operands[index].isNull()) {
+    if (auto value = operands[index].getAsValue()) {
+      value.get()->removeUse(this, index);
+    }
+  }
+
+  if (auto value = operand.getAsValue()) {
+    value.get()->addUse(this, index);
+  }
+
+  return std::exchange(operands[index], std::move(operand));
+}
+
+inline Operand InstructionImpl::eraseOperand(int index, int count) {
+  if (index + count == operands.size()) {
+    auto result = replaceOperand(index, nullptr);
+
+    for (int i = 1; i < count; ++i) {
+      replaceOperand(i + index, nullptr);
+    }
+
+    operands.resize(operands.size() - count);
+    return result;
+  }
+
+  auto result = replaceOperand(index, replaceOperand(index + 1, nullptr));
+
+  for (int i = 1; i < count; ++i) {
+    replaceOperand(index + i, nullptr);
+  }
+
+  for (int i = index + 1; i < operands.size() - count; ++i) {
+    replaceOperand(i, replaceOperand(i + count, nullptr));
+  }
+
+  operands.resize(operands.size() - count);
+  return result;
+}
+
+inline void InstructionImpl::remove() {
+  if (auto value = Instruction(this).cast<Value>()) {
+    if (!value.isUnused()) {
+      std::abort();
+    }
+  }
+
+  for (int index = 0; auto &operand : operands) {
+    if (auto value = operand.getAsValue()) {
+      value.get()->removeUse(this, index);
+    }
+    index++;
+  }
+
+  operands.clear();
+
+  if (parent != nullptr) {
+    erase();
+  }
+}
+
+inline void InstructionImpl::erase() {
+  assert(parent != nullptr);
+
+  if (prev != nullptr) {
+    prev.get()->next = next;
+  } else {
+    parent.get()->first = next;
+  }
+  if (next != nullptr) {
+    next.get()->prev = prev;
+  } else {
+    parent.get()->last = prev;
+  }
+
+  prev = nullptr;
+  next = nullptr;
+  parent = nullptr;
+}
+
+template <typename ImplT, template <typename> typename BaseWrapper>
+void RegionLikeWrapper<ImplT, BaseWrapper>::appendRegion(RegionLike other) {
+  for (auto child = other.getFirst(); child != nullptr;) {
+    auto node = child;
+    child = child.getNext();
+    node.erase();
+    this->addChild(node);
+  }
+}
+
+inline void RegionLikeImpl::insertAfter(Instruction point, Instruction node) {
+  assert(point == nullptr || point.getParent() == this);
+  assert(node.getParent() == nullptr);
+  assert(node.getPrev() == nullptr);
+  assert(node.getNext() == nullptr);
+
+  if (point == nullptr) {
+    prependChild(node);
+    return;
+  }
+
+  assert(first != nullptr);
+  assert(last != nullptr);
+
+  node.get()->parent = this;
+  node.get()->prev = point.get();
+
+  if (auto pointNext = point.getNext()) {
+    pointNext.get()->prev = node.get();
+    node.get()->next = pointNext.get();
+  } else {
+    assert(last == point);
+    last = node.get();
+  }
+
+  point.get()->next = node.get();
+}
+
+inline void RegionLikeImpl::prependChild(Instruction node) {
+  assert(node.getParent() == nullptr);
+  assert(node.getPrev() == nullptr);
+  assert(node.getNext() == nullptr);
+
+  node.get()->parent = this;
+  if (last == nullptr) {
+    last = node;
+  } else {
+    first.get()->prev = node;
+    node.get()->next = first;
+  }
+  first = node;
+}
+
+inline void RegionLikeImpl::addChild(Instruction node) {
+  assert(node.getParent() == nullptr);
+  assert(node.getPrev() == nullptr);
+  assert(node.getNext() == nullptr);
+
+  node.get()->parent = this;
+  if (first == nullptr) {
+    first = node;
+  } else {
+    last.get()->next = node;
+    node.get()->prev = last;
+  }
+  last = node;
+}
+
+inline void RegionImpl::print(std::ostream &os, NameStorage &ns) const {
+  os << "{\n";
+  for (auto child : children()) {
+    os << "  ";
+    child.print(os, ns);
+    os << "\n";
+  }
+  os << "}";
+}
+
+inline Value Operand::getAsValue() const {
+  if (auto node = std::get_if<ValueImpl *>(&value)) {
+    return Value(const_cast<ValueImpl *>(*node));
+  }
+
+  return {};
+}
+
+template <typename T>
+T clone(T object, Context &context, CloneMap &map, bool isOperand = false)
+  requires requires {
+    map.getOrClone(context, object, isOperand).template staticCast<T>();
+  }
+{
+  return map.getOrClone(context, object, isOperand).template staticCast<T>();
+}
+
+template <typename T>
+T clone(T object, Context &context)
+  requires requires(CloneMap map) { clone(object, context, map); }
+{
+  CloneMap map;
+  return clone(object, context, map);
+}
+
+template <typename T>
+T clone(T location, Context &context)
+  requires requires { Location(location).get()->clone(context); }
+{
+  if (location == nullptr) {
+    return nullptr;
+  }
+  return Location(location).get()->clone(context).staticCast<T>();
+}
+
+namespace detail {
+template <typename T, typename U, typename... ArgsT>
+  requires(std::is_same_v<typename T::underlying_type, U>)
+T cloneInstructionImpl(const U *object, Context &context, CloneMap &map,
+                       ArgsT &&...args) {
+  auto result = context.create<T>(clone(object->getLocation(), context),
+                                  std::forward<ArgsT>(args)...);
+
+  for (auto &&operand : object->getOperands()) {
+    result.addOperand(operand.clone(context, map));
+  }
+
+  return result;
+}
+} // namespace detail
+
+inline Node InstructionImpl::clone(Context &context, CloneMap &map) const {
+  return detail::cloneInstructionImpl<Instruction>(this, context, map, kind,
+                                                   op);
+}
+
+inline Node ValueImpl::clone(Context &context, CloneMap &map) const {
+  return detail::cloneInstructionImpl<Value>(this, context, map, kind, op);
+}
+
+inline Node RegionImpl::clone(Context &context, CloneMap &map) const {
+  auto result = context.create<Region>(ir::clone(getLocation(), context));
+  for (auto &&child : children()) {
+    result.addChild(ir::clone(child, context, map));
+  }
+
+  return result;
+}
+
+inline BlockImpl::BlockImpl(Location loc)
+    : ValueImpl(loc, ir::Kind::Builtin, builtin::BLOCK) {}
+
+inline Node BlockImpl::clone(Context &context, CloneMap &map) const {
+  auto result = context.create<Block>(ir::clone(getLocation(), context));
+  for (auto &&operand : getOperands()) {
+    result.addOperand(operand.clone(context, map));
+  }
+
+  for (auto &&child : children()) {
+    result.addChild(ir::clone(child, context, map));
+  }
+
+  return result;
+}
+
+inline Operand Operand::clone(Context &context, CloneMap &map) const {
+  if (auto value = getAsValue()) {
+    return ir::clone(value, context, map, true);
+  }
+
+  return *this;
+}
+
+inline Node memssa::PhiImpl::clone(Context &context, CloneMap &map) const {
+  auto self = Phi(const_cast<PhiImpl *>(this));
+  auto result = context.create<Phi>(ir::clone(self.getLocation(), context),
+                                    self.getKind(), self.getOp());
+
+  for (auto &&operand : self.getOperands()) {
+    result.addOperand(operand.clone(context, map));
+  }
+
+  return result;
+}
+
+inline Node memssa::VarImpl::clone(Context &context, CloneMap &map) const {
+  auto self = Var(const_cast<VarImpl *>(this));
+  auto result = context.create<Var>(ir::clone(self.getLocation(), context),
+                                    self.getKind(), self.getOp());
+
+  for (auto &&operand : self.getOperands()) {
+    result.addOperand(operand.clone(context, map));
+  }
+
+  return result;
+}
+
+inline Node memssa::UseImpl::clone(Context &context, CloneMap &map) const {
+  auto self = Use(const_cast<UseImpl *>(this));
+  auto result = context.create<Use>(ir::clone(self.getLocation(), context),
+                                    self.getKind(), self.getOp());
+
+  for (auto &&operand : self.getOperands()) {
+    result.addOperand(operand.clone(context, map));
+  }
+
+  return result;
+}
+
+inline Node memssa::DefImpl::clone(Context &context, CloneMap &map) const {
+  auto self = Def(const_cast<DefImpl *>(this));
+  auto result = context.create<Def>(ir::clone(self.getLocation(), context),
+                                    self.getKind(), self.getOp());
+
+  for (auto &&operand : self.getOperands()) {
+    result.addOperand(operand.clone(context, map));
+  }
+
+  return result;
+}
+
+inline Node memssa::ScopeImpl::clone(Context &context, CloneMap &map) const {
+  auto self = Scope(const_cast<ScopeImpl *>(this));
+  auto result = context.create<Scope>(ir::clone(self.getLocation(), context));
+
+  for (auto &&operand : self.getOperands()) {
+    result.addOperand(operand.clone(context, map));
+  }
+
+  for (auto child : self.children()) {
+    result.addChild(ir::clone(child, context, map));
+  }
+
+  return result;
+}
+
+inline Location PathLocationImpl::clone(Context &context) const {
+  return context.getPathLocation(data.path);
+}
+inline Location TextFileLocationImpl::clone(Context &context) const {
+  return context.getTextFileLocation(data.file, data.line, data.column);
+}
+inline Location OffsetLocationImpl::clone(Context &context) const {
+  return context.getOffsetLocation(baseLocation, offset);
+}
+inline Location MemoryLocationImpl::clone(Context &context) const {
+  return context.getMemoryLocation(data.address, data.size);
+}
+inline Location UnknownLocationImpl::clone(Context &context) const {
+  return context.getUnknownLocation();
+}
+
+inline Node CloneMap::getOrCloneImpl(Context &context, Node node, bool) {
+  Node result = node.get()->clone(context, *this);
+  overrides[node] = result;
+  return result;
+}
+} // namespace shader::ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Instruction.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Instruction.hpp
new file mode 100644
index 00000000..f4b8e9ea
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Instruction.hpp
@@ -0,0 +1,72 @@
+#pragma once
+
+#include "Kind.hpp"
+#include "Node.hpp"
+
+namespace shader::ir {
+enum class InstructionId : std::uint32_t {};
+
+constexpr InstructionId getInstructionId(ir::Kind kind, unsigned op) {
+  return static_cast<InstructionId>(static_cast<std::uint32_t>(kind) |
+                                    static_cast<std::uint32_t>(op) << 5);
+}
+
+constexpr ir::Kind getInstructionKind(InstructionId id) {
+  return static_cast<ir::Kind>(static_cast<std::uint32_t>(id) & 0x1f);
+}
+constexpr unsigned getInstructionOp(InstructionId id) {
+  return static_cast<unsigned>(static_cast<std::uint32_t>(id) >> 5);
+}
+
+struct Region;
+struct InstructionImpl;
+struct Instruction;
+
+template <typename ImplT> struct InstructionWrapper : NodeWrapper<ImplT> {
+  using NodeWrapper<ImplT>::NodeWrapper;
+  using NodeWrapper<ImplT>::operator=;
+
+  Kind getKind() const { return this->impl->kind; }
+  unsigned getOp() const { return this->impl->op; }
+  InstructionId getInstId() const {
+    return getInstructionId(getKind(), getOp());
+  }
+
+  auto getParent() const { return this->impl->parent; };
+  bool hasParent() const { return this->impl->parent != nullptr; }
+  auto getNext() const { return Instruction(this->impl->next); }
+  auto getPrev() const { return Instruction(this->impl->prev); }
+
+  void addOperand(Operand operand) const { this->impl->addOperand(operand); }
+
+  decltype(auto) replaceOperand(int index, Operand operand) const {
+    return this->impl->replaceOperand(index, operand);
+  }
+  decltype(auto) eraseOperand(int index, int count = 1) const {
+    return this->impl->eraseOperand(index, count);
+  }
+  void insertAfter(Node point, Node node) const {
+    this->impl->insertAfter(point, node);
+  }
+  void erase() const { this->impl->erase(); }
+  void remove() const { this->impl->remove(); }
+
+  template <typename T = Node> auto children() const {
+    return this->impl->template children<T>();
+  }
+  decltype(auto) getOperand(std::size_t i) const { return this->impl->getOperand(i); }
+  decltype(auto) getOperands() const { return this->impl->getOperands(); }
+  std::size_t getOperandCount() const { return getOperands().size(); }
+
+  template <typename T>
+    requires std::is_enum_v<T>
+  void addOperand(T enumValue) {
+    addOperand(std::to_underlying(enumValue));
+  }
+};
+
+struct Instruction : InstructionWrapper<InstructionImpl> {
+  using InstructionWrapper<InstructionImpl>::InstructionWrapper;
+  using InstructionWrapper<InstructionImpl>::operator=;
+};
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/InstructionImpl.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/InstructionImpl.hpp
new file mode 100644
index 00000000..b9406e46
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/InstructionImpl.hpp
@@ -0,0 +1,69 @@
+#pragma once
+
+#include "Instruction.hpp"
+#include "Kind.hpp"
+#include "Location.hpp"
+#include "NodeImpl.hpp"
+#include "PrintableWrapper.hpp"
+#include "RegionLike.hpp"
+#include <ostream>
+#include <span>
+
+namespace shader::ir {
+struct InstructionImpl : NodeImpl {
+  Kind kind;
+  unsigned op;
+
+  RegionLike parent;
+  Instruction prev;
+  Instruction next;
+  OperandList operands;
+
+  InstructionImpl(Location location, Kind kind, unsigned op,
+                  std::span<const Operand> operands = {})
+      : kind(kind), op(op) {
+    setLocation(location);
+
+    for (auto &&op : operands) {
+      addOperand(std::move(op));
+    }
+  }
+
+  template <typename T>
+    requires std::is_enum_v<T>
+  void addOperand(T enumValue) {
+    addOperand(std::to_underlying(enumValue));
+  }
+
+  void addOperand(Operand operand);
+  Operand replaceOperand(int index, Operand operand);
+  Operand eraseOperand(int index, int count);
+  void remove();
+  void erase();
+
+  decltype(auto) getOperand(std::size_t i) const {
+    return operands.getOperand(i);
+  }
+
+  decltype(auto) getOperands() const { return std::span(operands); }
+
+  void print(std::ostream &os, NameStorage &ns) const override {
+    os << getInstructionName(kind, op);
+
+    if (!operands.empty()) {
+      os << "(";
+      for (bool first = true; auto operand : operands) {
+        if (first) {
+          first = false;
+        } else {
+          os << ", ";
+        }
+        operand.print(os, ns);
+      }
+      os << ")";
+    }
+  }
+
+  Node clone(Context &context, CloneMap &map) const override;
+};
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Kind.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Kind.hpp
new file mode 100644
index 00000000..0d472951
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Kind.hpp
@@ -0,0 +1,205 @@
+#pragma once
+
+#include <string>
+namespace shader::ir {
+enum class Kind {
+  Spv,
+  Builtin,
+  AmdGpu,
+  Vop2,
+  Sop2,
+  Sopk,
+  Smrd,
+  Vop3,
+  Mubuf,
+  Mtbuf,
+  Mimg,
+  Ds,
+  Vintrp,
+  Exp,
+  Vop1,
+  Vopc,
+  Sop1,
+  Sopc,
+  Sopp,
+  MemSSA,
+
+  Count,
+};
+
+namespace spv {
+const char *getInstructionName(unsigned id);
+}
+namespace builtin {
+const char *getInstructionName(unsigned id);
+}
+namespace amdgpu {
+const char *getInstructionName(unsigned id);
+}
+namespace vop2 {
+const char *getInstructionName(unsigned id);
+}
+namespace sop2 {
+const char *getInstructionName(unsigned id);
+}
+namespace sopk {
+const char *getInstructionName(unsigned id);
+}
+namespace smrd {
+const char *getInstructionName(unsigned id);
+}
+namespace vop3 {
+const char *getInstructionName(unsigned id);
+}
+namespace mubuf {
+const char *getInstructionName(unsigned id);
+}
+namespace mtbuf {
+const char *getInstructionName(unsigned id);
+}
+namespace mimg {
+const char *getInstructionName(unsigned id);
+}
+namespace ds {
+const char *getInstructionName(unsigned id);
+}
+namespace vintrp {
+const char *getInstructionName(unsigned id);
+}
+namespace exp {
+const char *getInstructionName(unsigned id);
+}
+namespace vop1 {
+const char *getInstructionName(unsigned id);
+}
+namespace vopc {
+const char *getInstructionName(unsigned id);
+}
+namespace sop1 {
+const char *getInstructionName(unsigned id);
+}
+namespace sopc {
+const char *getInstructionName(unsigned id);
+}
+namespace sopp {
+const char *getInstructionName(unsigned id);
+}
+
+namespace memssa {
+const char *getInstructionName(unsigned id);
+}
+
+inline const char *getKindName(Kind kind) {
+  switch (kind) {
+  case Kind::Spv:
+    return "spv";
+  case Kind::Builtin:
+    return "builtin";
+  case Kind::AmdGpu:
+    return "amdgpu";
+  case Kind::Vop2:
+    return "vop2";
+  case Kind::Sop2:
+    return "sop2";
+  case Kind::Sopk:
+    return "sopk";
+  case Kind::Smrd:
+    return "smrd";
+  case Kind::Vop3:
+    return "vop3";
+  case Kind::Mubuf:
+    return "mubuf";
+  case Kind::Mtbuf:
+    return "mtbuf";
+  case Kind::Mimg:
+    return "mimg";
+  case Kind::Ds:
+    return "ds";
+  case Kind::Vintrp:
+    return "vintrp";
+  case Kind::Exp:
+    return "exp";
+  case Kind::Vop1:
+    return "vop1";
+  case Kind::Vopc:
+    return "vopc";
+  case Kind::Sop1:
+    return "sop1";
+  case Kind::Sopc:
+    return "sopc";
+  case Kind::Sopp:
+    return "sopp";
+  case Kind::MemSSA:
+    return "memssa";
+
+  case Kind::Count:
+    break;
+  }
+
+  return "<invalid>";
+}
+inline const char *getInstructionShortName(Kind kind, unsigned op) {
+  switch (kind) {
+  case Kind::Spv:
+    return spv::getInstructionName(op);
+  case Kind::Builtin:
+    return builtin::getInstructionName(op);
+  case Kind::AmdGpu:
+    return amdgpu::getInstructionName(op);
+  case Kind::Vop2:
+    return vop2::getInstructionName(op);
+  case Kind::Sop2:
+    return sop2::getInstructionName(op);
+  case Kind::Sopk:
+    return sopk::getInstructionName(op);
+  case Kind::Smrd:
+    return smrd::getInstructionName(op);
+  case Kind::Vop3:
+    return vop3::getInstructionName(op);
+  case Kind::Mubuf:
+    return mubuf::getInstructionName(op);
+  case Kind::Mtbuf:
+    return mtbuf::getInstructionName(op);
+  case Kind::Mimg:
+    return mimg::getInstructionName(op);
+  case Kind::Ds:
+    return ds::getInstructionName(op);
+  case Kind::Vintrp:
+    return vintrp::getInstructionName(op);
+  case Kind::Exp:
+    return exp::getInstructionName(op);
+  case Kind::Vop1:
+    return vop1::getInstructionName(op);
+  case Kind::Vopc:
+    return vopc::getInstructionName(op);
+  case Kind::Sop1:
+    return sop1::getInstructionName(op);
+  case Kind::Sopc:
+    return sopc::getInstructionName(op);
+  case Kind::Sopp:
+    return sopp::getInstructionName(op);
+  case Kind::MemSSA:
+    return memssa::getInstructionName(op);
+
+  case Kind::Count:
+    break;
+  }
+
+  return nullptr;
+}
+
+inline std::string getInstructionName(Kind kind, unsigned op) {
+  std::string result = getKindName(kind);
+  result += '.';
+
+  if (auto name = getInstructionShortName(kind, op)) {
+    result += name;
+  } else {
+    result += "<invalid ";
+    result += std::to_string(op);
+    result += ">";
+  }
+
+  return result;
+}
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Location.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Location.hpp
new file mode 100644
index 00000000..1cc5966d
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Location.hpp
@@ -0,0 +1,200 @@
+#pragma once
+#include "PrintableWrapper.hpp"
+#include <cstdint>
+#include <string>
+
+namespace shader::ir {
+struct LocationImpl;
+struct CloneMap;
+class Context;
+
+template <typename ImplT> struct LocationWrapper : PrintableWrapper<ImplT> {
+  using PrintableWrapper<ImplT>::PrintableWrapper;
+  using PrintableWrapper<ImplT>::operator=;
+};
+
+using Location = LocationWrapper<LocationImpl>;
+
+struct LocationImpl {
+  virtual ~LocationImpl() {}
+  virtual void print(std::ostream &os) = 0;
+  virtual std::strong_ordering compare(const LocationImpl &other) const = 0;
+
+  virtual Location clone(Context &context) const = 0;
+  auto operator<=>(const LocationImpl &other) const { return compare(other); }
+};
+
+struct PathLocationImpl final : LocationImpl {
+  struct Data {
+    std::string path;
+    auto operator<=>(const Data &other) const = default;
+  } data;
+
+  PathLocationImpl(std::string path) : data{.path = std::move(path)} {}
+
+  void print(std::ostream &os) override { os << data.path; }
+
+  std::strong_ordering compare(const LocationImpl &other) const override {
+    if (this == &other) {
+      return std::strong_ordering::equal;
+    }
+
+    if (auto p = dynamic_cast<const PathLocationImpl *>(&other)) {
+      return this->data <=> p->data;
+    }
+
+    return this <=> &other;
+  }
+
+  Location clone(Context &context) const override;
+};
+
+struct PathLocation : LocationWrapper<PathLocationImpl> {
+  using LocationWrapper::LocationWrapper;
+  using LocationWrapper::operator=;
+  const std::string &getPath() const { return impl->data.path; }
+};
+
+struct TextFileLocationImpl final : LocationImpl {
+  struct Data {
+    PathLocation file;
+    std::uint64_t line;
+    std::uint64_t column;
+    auto operator<=>(const Data &other) const = default;
+
+  } data;
+
+  TextFileLocationImpl(PathLocation file, std::uint64_t line,
+                       std::uint64_t column)
+      : data{.file = file, .line = line, .column = column} {}
+
+  void print(std::ostream &os) override {
+    data.file.print(os);
+    os << ':' << data.line << ':' << data.column;
+  }
+
+  auto operator<=>(const TextFileLocationImpl &other) const = default;
+  std::strong_ordering compare(const LocationImpl &other) const override {
+    if (this == &other) {
+      return std::strong_ordering::equal;
+    }
+
+    if (auto p = dynamic_cast<const TextFileLocationImpl *>(&other)) {
+      return *this <=> *p;
+    }
+
+    return this <=> &other;
+  }
+
+  Location clone(Context &context) const override;
+};
+
+struct TextFileLocation : LocationWrapper<TextFileLocationImpl> {
+  using LocationWrapper::LocationWrapper;
+  using LocationWrapper::operator=;
+  PathLocation getFile() const { return impl->data.file; }
+  std::uint64_t getLine() const { return impl->data.line; }
+  std::uint64_t getColumn() const { return impl->data.column; }
+};
+
+struct OffsetLocationData {
+  Location baseLocation;
+  std::uint64_t offset;
+
+  OffsetLocationData(Location baseLocation, std::uint64_t offset)
+      : baseLocation(baseLocation), offset(offset) {}
+
+  auto operator<=>(const OffsetLocationData &other) const = default;
+};
+
+struct OffsetLocationImpl final : OffsetLocationData, LocationImpl {
+  OffsetLocationImpl(Location file, std::uint64_t offset)
+      : OffsetLocationData(file, offset) {}
+
+  void print(std::ostream &os) override {
+    baseLocation.print(os);
+    os << '+' << offset;
+  }
+
+  std::strong_ordering compare(const LocationImpl &other) const override {
+    if (this == &other) {
+      return std::strong_ordering::equal;
+    }
+
+    if (auto p = dynamic_cast<const OffsetLocationData *>(&other)) {
+      return static_cast<const OffsetLocationData &>(*this) <=> *p;
+    }
+
+    return this <=> &other;
+  }
+
+  Location clone(Context &context) const override;
+};
+
+struct OffsetLocation : LocationWrapper<OffsetLocationImpl> {
+  using LocationWrapper::LocationWrapper;
+  using LocationWrapper::operator=;
+  Location getBaseLocation() const { return impl->baseLocation; }
+  std::uint64_t getOffset() const { return impl->offset; }
+};
+
+struct MemoryLocationImpl final : LocationImpl {
+  struct Data {
+    std::uint64_t address;
+    std::uint64_t size;
+
+    auto operator<=>(const Data &other) const = default;
+  } data;
+
+  MemoryLocationImpl(std::uint64_t address, std::uint64_t size)
+      : data{.address = address, .size = size} {}
+
+  void print(std::ostream &os) override {
+    os << '(' << data.address << " - " << data.size << ')';
+  }
+
+  std::strong_ordering compare(const LocationImpl &other) const override {
+    if (this == &other) {
+      return std::strong_ordering::equal;
+    }
+
+    if (auto p = dynamic_cast<const MemoryLocationImpl *>(&other)) {
+      return data <=> p->data;
+    }
+
+    return this <=> &other;
+  }
+
+  Location clone(Context &context) const override;
+};
+
+struct MemoryLocation : LocationWrapper<MemoryLocationImpl> {
+  using LocationWrapper::LocationWrapper;
+  using LocationWrapper::operator=;
+  std::uint64_t getAddress() const { return impl->data.address; }
+  std::uint64_t getSize() const { return impl->data.size; }
+};
+
+struct UnknownLocationImpl final : LocationImpl {
+  void print(std::ostream &os) override { os << "unknown"; }
+
+  std::strong_ordering compare(const LocationImpl &other) const override {
+    if (this == &other) {
+      return std::strong_ordering::equal;
+    }
+
+    if (dynamic_cast<const MemoryLocationImpl *>(&other)) {
+      return std::strong_ordering::equal;
+    }
+
+    return this <=> &other;
+  }
+
+  Location clone(Context &context) const override;
+};
+
+struct UnknownLocation : LocationWrapper<UnknownLocationImpl> {
+  using LocationWrapper::LocationWrapper;
+  using LocationWrapper::operator=;
+};
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/NameStorage.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/NameStorage.hpp
new file mode 100644
index 00000000..06ed2517
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/NameStorage.hpp
@@ -0,0 +1,90 @@
+#pragma once
+
+#include "Node.hpp"
+#include <set>
+#include <string>
+#include <unordered_map>
+
+namespace shader::ir {
+class NameStorage {
+  std::set<std::string> mNames;
+  std::unordered_map<const NodeImpl *, const std::string *> mNodeToName;
+
+public:
+  void setUniqueNameOf(Node node, std::string name) {
+    auto [nodeIt, nodeInserted] = mNodeToName.try_emplace(node.impl, nullptr);
+
+    if (!nodeInserted && *nodeIt->second == name) {
+      return;
+    }
+
+    auto [nameIt, nameInserted] = mNames.insert(name);
+
+    if (!nameInserted) {
+      std::size_t i = 1;
+
+      while (true) {
+        auto newName = name + "_" + std::to_string(i);
+        auto [newNameIt, newNameInserted] = mNames.insert(std::move(newName));
+
+        if (!newNameInserted) {
+          ++i;
+          continue;
+        }
+
+        nameIt = newNameIt;
+        break;
+      }
+    }
+
+    nodeIt->second = &*nameIt;
+  }
+
+  void setNameOf(Node node, std::string name) {
+    auto [nodeIt, nodeInserted] = mNodeToName.try_emplace(node.impl, nullptr);
+
+    if (!nodeInserted && *nodeIt->second == name) {
+      return;
+    }
+
+    auto [nameIt, nameInserted] = mNames.insert(name);
+    nodeIt->second = &*nameIt;
+  }
+
+  std::string_view tryGetNameOf(Node node) const {
+    auto it = mNodeToName.find(node.impl);
+    if (it == mNodeToName.end()) {
+      return {};
+    }
+    return *it->second;
+  }
+
+  const std::string &getNameOf(Node node) {
+    auto [it, inserted] = mNodeToName.emplace(node.impl, nullptr);
+
+    if (inserted) {
+      std::size_t i = mNames.size() + 1;
+
+      while (true) {
+        auto newName = std::to_string(i);
+        auto [newNameIt, newNameInserted] = mNames.insert(std::move(newName));
+
+        if (!newNameInserted) {
+          ++i;
+          continue;
+        }
+
+        it->second = &*newNameIt;
+        break;
+      }
+    }
+
+    return *it->second;
+  }
+
+  void clear() {
+    mNames.clear();
+    mNodeToName.clear();
+  }
+};
+} // namespace shader::ir
\ No newline at end of file
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Node.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Node.hpp
new file mode 100644
index 00000000..95f22b3a
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Node.hpp
@@ -0,0 +1,17 @@
+#pragma once
+
+#include "Operand.hpp"
+#include "PrintableWrapper.hpp"
+
+namespace shader::ir {
+template <typename ImplT> struct NodeWrapper;
+
+using Node = NodeWrapper<NodeImpl>;
+
+template <typename ImplT> struct NodeWrapper : PrintableWrapper<ImplT> {
+  using PrintableWrapper<ImplT>::PrintableWrapper;
+  using PrintableWrapper<ImplT>::operator=;
+
+  auto getLocation() const { return this->impl->getLocation(); }
+};
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/NodeImpl.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/NodeImpl.hpp
new file mode 100644
index 00000000..7fb8046b
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/NodeImpl.hpp
@@ -0,0 +1,65 @@
+#pragma once
+
+#include "Location.hpp"
+#include "Node.hpp"
+#include "Operand.hpp"
+#include <cassert>
+#include <map>
+
+namespace shader::ir {
+struct NodeImpl;
+struct CloneMap;
+class NameStorage;
+class Context;
+
+// namespace debug {
+// [[gnu::used, gnu::noinline]] void dump(Node object);
+// [[gnu::used, gnu::noinline]] void dump(NodeImpl *object);
+// } // namespace debug
+
+struct CloneMap {
+  virtual ~CloneMap() = default;
+
+  std::map<Node, Node> overrides;
+  void setOverride(Node from, Node to) { overrides[from] = to; }
+  Node getOverride(Node from) {
+    if (auto it = overrides.find(from); it != overrides.end()) {
+      return it->second;
+    }
+    return {};
+  }
+  virtual Node getOrClone(Context &context, Node node, bool isOperand) {
+    // if (auto it = overrides.find(node); it != overrides.end()) {
+    //   return it->second;
+    // }
+
+    // return getOrCloneImpl(context, node, isOperand);
+
+    if (node == nullptr) {
+      return node;
+    }
+
+    auto [it, inserted] = overrides.insert({node, nullptr});
+
+    if (inserted) {
+      it->second = getOrCloneImpl(context, node, isOperand);
+      overrides[it->second] = it->second;
+    }
+
+    return it->second;
+  }
+
+  virtual Node getOrCloneImpl(Context &context, Node node, bool isOperand);
+};
+
+struct NodeImpl {
+  Location location;
+  virtual ~NodeImpl() = default;
+
+  void setLocation(Location newLocation) { location = newLocation; }
+  Location getLocation() const { return location; }
+
+  virtual void print(std::ostream &os, NameStorage &ns) const = 0;
+  virtual Node clone(Context &context, CloneMap &map) const = 0;
+};
+} // namespace shader::ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Operand.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Operand.hpp
new file mode 100644
index 00000000..edd8f432
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Operand.hpp
@@ -0,0 +1,152 @@
+#pragma once
+
+#include "../Vector.hpp"
+#include <bit>
+#include <compare>
+#include <cstddef>
+#include <cstdint>
+#include <span>
+#include <string>
+#include <type_traits>
+#include <utility>
+#include <variant>
+#include <vector>
+
+namespace shader::ir {
+class NameStorage;
+class Context;
+struct ValueImpl;
+struct Value;
+struct NodeImpl;
+struct CloneMap;
+template <typename ImplT> struct NodeWrapper;
+using Node = NodeWrapper<NodeImpl>;
+
+struct Operand {
+  using UnderlyingT =
+      std::variant<std::nullptr_t, ValueImpl *, std::int64_t, std::int32_t,
+                   double, float, bool, std::string>;
+
+  UnderlyingT value{nullptr};
+
+  template <typename T>
+    requires(!std::is_integral_v<std::remove_cvref_t<T>> ||
+             std::is_same_v<bool, std::remove_cvref_t<T>>)
+  Operand(T &&value)
+    requires requires { UnderlyingT{std::forward<T>(value)}; }
+      : value(std::forward<T>(value)) {}
+
+  template <typename T>
+  Operand(T value)
+    requires requires {
+      requires(std::is_integral_v<std::remove_cvref_t<T>> &&
+               !std::is_same_v<bool, T> && sizeof(T) <= sizeof(std::int32_t));
+      UnderlyingT{static_cast<std::int32_t>(value)};
+    }
+      : value(static_cast<std::int32_t>(value)) {}
+
+  template <typename T>
+  Operand(T value)
+    requires requires {
+      requires(std::is_integral_v<std::remove_cvref_t<T>> &&
+               sizeof(T) == sizeof(std::int64_t));
+      UnderlyingT{static_cast<std::int64_t>(value)};
+    }
+      : value(static_cast<std::int64_t>(value)) {}
+
+  template <typename T>
+    requires(std::is_enum_v<std::remove_cvref_t<T>>)
+  Operand(T value) : Operand(std::to_underlying(value)) {}
+
+  template <typename T>
+  Operand(T &&value)
+    requires requires { Operand(value.impl); }
+      : Operand(value.impl) {
+    if (value.impl == nullptr) {
+      std::abort();
+    }
+  }
+
+  Operand() = default;
+  Operand(const Operand &) = default;
+  Operand(Operand &&) = default;
+  Operand &operator=(const Operand &) = default;
+  Operand &operator=(Operand &&) = default;
+
+  template <typename T>
+  Operand &operator=(T &&other)
+    requires requires { value = std::forward<T>(other); }
+  {
+    value = std::forward<T>(other);
+    return *this;
+  }
+
+  template <typename T> const T *getAs() const {
+    if (auto node = std::get_if<T>(&value)) {
+      return node;
+    }
+
+    return {};
+  }
+
+  Value getAsValue() const;
+
+  const std::string *getAsString() const { return getAs<std::string>(); }
+  const std::int32_t *getAsInt32() const { return getAs<std::int32_t>(); }
+  const std::int64_t *getAsInt64() const { return getAs<std::int64_t>(); }
+  const double *getAsDouble() const { return getAs<double>(); }
+  const float *getAsFloat() const { return getAs<float>(); }
+  const bool *getAsBool() const { return getAs<bool>(); }
+  bool isNull() const { return std::get_if<std::nullptr_t>(&value) != nullptr; }
+  explicit operator bool() const { return !isNull(); }
+
+  void print(std::ostream &os, NameStorage &ns) const;
+  Operand clone(Context &context, CloneMap &map) const;
+
+  std::partial_ordering operator<=>(const Operand &other) const {
+    auto result = value.index() <=> other.value.index();
+    if (result != 0) {
+      return result;
+    }
+
+    return std::visit(
+        [](auto &&lhs, auto &&rhs) -> std::partial_ordering {
+          using lhs_type = std::remove_cvref_t<decltype(lhs)>;
+          using rhs_type = std::remove_cvref_t<decltype(rhs)>;
+          if constexpr (std::is_same_v<lhs_type, rhs_type>) {
+            if constexpr (std::is_same_v<lhs_type, std::nullptr_t>) {
+              return std::strong_ordering::equal;
+            } else if constexpr (std::is_same_v<lhs_type, float>) {
+              return std::bit_cast<std::uint32_t>(lhs) <=>
+                     std::bit_cast<std::uint32_t>(rhs);
+            } else if constexpr (std::is_same_v<lhs_type, double>) {
+              return std::bit_cast<std::uint64_t>(lhs) <=>
+                     std::bit_cast<std::uint64_t>(rhs);
+            } else {
+              return lhs <=> rhs;
+            }
+          }
+
+          throw;
+        },
+        value, other.value);
+  }
+
+  bool operator==(const Operand &) const = default;
+};
+
+struct OperandList : std::vector<Operand> {
+  using std::vector<Operand>::vector;
+  using std::vector<Operand>::operator=;
+
+  template <typename T>
+    requires std::is_enum_v<T>
+  void addOperand(T enumValue) {
+    addOperand(std::to_underlying(enumValue));
+  }
+
+  void addOperand(Operand operand) { push_back(std::move(operand)); }
+
+  const Operand &getOperand(std::size_t i) const { return at(i); }
+};
+} // namespace shader::ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/OperandPrint.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/OperandPrint.hpp
new file mode 100644
index 00000000..98d99c50
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/OperandPrint.hpp
@@ -0,0 +1,43 @@
+#pragma once
+
+#include "NameStorage.hpp"
+#include "Operand.hpp"
+#include "ValueImpl.hpp" // IWYU pragma: keep
+
+namespace shader::ir {
+inline void Operand::print(std::ostream &os, NameStorage &ns) const {
+  if (auto node = getAsValue()) {
+    os << '%' << ns.getNameOf(node);
+    return;
+  }
+  if (auto node = getAsString()) {
+    os << '"' << *node << '"';
+    return;
+  }
+  if (auto node = getAsInt32()) {
+    os << *node << "i32";
+    return;
+  }
+  if (auto node = getAsInt64()) {
+    os << *node << "i64";
+    return;
+  }
+  if (auto node = getAsFloat()) {
+    os << *node << 'f';
+    return;
+  }
+  if (auto node = getAsDouble()) {
+    os << *node << 'd';
+    return;
+  }
+  if (auto node = getAsBool()) {
+    os << (*node ? "true" : "false");
+    return;
+  }
+  if (isNull()) {
+    os << "null";
+    return;
+  }
+  os << "<invalid operand " << value.index() << ">";
+}
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/PointerWrapper.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/PointerWrapper.hpp
new file mode 100644
index 00000000..ed2331a9
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/PointerWrapper.hpp
@@ -0,0 +1,88 @@
+#pragma once
+
+#include <cassert>
+#include <functional>
+#include <type_traits>
+
+namespace shader::ir {
+template <typename ImplT> struct PointerWrapper {
+  using underlying_type = ImplT;
+  ImplT *impl = nullptr;
+  PointerWrapper() = default;
+  PointerWrapper(ImplT *impl) : impl(impl) {}
+
+  template <typename OtherT>
+    requires std::is_base_of_v<ImplT, OtherT>
+  PointerWrapper(PointerWrapper<OtherT> node) : impl(node.impl) {}
+
+  explicit operator bool() const { return impl != nullptr; }
+  bool operator==(std::nullptr_t) const { return impl == nullptr; }
+  bool operator==(ImplT *other) const { return impl == other; }
+
+  template <typename Self> Self &operator=(this Self &self, ImplT *other) {
+    self.impl = other;
+    return self;
+  }
+
+  template <typename Self, typename OtherT>
+    requires std::is_base_of_v<ImplT, OtherT>
+  Self &operator=(this Self &self, PointerWrapper<OtherT> other) {
+    self.impl = other.get();
+    return self;
+  }
+
+  // ImplT *operator->() const { return impl; }
+
+  ImplT *get() const { return impl; }
+
+  auto operator<=>(const PointerWrapper &) const = default;
+  bool operator==(const PointerWrapper &) const = default;
+
+  template <typename T>
+  T cast() const
+    requires requires { static_cast<typename T::underlying_type *>(impl); }
+  {
+    return T(dynamic_cast<typename T::underlying_type *>(impl));
+  }
+
+  template <typename T>
+  T staticCast() const
+    requires requires { static_cast<typename T::underlying_type *>(impl); }
+  {
+    assert(impl == nullptr || cast<T>() != nullptr);
+    return T(static_cast<typename T::underlying_type *>(impl));
+  }
+
+  template <typename T> bool isa() const {
+    if (impl == nullptr) {
+      return false;
+    }
+
+    if constexpr (std::is_same_v<std::remove_cvref_t<T>,
+                                 std::remove_cvref_t<ImplT>>) {
+      return true;
+    } else if constexpr (!requires { cast<T>() != nullptr; }) {
+      return false;
+    } else {
+      return cast<T>() != nullptr;
+    }
+  }
+
+  template <typename... T>
+    requires(sizeof...(T) > 1)
+  bool isa() const {
+    return (isa<T>() || ...);
+  }
+};
+} // namespace shader::ir
+
+namespace std {
+template <typename T>
+  requires std::is_base_of_v<
+      shader::ir::PointerWrapper<typename T::underlying_type>, T>
+struct hash<T> {
+  constexpr std::size_t operator()(const T &pointer) const noexcept {
+    return hash<typename T::underlying_type *>{}(pointer.impl);
+  }
+};
+} // namespace std
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/PreincNodeIterable.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/PreincNodeIterable.hpp
new file mode 100644
index 00000000..1b00c420
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/PreincNodeIterable.hpp
@@ -0,0 +1,136 @@
+#pragma once
+
+#include "InstructionImpl.hpp" // IWYU pragma: keep
+
+namespace shader::ir {
+template <typename T> struct PreincNodeIterable {
+  struct EndIterator {};
+
+  struct Iterator {
+    Instruction nextElem;
+    Instruction currentElem;
+    Instruction endElem;
+
+    Iterator() = default;
+
+    Iterator(Instruction elem, Instruction end)
+        : currentElem(elem), endElem(end) {
+      nextElem = currentElem ? currentElem.getNext() : nullptr;
+
+      if constexpr (!std::is_same_v<Instruction, T>) {
+        while (currentElem != endElem && !currentElem.isa<T>()) {
+          advance();
+        }
+      }
+    }
+
+    T operator*() const { return currentElem.staticCast<T>(); }
+
+    Iterator &operator++() {
+      advance();
+
+      if constexpr (!std::is_same_v<Instruction, T>) {
+        while (currentElem != endElem && !currentElem.isa<T>()) {
+          advance();
+        }
+      }
+
+      return *this;
+    }
+
+    bool operator==(const Iterator &) const = default;
+
+    bool operator==(const EndIterator &) const {
+      return currentElem == endElem;
+    }
+
+    void advance() {
+      currentElem = nextElem;
+      if (nextElem) {
+        nextElem = nextElem.getNext();
+      }
+    }
+  };
+
+  PreincNodeIterable(Instruction beginIt, Instruction endIt)
+      : mBeginIt(beginIt), mEndIt(endIt) {}
+
+  Iterator begin() const { return Iterator(mBeginIt, mEndIt); }
+  EndIterator end() const { return EndIterator{}; }
+
+private:
+  Instruction mBeginIt;
+  Instruction mEndIt;
+};
+
+template <typename T> struct RevPreincNodeIterable {
+  struct EndIterator {};
+
+  struct Iterator {
+    Instruction nextElem;
+    Instruction currentElem;
+    Instruction endElem;
+
+    Iterator() = default;
+
+    Iterator(Instruction elem, Instruction end)
+        : currentElem(elem), endElem(end) {
+      nextElem = currentElem ? currentElem.getPrev() : nullptr;
+
+      if constexpr (!std::is_same_v<Instruction, T>) {
+        while (currentElem != endElem && !currentElem.isa<T>()) {
+          advance();
+        }
+      }
+    }
+
+    T operator*() const { return currentElem.staticCast<T>(); }
+
+    Iterator &operator++() {
+      advance();
+
+      if constexpr (!std::is_same_v<Instruction, T>) {
+        while (currentElem != endElem && !currentElem.isa<T>()) {
+          advance();
+        }
+      }
+
+      return *this;
+    }
+
+    bool operator==(const Iterator &) const = default;
+
+    bool operator==(const EndIterator &) const {
+      return currentElem == endElem;
+    }
+
+    void advance() {
+      currentElem = nextElem;
+      if (nextElem) {
+        nextElem = nextElem.getPrev();
+      }
+    }
+  };
+
+  RevPreincNodeIterable(Instruction beginIt, Instruction endIt)
+      : mBeginIt(beginIt), mEndIt(endIt) {}
+
+  Iterator begin() const { return Iterator(mBeginIt, mEndIt); }
+  EndIterator end() const { return EndIterator{}; }
+
+private:
+  Instruction mBeginIt;
+  Instruction mEndIt;
+};
+
+template <typename T = Instruction>
+inline PreincNodeIterable<T> range(Instruction begin,
+                                   Instruction end = nullptr) {
+  return {begin, end};
+}
+template <typename T = Instruction>
+inline RevPreincNodeIterable<T> revRange(Instruction begin,
+                                         Instruction end = nullptr) {
+  return {begin, end};
+}
+} // namespace shader::ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/PrintableWrapper.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/PrintableWrapper.hpp
new file mode 100644
index 00000000..c44e86ed
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/PrintableWrapper.hpp
@@ -0,0 +1,26 @@
+#pragma once
+
+#include "PointerWrapper.hpp"
+#include <ostream>
+
+namespace shader::ir {
+class NameStorage;
+template <typename T> struct PrintableWrapper : PointerWrapper<T> {
+  using PointerWrapper<T>::PointerWrapper;
+  using PointerWrapper<T>::operator=;
+
+  void print(std::ostream &os, NameStorage &ns) const {
+    if constexpr (requires { this->impl->print(os, ns); }) {
+      this->impl->print(os, ns);
+    } else {
+      this->impl->print(os);
+    }
+  }
+
+  void print(std::ostream &os) const
+    requires requires { this->impl->print(os); }
+  {
+    this->impl->print(os);
+  }
+};
+} // namespace shader::ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Region.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Region.hpp
new file mode 100644
index 00000000..cdc3d190
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Region.hpp
@@ -0,0 +1,19 @@
+#pragma once
+
+#include "Node.hpp"
+#include "RegionLike.hpp"
+
+namespace shader::ir {
+template <typename ImplT>
+struct RegionWrapper : RegionLikeWrapper<ImplT, NodeWrapper> {
+  using RegionLikeWrapper<ImplT, NodeWrapper>::RegionLikeWrapper;
+  using RegionLikeWrapper<ImplT, NodeWrapper>::operator=;
+};
+
+struct RegionImpl;
+
+struct Region : RegionWrapper<RegionImpl> {
+  using RegionWrapper<RegionImpl>::RegionWrapper;
+  using RegionWrapper<RegionImpl>::operator=;
+};
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/RegionImpl.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/RegionImpl.hpp
new file mode 100644
index 00000000..f7fb755e
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/RegionImpl.hpp
@@ -0,0 +1,15 @@
+#pragma once
+#include "NameStorage.hpp"
+#include "NodeImpl.hpp"
+#include "Region.hpp"
+#include "RegionLikeImpl.hpp"
+#include <ostream>
+
+namespace shader::ir {
+struct RegionImpl : NodeImpl, RegionLikeImpl {
+  RegionImpl(Location loc) { setLocation(loc); }
+
+  void print(std::ostream &os, NameStorage &ns) const override;
+  Node clone(Context &context, CloneMap &map) const override;
+};
+} // namespace ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/RegionLike.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/RegionLike.hpp
new file mode 100644
index 00000000..87c12c9c
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/RegionLike.hpp
@@ -0,0 +1,38 @@
+#pragma once
+
+#include "Instruction.hpp"
+
+namespace shader::ir {
+struct RegionLike;
+
+template <typename ImplT, template <typename> typename BaseWrapper>
+struct RegionLikeWrapper : BaseWrapper<ImplT> {
+  using BaseWrapper<ImplT>::BaseWrapper;
+  using BaseWrapper<ImplT>::operator=;
+
+  void appendRegion(RegionLike other);
+
+  auto getFirst() { return this->impl->first; }
+  auto getLast() { return this->impl->last; }
+  bool empty() { return this->impl->first == nullptr; }
+
+  void insertAfter(Instruction point, Instruction node) {
+    this->impl->insertAfter(point, node);
+  }
+  void prependChild(Instruction node) { this->impl->prependChild(node); }
+
+  void addChild(Instruction node) { this->impl->addChild(node); }
+  template <typename T = Instruction> auto children() {
+    return this->impl->template children<T>();
+  }
+  template <typename T = Instruction> auto revChildren() {
+    return this->impl->template revChildren<T>();
+  }
+};
+
+struct RegionLikeImpl;
+struct RegionLike : RegionLikeWrapper<RegionLikeImpl, PointerWrapper> {
+  using RegionLikeWrapper::RegionLikeWrapper;
+  using RegionLikeWrapper::operator=;
+};
+} // namespace shader::ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/RegionLikeImpl.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/RegionLikeImpl.hpp
new file mode 100644
index 00000000..65c52494
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/RegionLikeImpl.hpp
@@ -0,0 +1,25 @@
+#pragma once
+
+#include "PreincNodeIterable.hpp"
+#include "RegionLike.hpp"
+
+namespace shader::ir {
+struct RegionLikeImpl {
+  Instruction first = nullptr;
+  Instruction last = nullptr;
+
+  virtual ~RegionLikeImpl() = default;
+
+  template <typename T = Instruction> auto children() const {
+    return PreincNodeIterable<T>{first, nullptr};
+  }
+
+  template <typename T = Instruction> auto revChildren() const {
+    return RevPreincNodeIterable<T>{last, nullptr};
+  }
+
+  virtual void insertAfter(Instruction point, Instruction node);
+  virtual void prependChild(Instruction node);
+  virtual void addChild(Instruction node);
+};
+} // namespace shader::ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Value.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Value.hpp
new file mode 100644
index 00000000..0a381867
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/Value.hpp
@@ -0,0 +1,36 @@
+#pragma once
+
+#include "Instruction.hpp"
+#include "Operand.hpp"
+
+namespace shader::ir {
+struct Value;
+template <typename T> struct ValueWrapper : InstructionWrapper<T> {
+  using InstructionWrapper<T>::InstructionWrapper;
+  using InstructionWrapper<T>::operator=;
+
+  decltype(auto) getUserList() const { return this->impl->getUserList(); }
+  auto & getUseList() const { return this->impl->uses; }
+  void replaceAllUsesWith(Value other) const;
+
+  bool isUnused() const { return this->impl->uses.empty(); }
+};
+
+struct ValueImpl;
+struct Value : ValueWrapper<ValueImpl> {
+  using ValueWrapper::ValueWrapper;
+  using ValueWrapper::operator=;
+};
+
+template <typename T>
+void ValueWrapper<T>::replaceAllUsesWith(Value other) const {
+  this->impl->replaceAllUsesWith(other);
+}
+
+struct ValueUse {
+  Instruction user;
+  Value node;
+  int operandIndex;
+  auto operator<=>(const ValueUse &) const = default;
+};
+} // namespace shader::ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/ValueImpl.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/ValueImpl.hpp
new file mode 100644
index 00000000..a30bddec
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/ir/ValueImpl.hpp
@@ -0,0 +1,55 @@
+#pragma once
+
+#include "InstructionImpl.hpp"
+#include "NameStorage.hpp"
+#include "Node.hpp"
+#include "Value.hpp"
+
+namespace shader::ir {
+struct ValueImpl : InstructionImpl {
+  std::set<ValueUse> uses;
+
+  ValueImpl(Location location, Kind kind, unsigned op,
+            std::span<const Operand> operands = {})
+      : InstructionImpl(location, kind, op, operands) {}
+
+  void addUse(Instruction user, int operandIndex) {
+    uses.insert({user, this, operandIndex});
+  }
+
+  void removeUse(Instruction user, int operandIndex) {
+    uses.erase({user, this, operandIndex});
+  }
+
+  std::set<Node> getUserList() const {
+    std::set<Node> list;
+    for (auto use : uses) {
+      list.insert(use.user);
+    }
+    return list;
+  }
+
+  void replaceAllUsesWith(Value other) {
+    if (other == this) {
+      std::abort();
+    }
+
+    while (!uses.empty()) {
+      auto use = *uses.begin();
+      if (other == nullptr) {
+        use.user.replaceOperand(use.operandIndex, nullptr);
+      } else {
+        use.user.replaceOperand(use.operandIndex, other);
+      }
+    }
+  }
+
+  void print(std::ostream &os, NameStorage &ns) const override {
+    os << '%' << ns.getNameOf(const_cast<ValueImpl *>(this));
+    os << " = ";
+    InstructionImpl::print(os, ns);
+  }
+
+  Node clone(Context &context, CloneMap &map) const override;
+};
+} // namespace shader::ir
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/opt.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/opt.hpp
new file mode 100644
index 00000000..96e53467
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/opt.hpp
@@ -0,0 +1,7 @@
+#pragma once
+#include "ir/Context.hpp"
+#include "ir/Region.hpp"
+
+namespace shader {
+bool optimize(ir::Context &context, ir::Region region);
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/spv.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/spv.hpp
new file mode 100644
index 00000000..dcd7736a
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/spv.hpp
@@ -0,0 +1,173 @@
+#pragma once
+
+#include "ir/Context.hpp"
+#include "ir/Region.hpp"
+#include "ir/RegionImpl.hpp"
+#include <optional>
+#include <span>
+#include <spirv-tools/optimizer.hpp>
+
+namespace shader::spv {
+
+struct BinaryLayout {
+  enum {
+    kCapabilities,
+    kExtensions,
+    kExtInstImports,
+    kMemoryModels,
+    kEntryPoints,
+    kExecutionModes,
+    kDebugs,
+    kAnnotations,
+    kGlobals,
+    kFunctionDeclarations,
+    kFunctions,
+
+    kRegionCount
+  };
+
+  ir::Region regions[kRegionCount];
+
+  ir::Region getOrCreateRegion(ir::Context &context, int index) {
+    if (regions[index] == nullptr) {
+      regions[index] = context.create<ir::Region>(context.getUnknownLocation());
+    }
+
+    return regions[index];
+  }
+
+  ir::Region getOrCreateCapabilities(ir::Context &context) {
+    return getOrCreateRegion(context, kCapabilities);
+  }
+  ir::Region getOrCreateExtensions(ir::Context &context) {
+    return getOrCreateRegion(context, kExtensions);
+  }
+  ir::Region getOrCreateExtInstImports(ir::Context &context) {
+    return getOrCreateRegion(context, kExtInstImports);
+  }
+  ir::Region getOrCreateMemoryModels(ir::Context &context) {
+    return getOrCreateRegion(context, kMemoryModels);
+  }
+  ir::Region getOrCreateEntryPoints(ir::Context &context) {
+    return getOrCreateRegion(context, kEntryPoints);
+  }
+  ir::Region getOrCreateExecutionModes(ir::Context &context) {
+    return getOrCreateRegion(context, kExecutionModes);
+  }
+  ir::Region getOrCreateDebugs(ir::Context &context) {
+    return getOrCreateRegion(context, kDebugs);
+  }
+  ir::Region getOrCreateAnnotations(ir::Context &context) {
+    return getOrCreateRegion(context, kAnnotations);
+  }
+  ir::Region getOrCreateGlobals(ir::Context &context) {
+    return getOrCreateRegion(context, kGlobals);
+  }
+  ir::Region getOrCreateFunctionDeclarations(ir::Context &context) {
+    return getOrCreateRegion(context, kFunctionDeclarations);
+  }
+  ir::Region getOrCreateFunctions(ir::Context &context) {
+    return getOrCreateRegion(context, kFunctions);
+  }
+
+  ///
+  /// \brief Merge all regions into a single one.
+  ///
+  /// After calling this function, all regions in the object
+  /// become empty.
+  ///
+  ir::Region merge(ir::Context &context) {
+    auto result = context.create<ir::Region>(context.getUnknownLocation());
+    for (auto &region : regions) {
+      if (region == nullptr) {
+        continue;
+      }
+
+      result.appendRegion(std::move(region));
+      region = {};
+    }
+
+    return result;
+  }
+};
+
+///
+/// Deserialize a SPIR-V binary into an intermediate representation.
+///
+/// \param context context to attach the IR to
+/// \param spv SPIR-V binary
+/// \param loc location to use for error reporting
+/// \returns the deserialized IR, or std::nullopt if deserialization failed
+///
+std::optional<BinaryLayout> deserialize(ir::Context &context,
+                                        std::span<const std::uint32_t> spv,
+                                        ir::Location loc);
+///
+/// \brief Serialize SPIR-V from an IR region.
+///
+/// This function generates a SPIR-V binary from an IR region.
+/// The SPIR-V binary is stored in the returned vector.
+///
+/// \returns A vector of u32 values representing the SPIR-V binary.
+///
+std::vector<std::uint32_t> serialize(ir::Region body);
+
+inline std::vector<std::uint32_t> serialize(ir::Context &context,
+                                            BinaryLayout &&layout) {
+  return serialize(layout.merge(context));
+}
+
+///
+/// \brief Returns true if the instruction is a terminator.
+///
+bool isTerminatorInst(ir::InstructionId inst);
+
+///
+/// \brief Disassemble a SPIR-V binary into text and print result to stderr.
+///
+/// \param spv The SPIR-V binary to disassemble.
+/// \param pretty If true, emit friendly names for functions, variables, and
+/// other values.  If false, emit the SPIR-V ID for each value.
+///
+/// \note The SPIR-V binary is not validated or checked for errors.  If the
+/// input is invalid, the output is undefined.
+void dump(std::span<const std::uint32_t> spv, bool pretty = false);
+
+///
+/// \brief Disassemble a SPIR-V binary into text.
+///
+/// \param spv The SPIR-V binary to disassemble.
+/// \param pretty If true, emit friendly names for functions, variables, and
+/// other values.  If false, emit the SPIR-V ID for each value.
+/// \return the assembly text
+///
+/// \note The SPIR-V binary is not validated or checked for errors.  If the
+/// input is invalid, the output is undefined.
+std::string disassembly(std::span<const std::uint32_t> spv, bool pretty = false);
+
+///
+/// \brief Validates a given SPIR-V binary against the SPIR-V spec
+///
+/// \param spv the SPIR-V binary to validate
+/// \return whether the SPIR-V binary is valid
+///
+/// This functions uses the SPIR-V Tools validator to check the given SPIR-V
+/// binary against the SPIR-V spec. If the SPIR-V is invalid, the function
+/// will print out the validation error messages and return false. If the
+/// SPIR-V is valid, the function simply returns true.
+bool validate(std::span<const std::uint32_t> spv);
+
+///
+/// \brief Optimize a SPIR-V module.
+///
+/// \param spv the SPIR-V binary to optimize
+/// \return the optimized SPIR-V binary or an empty optional if binary is
+/// invalid
+///
+/// This function takes a SPIR-V module and runs a series of optimization passes
+/// on it using SPIR-V Tools opt.  If the optimization is successful, the
+/// optimized module is returned. Otherwise, an empty optional is returned.
+///
+std::optional<std::vector<std::uint32_t>>
+optimize(std::span<const std::uint32_t> spv);
+} // namespace shader::spv
diff --git a/rpcsx-gpu2/lib/gcn-shader/include/shader/transform.hpp b/rpcsx-gpu2/lib/gcn-shader/include/shader/transform.hpp
new file mode 100644
index 00000000..92fbb99c
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/include/shader/transform.hpp
@@ -0,0 +1,8 @@
+#pragma once
+#include "SpvConverter.hpp"
+#include "ir.hpp"
+
+namespace shader {
+void structurizeCfg(spv::Context &context, ir::RegionLike region,
+                    ir::Value exitLabel);
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/shaders/CMakeLists.txt b/rpcsx-gpu2/lib/gcn-shader/shaders/CMakeLists.txt
new file mode 100644
index 00000000..eaba8c3e
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/shaders/CMakeLists.txt
@@ -0,0 +1,19 @@
+set(OUTPUT_FILENAME rdna-semantic-spirv.hpp)
+set(INCLUDE_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR}/include)
+set(OUTPUT_DIRECTORY ${INCLUDE_DIRECTORY}/shaders)
+set(OUTPUT_FILE ${OUTPUT_DIRECTORY}/${OUTPUT_FILENAME})
+set(INPUT_FILE ${CMAKE_CURRENT_SOURCE_DIR}/rdna.glsl)
+file(MAKE_DIRECTORY ${OUTPUT_DIRECTORY})
+
+add_custom_command(
+    OUTPUT ${OUTPUT_FILE}
+    COMMAND $<TARGET_FILE:shader-tool> --output-type spirv-header --output-var-name g_rdna_semantic_spirv -i ${INPUT_FILE} -o ${OUTPUT_FILE}
+    DEPENDS shader-tool ${INPUT_FILE}
+    WORKING_DIRECTORY ${CMAKE_CURRENT_BINARY_DIR}
+    COMMENT "Generating ${OUTPUT_FILE}..."
+)
+
+add_custom_target(rdna-semantic-spirv-gen DEPENDS ${OUTPUT_FILE})
+add_library(rdna-semantic-spirv INTERFACE)
+add_dependencies(rdna-semantic-spirv rdna-semantic-spirv-gen)
+target_include_directories(rdna-semantic-spirv INTERFACE ${INCLUDE_DIRECTORY})
diff --git a/rpcsx-gpu2/lib/gcn-shader/shaders/rdna.glsl b/rpcsx-gpu2/lib/gcn-shader/shaders/rdna.glsl
new file mode 100644
index 00000000..8862a8a0
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/shaders/rdna.glsl
@@ -0,0 +1,2708 @@
+#version 460
+
+#extension GL_EXT_buffer_reference2 : require
+#extension GL_EXT_buffer_reference_uvec2 : require
+#extension GL_EXT_shader_explicit_arithmetic_types_int64 : require
+#extension GL_GOOGLE_include_directive : require
+#extension GL_EXT_shader_explicit_arithmetic_types : require
+#extension GL_EXT_shader_atomic_int64 : require
+#extension GL_EXT_shader_atomic_float : require
+#extension GL_EXT_shader_image_load_formatted : require
+#extension GL_KHR_memory_scope_semantics : require
+#extension GL_EXT_shared_memory_block : require
+#extension GL_EXT_scalar_block_layout : require
+#extension GL_EXT_null_initializer : require
+#extension GL_EXT_shader_atomic_float2 : require
+#extension GL_EXT_nonuniform_qualifier: require
+#extension GL_EXT_samplerless_texture_functions : require
+
+#define FLT_MAX 3.402823466e+38
+#define FLT_MIN 1.175494351e-38
+#define DBL_MAX 1.7976931348623158e+308
+#define DBL_MIN 2.2250738585072014e-308
+
+#define ClampInfToFltMax(x) (isinf(x) ? ((x) < 0 ? -FLT_MAX : FLT_MAX) : (x))
+#define ConvertInfToZero(x) (isinf(x) ? 0.0 : (x))
+#define Rsqrt(x) (1.0 / sqrt(x))
+#define Rcp(x) (1.0 / x)
+
+#define U32ARRAY_FETCH_BITS(ARRAY, START, BITCOUNT)  ((ARRAY[(START) >> 5] >> ((START) & 31)) & ((1 << (BITCOUNT)) - 1))
+#define U64ARRAY_FETCH_BITS(ARRAY, START, BITCOUNT)  ((ARRAY[(START) >> 6] >> ((START) & 63)) & ((uint64_t(1) << (BITCOUNT)) - 1))
+
+#define FOR_ALL_BASE_TYPES(OP) \
+    OP(int8_t) \
+    OP(uint8_t) \
+    OP(int16_t) \
+    OP(uint16_t) \
+    OP(float16_t) \
+    OP(int32_t) \
+    OP(uint32_t) \
+    OP(float32_t) \
+    OP(int64_t) \
+    OP(uint64_t) \
+    OP(float64_t) \
+
+#define SIZEOF(x) sizeof_##x
+#define DEFINE_SIZEOF(x, size) const int SIZEOF(x) = size
+
+DEFINE_SIZEOF(int8_t, 1);
+DEFINE_SIZEOF(uint8_t, 1);
+
+DEFINE_SIZEOF(int16_t, 2);
+DEFINE_SIZEOF(uint16_t, 2);
+DEFINE_SIZEOF(float16_t, 2);
+
+DEFINE_SIZEOF(int32_t, 4);
+DEFINE_SIZEOF(uint32_t, 4);
+DEFINE_SIZEOF(float32_t, 4);
+DEFINE_SIZEOF(int64_t, 8);
+DEFINE_SIZEOF(uint64_t, 8);
+DEFINE_SIZEOF(float64_t, 8);
+
+uint thread_id;
+uint64_t exec;
+
+int32_t sext(int32_t x, uint bits) {
+    return bits == 32 ? x : (x << (32 - bits)) >> (32 - bits);
+}
+uint32_t zext(uint32_t x, uint bits) {
+    return bits == 32 ? x : (x << (32 - bits)) >> (32 - bits);
+}
+
+uint32_t mul24lo(uint32_t a, uint32_t b) { return (a & 0xffffff) * (b & 0xffffff); }
+int32_t mul24lo(int32_t a, int32_t b) { return sext(a, 24) * sext(b, 24); }
+
+uint32_t mul24hi(uint32_t a, uint32_t b) {
+    uint32_t hi, lo;
+    umulExtended((a & 0xffffff), (b & 0xffffff), hi, lo);
+    return hi;
+}
+int32_t mul24hi(int32_t a, int32_t b) {
+    int32_t hi, lo;
+    imulExtended(sext(a, 24), sext(b, 24), hi, lo);
+    return hi;
+}
+
+bool exec_test() {
+    return (exec & (uint64_t(1) << thread_id)) != 0;
+}
+
+uint32_t absdiff(uint32_t x, uint32_t y) {
+    return x > y ? x - y : y - x;
+}
+
+int32_t get_ieee_exponent(float32_t x) {
+    int32_t result;
+    frexp(x, result);
+    return result;
+}
+
+int32_t get_ieee_exponent(float64_t x) {
+    int32_t result;
+    frexp(x, result);
+    return result;
+}
+
+uint64_t vbuffer_base(u32vec4 vbuffer) {
+    uint64_t baseLo = vbuffer[0];
+    uint64_t baseHi = U32ARRAY_FETCH_BITS(vbuffer, 32, 12);
+    uint64_t base = baseLo | (baseHi << 32);
+    return base;
+}
+uint32_t vbuffer_stride(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 48, 14);
+}
+bool vbuffer_swizzle_en(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 63, 1) != 0;
+}
+uint32_t vbuffer_num_records(u32vec4 vbuffer) {
+    return vbuffer[2];
+}
+uint32_t vbuffer_dst_sel_x(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 96, 3);
+}
+uint32_t vbuffer_dst_sel_y(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 99, 3);
+}
+uint32_t vbuffer_dst_sel_z(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 102, 3);
+}
+uint32_t vbuffer_dst_sel_w(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 105, 3);
+}
+u32vec4 vbuffer_dst_sel(u32vec4 vbuffer) {
+    return u32vec4(vbuffer_dst_sel_x(vbuffer), vbuffer_dst_sel_y(vbuffer), vbuffer_dst_sel_z(vbuffer), vbuffer_dst_sel_w(vbuffer));
+}
+uint32_t vbuffer_nfmt(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 108, 3);
+}
+uint32_t vbuffer_dfmt(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 111, 4);
+}
+uint32_t vbuffer_element_size(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 115, 2);
+}
+uint32_t vbuffer_index_stride(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 117, 2);
+}
+bool vbuffer_addtid_en(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 119, 1) != 0;
+}
+bool vbuffer_hash_en(u32vec4 vbuffer) {
+    return U32ARRAY_FETCH_BITS(vbuffer, 121, 1) != 0;
+}
+
+const int kPsVGprInputIPerspSample = 0;
+const int kPsVGprInputJPerspSample = 1;
+const int kPsVGprInputIPerspCenter = 2;
+const int kPsVGprInputJPerspCenter = 3;
+const int kPsVGprInputIPerspCentroid = 4;
+const int kPsVGprInputJPerspCentroid = 5;
+const int kPsVGprInputIW = 6;
+const int kPsVGprInputJW = 7;
+const int kPsVGprInput1W = 8;
+const int kPsVGprInputILinearSample = 9;
+const int kPsVGprInputJLinearSample = 10;
+const int kPsVGprInputILinearCenter = 11;
+const int kPsVGprInputJLinearCenter = 12;
+const int kPsVGprInputILinearCentroid = 13;
+const int kPsVGprInputJLinearCentroid = 14;
+const int kPsVGprInputX = 15;
+const int kPsVGprInputY = 16;
+const int kPsVGprInputZ = 17;
+const int kPsVGprInputW = 18;
+const int kPsVGprInputFrontFace = 19;
+const int kPsVGprInputAncillary = 20;
+const int kPsVGprInputSampleCoverage = 21;
+const int kPsVGprInputPosFixed = 22;
+
+const int kCompSwapStd = 0;
+const int kCompSwapAlt = 1;
+const int kCompSwapStdRev = 2;
+const int kCompSwapAltRev = 3;
+
+f32vec4 ps_comp_swap(uint32_t mode, f32vec4 value) {
+    switch (mode) {
+    case kCompSwapStd:
+        return value.rgba;
+    case kCompSwapAlt:
+        return value.bgra;
+    case kCompSwapStdRev:
+        return value.abgr;
+    case kCompSwapAltRev:
+        return value.argb;
+    }
+
+    return value;
+}
+
+float32_t ps_input_vgpr(int32_t index, f32vec4 fragCoord, bool frontFace) {
+    switch (index) {
+    case kPsVGprInputIPerspSample:
+    case kPsVGprInputJPerspSample:
+    case kPsVGprInputIPerspCenter:
+    case kPsVGprInputJPerspCenter:
+    case kPsVGprInputIPerspCentroid:
+    case kPsVGprInputJPerspCentroid:
+    case kPsVGprInputILinearSample:
+    case kPsVGprInputJLinearSample:
+    case kPsVGprInputILinearCenter:
+    case kPsVGprInputJLinearCenter:
+    case kPsVGprInputILinearCentroid:
+    case kPsVGprInputJLinearCentroid:
+        return intBitsToFloat(index);
+
+    case kPsVGprInputIW:
+        return fragCoord.y / fragCoord.w;
+    case kPsVGprInputJW:
+        return fragCoord.z / fragCoord.w;
+    case kPsVGprInput1W:
+        return 1.f / fragCoord.w;
+    case kPsVGprInputX:
+        return fragCoord.x;
+    case kPsVGprInputY:
+        return fragCoord.y;
+    case kPsVGprInputZ:
+        return fragCoord.z;
+    case kPsVGprInputW:
+        return fragCoord.w;
+    case kPsVGprInputFrontFace:
+        return intBitsToFloat(frontFace ? 1 : 0);
+    case kPsVGprInputAncillary:
+        return 0;
+    case kPsVGprInputSampleCoverage:
+        return 0;
+    case kPsVGprInputPosFixed:
+        return 0;
+    }
+    return 0;
+}
+
+const uint32_t kPrimTypeQuadList = 0x13;
+const uint32_t kPrimTypeQuadStrip = 0x14;
+
+uint32_t vs_get_index(uint32_t mode, uint32_t index) {
+    switch (mode) {
+    case kPrimTypeQuadList: {
+        const uint32_t indicies[] = {0, 1, 2, 2, 3, 0};
+        return index / 6 + indicies[index % 6];
+    }
+
+    case kPrimTypeQuadStrip: {
+        const uint32_t indicies[] = {0, 1, 3, 0, 3, 2};
+        return index / 6 + indicies[index % 6];
+    }
+    }
+
+    return index;
+}
+
+// VINTRP
+float32_t v_interp_mov_f32(uint32_t param, float32_t attr[3]) {
+    return attr[param == 1 ? 1 : (param == 2 ? 2 : 0)];
+}
+
+void v_interp_p1_f32(out float32_t dst, float32_t vI, float32_t attr[3]) {
+    dst = attr[0] + vI * attr[1];
+}
+
+void v_interp_p2_f32(inout float32_t dst, float32_t vJ, float32_t attr[3]) {
+    dst += vJ * attr[2];
+}
+
+// VOP
+uint64_t vcc;
+int32_t v_cvt_i32_f64(float64_t x) { return int32_t(x); }
+float64_t v_cvt_f64_i32(int32_t x) { return float64_t(x); }
+float32_t v_cvt_f32_i32(int32_t x) { return float32_t(x); }
+float32_t v_cvt_f32_u32(uint32_t x) { return float32_t(x); }
+uint32_t v_cvt_u32_f32(float32_t x) { return uint32_t(x); }
+int32_t v_cvt_i32_f32(float32_t x) { return int32_t(x); }
+float16_t v_cvt_f16_f32(float32_t x) { return float16_t(x); }
+float32_t v_cvt_f32_f16(float16_t x) { return float32_t(x); }
+int32_t v_cvt_rpi_i32_f32(float32_t x) { return int32_t(floor(x + 0.5)); }
+int32_t v_cvt_flr_i32_f32(float32_t x) { return int32_t(floor(x)); }
+float32_t v_cvt_off_f32_i4(int32_t x) { return float32_t(((x & 0xf) << 28) >> 28); }
+float32_t v_cvt_f32_f64(float64_t x) { return float32_t(x); }
+float64_t v_cvt_f64_f32(float32_t x) { return float64_t(x); }
+float32_t v_cvt_f32_ubyte0(uint32_t x) { return float32_t(x & 0xff); }
+float32_t v_cvt_f32_ubyte1(uint32_t x) { return float32_t((x >> 8) & 0xff); }
+float32_t v_cvt_f32_ubyte2(uint32_t x) { return float32_t((x >> 16) & 0xff); }
+float32_t v_cvt_f32_ubyte3(uint32_t x) { return float32_t((x >> 24) & 0xff); }
+float32_t v_cvt_u32_f64(float64_t x) { return float32_t(x); }
+float64_t v_cvt_f64_u32(uint32_t x) { return float64_t(x); }
+float32_t v_fract_f32(float32_t x) { return fract(x); }
+float32_t v_trunc_f32(float32_t x) { return trunc(x); }
+float32_t v_ceil_f32(float32_t x) { return ceil(x); }
+float32_t v_rndne_f32(float32_t x) {
+    float32_t xfract = fract(x);
+    float32_t xround = floor(x + 0.5);
+
+    if (xfract == 0.5 && floor(x) * 0.5 == floor(xround * 0.5)) {
+        xround -= 1.0;
+    }
+    return xround;
+}
+float32_t v_floor_f32(float32_t x) { return floor(x); }
+float32_t v_exp_f32(float32_t x) { return exp2(x); }
+float32_t v_log_clamp_f32(float32_t x) { return ClampInfToFltMax(log2(x)); }
+float32_t v_log_f32(float32_t x) { return log2(x); }
+float32_t v_rcp_clamp_f32(float32_t x) { return ClampInfToFltMax(Rcp(x)); }
+float32_t v_rcp_legacy_f32(float32_t x) { return ConvertInfToZero(Rcp(x)); }
+float32_t v_rcp_f32(float32_t x) { return Rcp(x); }
+float32_t v_rcp_iflag_f32(float32_t x) { return Rcp(x); }
+float32_t v_rsq_clamp_f32(float32_t x) { return ClampInfToFltMax(Rsqrt(x)); }
+float32_t v_rsq_legacy_f32(float32_t x) { return ConvertInfToZero(Rsqrt(x)); }
+float32_t v_rsq_f32(float32_t x) { return Rsqrt(x); }
+float64_t v_rcp_f64(float64_t x) { return Rcp(x); }
+float64_t v_rcp_clamp_f64(float64_t x) { return ClampInfToFltMax(Rcp(x)); }
+float64_t v_rsq_f64(float64_t x) { return Rsqrt(x); }
+float64_t v_rsq_clamp_f64(float64_t x) { return ClampInfToFltMax(Rsqrt(x)); }
+float32_t v_sqrt_f32(float32_t x) { return sqrt(x); }
+float64_t v_sqrt_f64(float64_t x) { return sqrt(x); }
+float32_t v_sin_f32(float32_t x) { return sin(x * 2 * radians(180)); }
+float32_t v_cos_f32(float32_t x) { return cos(x * 2 * radians(180)); }
+uint32_t v_not_b32(uint32_t x) { return ~x; }
+uint32_t v_bfrev_b32(uint32_t x) { return bitfieldReverse(x); }
+uint32_t v_ffbh_u32(uint32_t x) { return findMSB(x); }
+uint32_t v_ffbl_b32(uint32_t x) { return findLSB(x); }
+int32_t v_ffbh_i32(int32_t x) { return findMSB(x); }
+int32_t v_frexp_exp_i32_f64(float64_t x) {
+    if (x == 0) {
+        return 0;
+    }
+
+    if (!isnan(x) && !isinf(x)) {
+        int32_t exp;
+        frexp(x, exp);
+        return exp;
+    } else {
+        return -1;
+    }
+}
+float64_t v_frexp_mant_f64(float64_t x) {
+    if (x == 0) {
+        return 0;
+    }
+
+    if (!isnan(x) && !isinf(x)) {
+        int32_t exp;
+        return frexp(x, exp);
+    } else {
+        return -1;
+    }
+}
+float64_t v_fract_f64(float64_t x) { return fract(x); }
+int32_t v_frexp_exp_i32_f32(float32_t x) {
+    if (x == 0) {
+        return 0;
+    }
+
+    if (!isnan(x) && !isinf(x)) {
+        int32_t exp;
+        frexp(x, exp);
+        return exp;
+    } else {
+        return -1;
+    }
+}
+float32_t v_frexp_mant_f32(float32_t x) {
+    if (x == 0) {
+        return 0;
+    }
+
+    if (!isnan(x) && !isinf(x)) {
+        int32_t exp;
+        return frexp(x, exp);
+    } else {
+        return -1;
+    }
+}
+
+uint32_t v_cndmask_b32(uint32_t x, uint32_t y, uint64_t mask) {
+    return (mask & (1 << thread_id)) != 0 ? y : x;
+}
+float32_t v_add_f32(float32_t x, float32_t y) { return x + y; }
+float32_t v_sub_f32(float32_t x, float32_t y) { return x - y; }
+float32_t v_subrev_f32(float32_t x, float32_t y) { return y - x; }
+float32_t v_mac_legacy_f32(float32_t x, float32_t y, float32_t dst) {
+    return x == 0 || y == 0 ? dst : fma(x, y, dst);
+}
+float32_t v_mul_legacy_f32(float32_t x, float32_t y) {
+    return x == 0 || y == 0 ? 0 : x * y;
+}
+float32_t v_mul_f32(float32_t x, float32_t y) { return x * y; }
+int32_t v_mul_i32_i24(int32_t x, int32_t y) { return mul24lo(x, y); }
+int32_t v_mul_hi_i32_i24(int32_t x, int32_t y) { return mul24hi(x, y); }
+uint32_t v_mul_u32_u24(uint32_t x, uint32_t y) { return mul24lo(x, y); }
+uint32_t v_mul_hi_u32_u24(uint32_t x, uint32_t y) { return mul24hi(x, y); }
+float32_t v_min_legacy_f32(float32_t x, float32_t y) {
+    return min(x, y);
+}
+float32_t v_max_legacy_f32(float32_t x, float32_t y) {
+    if (isnan(x) || isnan(y)) {
+        return y;
+    }
+    return max(x, y);
+}
+float32_t v_min_f32(float32_t x, float32_t y) {
+    return x < y ? x : y;
+}
+float32_t v_max_f32(float32_t x, float32_t y) {
+    return x >= y ? x : y;
+}
+int32_t v_min_i32(int32_t x, int32_t y) { return min(x, y); }
+int32_t v_max_i32(int32_t x, int32_t y) { return max(x, y); }
+uint32_t v_min_u32(uint32_t x, uint32_t y) { return min(x, y); }
+uint32_t v_max_u32(uint32_t x, uint32_t y) { return max(x, y); }
+uint32_t v_lshr_b32(uint32_t x, uint32_t y) { return x >> (y & 0x1f); }
+uint32_t v_lshrrev_b32(uint32_t x, uint32_t y) { return y >> (x & 0x1f); }
+int32_t v_ashr_i32(int32_t x, uint32_t y) { return x >> (y & 0x1f); }
+int32_t v_ashrrev_i32(uint32_t x, int32_t y) { return y >> (x & 0x1f); }
+uint32_t v_lshl_b32(uint32_t x, uint32_t y) { return x << (y & 0x1f); }
+uint32_t v_lshlrev_b32(uint32_t x, uint32_t y) { return y << (x & 0x1f); }
+uint32_t v_and_b32(uint32_t x, uint32_t y) { return x & y; }
+uint32_t v_or_b32(uint32_t x, uint32_t y) { return x | y; }
+uint32_t v_xor_b32(uint32_t x, uint32_t y) { return x ^ y; }
+uint32_t v_bfm_b32(uint32_t x, uint32_t y) { return ((1 << (x & 0x1f)) - 1) << (y & 0x1f); }
+float32_t v_mac_f32(float32_t x, float32_t y, float32_t dst) { return fma(x, y, dst); }
+float32_t v_madmk_f32(float32_t x, float32_t y, float32_t k) { return fma(x, k, y); }
+float32_t v_madak_f32(float32_t x, float32_t y, float32_t k) { return fma(x, y, k); }
+uint32_t v_bcnt_u32_b32(uint32_t x) { return bitCount(x); }
+uint32_t v_mbcnt_lo_u32_b32(uint32_t x, uint32_t y) {
+    return bitCount(x & uint32_t((uint64_t(1) << thread_id) - 1)) + y;
+}
+uint32_t v_mbcnt_hi_u32_b32(uint32_t x, uint32_t y) {
+    return (thread_id > 32 ? bitCount(x & ((1 << (thread_id - 32)) - 1)) : 0) + y;
+}
+uint32_t v_add_i32(inout uint64_t sdst, int32_t x, int32_t y) {
+    uint64_t result = uint64_t(x) + uint64_t(y);
+    
+    if (result > 0xffffffff) {
+        sdst |= exec & (uint64_t(1) << thread_id);
+    } else {
+        sdst &= ~(uint64_t(1) << thread_id);
+    }
+
+    return uint32_t(result);
+}
+uint32_t v_sub_i32(inout uint64_t sdst, int32_t x, int32_t y) {
+    uint32_t result = x - y;
+
+    if (y > x) {
+        sdst |= exec & (uint64_t(1) << thread_id);
+    } else {
+        sdst &= ~(uint64_t(1) << thread_id);
+    }
+
+    return result;
+}
+uint32_t v_subrev_i32(inout uint64_t sdst, int32_t x, int32_t y) {
+    uint32_t result = y - x;
+
+    if (x > y) {
+        sdst |= exec & (uint64_t(1) << thread_id);
+    } else {
+        sdst &= ~(uint64_t(1) << thread_id);
+    }
+
+    return result;
+}
+uint32_t v_addc_u32(inout uint64_t sdst, uint32_t x, uint32_t y, uint64_t z) {
+    uint64_t result = uint64_t(x) + y + ((z & (1 << thread_id)) != 0 ? 1 : 0);
+    if (result > 0xffffffff) {
+        sdst |= exec & (uint64_t(1) << thread_id);
+    } else {
+        sdst &= ~(uint64_t(1) << thread_id);
+    }
+    return uint32_t(result);
+}
+uint32_t v_subb_u32(inout uint64_t sdst, uint32_t x, uint32_t y, uint64_t z) {
+    uint32_t borrow = ((z & (1 << thread_id)) != 0 ? 1 : 0);
+    uint64_t result = uint64_t(x) - y - borrow;
+    if (uint64_t(y) + borrow > x) {
+        sdst |= exec & (uint64_t(1) << thread_id);
+    } else {
+        sdst &= ~(uint64_t(1) << thread_id);
+    }
+    return uint32_t(result);
+}
+uint32_t v_subbrev_u32(inout uint64_t sdst, uint32_t x, uint32_t y, uint64_t z) {
+    uint32_t borrow = ((z & (1 << thread_id)) != 0 ? 1 : 0);
+    uint64_t result = uint64_t(y) - x - borrow;
+    if (uint64_t(x) + borrow > y) {
+        sdst |= exec & (uint64_t(1) << thread_id);
+    } else {
+        sdst &= ~(uint64_t(1) << thread_id);
+    }
+    return uint32_t(result);
+}
+float32_t v_ldexp_f32(float32_t x, int32_t y) { return ldexp(x, y); }
+uint32_t v_cvt_pkaccum_u8_f32(float32_t x, uint32_t y, uint32_t dst) {
+    uint32_t bit = 8 * (y & 3);
+    return (dst & ~(0xff << bit)) | (uint32_t(clamp(x, 0, 255)) << bit);
+}
+uint32_t v_cvt_pknorm_i16_f32(float32_t x, float32_t y) { return packSnorm2x16(vec2(x, y)); }
+uint32_t v_cvt_pknorm_u16_f32(float32_t x, float32_t y) { return packUnorm2x16(vec2(x, y)); }
+uint32_t v_cvt_pkrtz_f16_f32(float32_t x, float32_t y) { return packHalf2x16(vec2(x, y)); }
+uint32_t v_cvt_pk_u16_u32(uint32_t x, uint32_t y) { return packUint2x16(u16vec2(min(x, 0xffff), min(y, 0xffff))); }
+uint32_t v_cvt_pk_i16_i32(int32_t x, int32_t y) { return packUint2x16(u16vec2(clamp(x, -0x8000, 0x7fff), clamp(y, -0x8000, 0x7fff))); }
+
+void set_cond_thread_bit(inout uint64_t sdst, bool cond) {
+    if (cond) {
+        sdst |= (uint64_t(1) << thread_id);
+    } else {
+        sdst &= ~(uint64_t(1) << thread_id);
+    }
+}
+
+void set_cond_thread_bit_exec(inout uint64_t sdst, bool cond) {
+    uint64_t bit = uint64_t(1) << thread_id;
+    if (cond && (exec & bit) != 0) {
+        sdst |= bit;
+    } else {
+        sdst &= ~bit;
+    }
+}
+
+void v_cmp_f_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, false); }
+void v_cmp_lt_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, a < b); }
+void v_cmp_eq_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, a == b); }
+void v_cmp_le_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, a <= b); }
+void v_cmp_gt_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, a > b); }
+void v_cmp_lg_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, a != b); }
+void v_cmp_ge_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, a >= b); }
+void v_cmp_o_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, !isnan(a) && !isnan(b)); }
+void v_cmp_u_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, isnan(a) || isnan(b)); }
+void v_cmp_nge_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, !(a >= b)); }
+void v_cmp_nlg_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, !(a != b)); }
+void v_cmp_ngt_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, !(a > b)); }
+void v_cmp_nle_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, !(a <= b)); }
+void v_cmp_neq_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, !(a == b)); }
+void v_cmp_nlt_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, !(a < b)); }
+void v_cmp_tru_f32(inout uint64_t sdst, float32_t a, float32_t b) { set_cond_thread_bit(sdst, true); }
+
+void v_cmp_f_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, false); }
+void v_cmp_lt_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, a < b); }
+void v_cmp_eq_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, a == b); }
+void v_cmp_le_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, a <= b); }
+void v_cmp_gt_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, a > b); }
+void v_cmp_lg_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, a != b); }
+void v_cmp_ge_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, a >= b); }
+void v_cmp_o_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, !isnan(a) && !isnan(b)); }
+void v_cmp_u_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, isnan(a) || isnan(b)); }
+void v_cmp_nge_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, !(a >= b)); }
+void v_cmp_nlg_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, !(a != b)); }
+void v_cmp_ngt_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, !(a > b)); }
+void v_cmp_nle_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, !(a <= b)); }
+void v_cmp_neq_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, !(a == b)); }
+void v_cmp_nlt_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, !(a < b)); }
+void v_cmp_tru_f64(inout uint64_t sdst, float64_t a, float64_t b) { set_cond_thread_bit(sdst, true); }
+
+
+void v_cmp_eq_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit(sdst, a == b); }
+void v_cmp_f_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit(sdst, false); }
+void v_cmp_ge_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit(sdst, a >= b); }
+void v_cmp_gt_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit(sdst, a > b); }
+void v_cmp_le_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit(sdst, a <= b); }
+void v_cmp_lt_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit(sdst, a < b); }
+void v_cmp_ne_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit(sdst, a != b); }
+void v_cmp_t_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit(sdst, true); }
+
+void v_cmpx_eq_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit_exec(sdst, a == b); }
+void v_cmpx_f_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit_exec(sdst, false); }
+void v_cmpx_ge_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit_exec(sdst, a >= b); }
+void v_cmpx_gt_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit_exec(sdst, a > b); }
+void v_cmpx_le_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit_exec(sdst, a <= b); }
+void v_cmpx_lt_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit_exec(sdst, a < b); }
+void v_cmpx_ne_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit_exec(sdst, a != b); }
+void v_cmpx_t_u32(inout uint64_t sdst, uint32_t a, uint32_t b) { set_cond_thread_bit_exec(sdst, true); }
+
+void v_cmp_eq_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit(sdst, a == b); }
+void v_cmp_f_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit(sdst, false); }
+void v_cmp_ge_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit(sdst, a >= b); }
+void v_cmp_gt_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit(sdst, a > b); }
+void v_cmp_le_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit(sdst, a <= b); }
+void v_cmp_lt_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit(sdst, a < b); }
+void v_cmp_ne_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit(sdst, a != b); }
+void v_cmp_t_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit(sdst, true); }
+
+void v_cmpx_eq_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit_exec(sdst, a == b); }
+void v_cmpx_f_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit_exec(sdst, false); }
+void v_cmpx_ge_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit_exec(sdst, a >= b); }
+void v_cmpx_gt_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit_exec(sdst, a > b); }
+void v_cmpx_le_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit_exec(sdst, a <= b); }
+void v_cmpx_lt_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit_exec(sdst, a < b); }
+void v_cmpx_ne_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit_exec(sdst, a != b); }
+void v_cmpx_t_i32(inout uint64_t sdst, int32_t a, int32_t b) { set_cond_thread_bit_exec(sdst, true); }
+
+void v_cmp_eq_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit(sdst, a == b); }
+void v_cmp_f_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit(sdst, false); }
+void v_cmp_ge_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit(sdst, a >= b); }
+void v_cmp_gt_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit(sdst, a > b); }
+void v_cmp_le_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit(sdst, a <= b); }
+void v_cmp_lt_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit(sdst, a < b); }
+void v_cmp_ne_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit(sdst, a != b); }
+void v_cmp_t_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit(sdst, true); }
+
+void v_cmpx_eq_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit_exec(sdst, a == b); }
+void v_cmpx_f_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit_exec(sdst, false); }
+void v_cmpx_ge_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit_exec(sdst, a >= b); }
+void v_cmpx_gt_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit_exec(sdst, a > b); }
+void v_cmpx_le_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit_exec(sdst, a <= b); }
+void v_cmpx_lt_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit_exec(sdst, a < b); }
+void v_cmpx_ne_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit_exec(sdst, a != b); }
+void v_cmpx_t_u64(inout uint64_t sdst, uint64_t a, uint64_t b) { set_cond_thread_bit_exec(sdst, true); }
+
+void v_cmp_eq_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit(sdst, a == b); }
+void v_cmp_f_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit(sdst, false); }
+void v_cmp_ge_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit(sdst, a >= b); }
+void v_cmp_gt_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit(sdst, a > b); }
+void v_cmp_le_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit(sdst, a <= b); }
+void v_cmp_lt_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit(sdst, a < b); }
+void v_cmp_ne_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit(sdst, a != b); }
+void v_cmp_t_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit(sdst, true); }
+
+void v_cmpx_eq_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit_exec(sdst, a == b); }
+void v_cmpx_f_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit_exec(sdst, false); }
+void v_cmpx_ge_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit_exec(sdst, a >= b); }
+void v_cmpx_gt_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit_exec(sdst, a > b); }
+void v_cmpx_le_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit_exec(sdst, a <= b); }
+void v_cmpx_lt_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit_exec(sdst, a < b); }
+void v_cmpx_ne_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit_exec(sdst, a != b); }
+void v_cmpx_t_i64(inout uint64_t sdst, int64_t a, int64_t b) { set_cond_thread_bit_exec(sdst, true); }
+
+
+#define CMP_CLASS(x, vftypemask) ( \
+    /* snan  */ (((vftypemask) & (3 << 0)) != 0 && isnan(x)) || \
+    /* qnan  */ (((vftypemask) & (1 << 1)) != 0 && isnan(x)) || \
+    /* -inf  */ (((vftypemask) & (1 << 2)) != 0 && isinf(x) && x < 0) || \
+    /* -norm */ (((vftypemask) & (1 << 3)) != 0 && !isinf(x) && !isnan(x) && x < 0) || \
+    /* -den  */ (((vftypemask) & (1 << 4)) != 0 && (isnan(x))) || \
+    /* -0    */ (((vftypemask) & (1 << 5)) != 0 && x == -0.0) || \
+    /* +0    */ (((vftypemask) & (1 << 6)) != 0 && x == +0.0) || \
+    /* +den  */ (((vftypemask) & (1 << 7)) != 0 && isnan(x)) || \
+    /* +norm */ (((vftypemask) & (1 << 8)) != 0 && !isinf(x) && !isnan(x) && x > 0) || \
+    /* +inf  */ (((vftypemask) & (1 << 9)) != 0 && isinf(x) && x > 0) \
+)
+
+bool v_cmp_class_f32(float32_t x, uint vftypemask) { return CMP_CLASS(x, vftypemask); }
+bool v_cmp_class_f64(float64_t x, uint vftypemask) { return CMP_CLASS(x, vftypemask); }
+
+float32_t v_mad_legacy_f32(float32_t a, float32_t b, float32_t c) { return (a == 0 || b == 0) ? c : fma(a, b, c); }
+float32_t v_mad_f32(float32_t a, float32_t b, float32_t c) { return fma(a, b, c); }
+uint32_t v_mad_i32_i24(int32_t a, int32_t b, int32_t c) { return mul24lo(a, b) + c; }
+uint32_t v_mad_u32_u24(uint32_t a, uint32_t b, uint32_t c) { return mul24lo(a, b) + c; }
+float32_t v_cubeid_f32(float32_t a, float32_t b, float32_t c) {
+    if (abs(c) >= abs(a) && abs(c) >= abs(b)) {
+        return c < 0 ? 5 : 4;
+    }
+
+    if (abs(b) >= abs(a)) {
+        return b < 0 ? 3 : 2;
+    }
+
+    return a < 0 ? 1 : 0;
+}
+float32_t v_cubesc_f32(float32_t a, float32_t b, float32_t c) {
+    if (abs(c) >= abs(a) && abs(c) >= abs(b)) {
+        return c < 0 ? -a : a;
+    }
+
+    if (abs(b) >= abs(a)) {
+        return a;
+    }
+
+    return a < 0 ? c : -c;
+}
+float32_t v_cubetc_f32(float32_t a, float32_t b, float32_t c) {
+    if (abs(c) >= abs(a) && abs(c) >= abs(b)) {
+        return -b;
+    }
+
+    if (abs(b) >= abs(a)) {
+        return b < 0 ? -c : c;
+    }
+
+    return -b;
+}
+float32_t v_cubema_f32(float32_t a, float32_t b, float32_t c) {
+    if (abs(c) >= abs(a) && abs(c) >= abs(b)) {
+        return 2 * c;
+    }
+    
+    if (abs(b) >= abs(a)) {
+        return 2 * b;
+    }
+
+    return  2 * a;
+}
+uint32_t v_bfe_u32(uint32_t a, uint32_t b, uint32_t c) {
+    return (a >> (b & 0x1f)) & ((1 << (c & 0x1f)) - 1);
+}
+int32_t v_bfe_i32(int32_t a, uint32_t b, uint32_t c) {
+    return (a >> (b & 0x1f)) & ((1 << (c & 0x1f)) - 1);
+}
+uint32_t v_bfi_b32(uint32_t a, uint32_t b, uint32_t c) { return (a & b) | (~a & c); }
+float32_t v_fma_f32(float32_t a, float32_t b, float32_t c) { return fma(a, b, c); }
+float64_t v_fma_f64(float64_t a, float64_t b, float64_t c) { return fma(a, b, c); }
+uint32_t v_lerp_u8(uint32_t a, uint32_t b, uint32_t c) {
+    uint32_t result = (((a >> 24) + (b >> 24) + ((c >> 24) & 1)) >> 1) << 24;
+    result += ((((a >> 16) & 0xff) + ((b >> 16) & 0xff) + ((c >> 16) & 1)) >> 1) << 16;
+    result += ((((a >> 8) & 0xff) + ((b >> 8) & 0xff) + ((c >> 8) & 1)) >> 1) << 8;
+    result += ((a & 0xff) + (b & 0xff) + (c & 1)) >> 1;
+    return result;
+}
+uint32_t v_alignbit_b32(uint32_t a, uint32_t b, uint32_t c) { return uint32_t(((uint64_t(a) << 32) | b) >> (c & 0x1f)); }
+uint32_t v_alignbyte_b32(uint32_t a, uint32_t b, uint32_t c) { return uint32_t(((uint64_t(a) << 32) | b) >> (8 * (c & 3)));  }
+float32_t v_mullit_f32(float32_t a, float32_t b, float32_t c) {
+    return (b > -FLT_MAX && c > 0) ? a * b : -FLT_MAX;
+}
+float32_t v_min3_f32(float32_t a, float32_t b, float32_t c) { return v_min_f32(v_min_f32(a, b), c); }
+int32_t v_min3_i32(int32_t a, int32_t b, int32_t c) { return v_min_i32(v_min_i32(a, b), c); }
+uint32_t v_min3_u32(uint32_t a, uint32_t b, uint32_t c) { return v_min_u32(v_min_u32(a, b), c); }
+float32_t v_max3_f32(float32_t a, float32_t b, float32_t c) { return v_max_f32(v_max_f32(a, b), c);  }
+int32_t v_max3_i32(int32_t a, int32_t b, int32_t c) { return v_max_i32(v_max_i32(a, b), c); }
+uint32_t v_max3_u32(uint32_t a, uint32_t b, uint32_t c) { return v_max_u32(v_max_u32(a, b), c);  }
+float32_t v_med3_f32(float32_t a, float32_t b, float32_t c) {
+    if (isnan(a) || isnan(b) || isnan(c)) {
+        return v_min3_f32(a, b, c);
+    }
+
+    if (v_max3_f32(a, b, c) == a) {
+        return v_max_f32(a, b);
+    }
+
+    if (v_max3_f32(a, b, c) == b) {
+        return v_max_f32(a, c);
+    }
+
+    return v_max_f32(a, b);
+}
+int32_t v_med3_i32(int32_t a, int32_t b, int32_t c) {
+    if (v_max3_i32(a, b, c) == a) {
+        return v_max_i32(b, c);
+    }
+    
+    if (v_max3_i32(a, b, c) == b) {
+        return v_max_i32(a, c);
+    }
+    return v_max_i32(a, b);
+}
+uint32_t v_med3_u32(uint32_t a, uint32_t b, uint32_t c) {
+    if (v_max3_u32(a, b, c) == a) {
+        return v_max_u32(b, c);
+    }
+    
+    if (v_max3_u32(a, b, c) == b) {
+        return v_max_u32(a, c);
+    }
+
+    return v_max_u32(a, b);
+}
+uint32_t v_sad_u8(uint32_t x, uint32_t y, uint32_t z) {
+    uint32_t result = z;
+    result += absdiff(x >> 24, y >> 24); 
+    result += absdiff((x >> 16) & 0xff, (y >> 16) & 0xff);
+    result += absdiff((x >> 8) & 0xff, (y >> 8) & 0xff);
+    result += absdiff(x & 0xff, y & 0xff);
+    return result;
+}
+uint32_t v_sad_hi_u8(uint32_t x, uint32_t y, uint32_t z) { return (v_sad_u8(x, y, 0) << 16) + z; }
+uint32_t v_sad_u16(uint32_t x, uint32_t y, uint32_t z) {
+    uint32_t result = z;
+    result += absdiff(x & 0xffff, y & 0xffff);
+    result += absdiff(x >> 16, y >> 16);
+    return result;
+}
+uint32_t v_sad_u32(uint32_t x, uint32_t y, uint32_t z) {
+    uint32_t result = z;
+    result += absdiff(x, y);
+    return result;
+}
+uint32_t v_cvt_pk_u8_f32(float32_t x, uint32_t y, uint32_t z) {
+    uint32_t byte = 8 * (y & 3);
+    uint32_t result = z & ~(0xff << byte);
+    result |= (uint8_t(x) & 0xff) << byte;
+    return result;
+}
+// uint32_t v_div_fixup_f32(uint32_t x) { return x; }
+// uint32_t v_div_fixup_f64(uint32_t x) { return x; }
+uint64_t v_lshl_b64(uint64_t x, uint32_t y) {
+    return x << (y & 0x3f);
+}
+uint64_t v_lshr_b64(uint64_t x, uint32_t y) { return x >> (y & 0x3f); }
+int64_t v_ashr_i64(int64_t x, uint32_t y) { return x >> (y & 0x3f); }
+float64_t v_add_f64(float64_t x, float64_t y) { return x + y; }
+float64_t v_mul_f64(float64_t x, float64_t y) { return x * y; }
+float64_t v_min_f64(float64_t x, float64_t y) { return x < y ? x : y; }
+float64_t v_max_f64(float64_t x, float64_t y) { return x >= y ? x : y; }
+float64_t v_ldexp_f64(float64_t x, int32_t y) { return ldexp(x, y); }
+uint32_t v_mul_lo_u32(uint32_t x, uint32_t y) { return x * y; }
+uint32_t v_mul_hi_u32(uint32_t x, uint32_t y) {
+    uint32_t hi, lo;
+    umulExtended(x, y, hi, lo);
+    return hi;
+}
+int32_t v_mul_lo_i32(int32_t x, int32_t y) { return x * y; }
+int32_t v_mul_hi_i32(int32_t x, int32_t y) {
+    int32_t hi, lo;
+    imulExtended(x, y, hi, lo);
+    return hi;
+}
+float32_t v_div_scale_f32(inout uint64_t vcc, float32_t x, float32_t y, float32_t z) {
+    int32_t e1 = get_ieee_exponent(y);
+    int32_t e2 = get_ieee_exponent(z);
+    uint64_t thread_mask = uint64_t(1) << thread_id;
+    if (abs(e2 - e1) >= 96) {
+        vcc |= thread_mask & exec;
+    } else {
+        vcc &= ~thread_mask;
+    }
+    int32_t e_scale = 0;
+
+    if (isnan(y) || isinf(y) || e2 - e1 >= 96) {
+        e_scale = 64;
+    } else if (e1 >= 126) {
+        e_scale = -64;
+    } else if (e2 <= -103 || e2 - e1 <= -96) {
+        e_scale = 64;
+    }
+
+    if (vcc != 0 && x != y) {
+        e_scale -= sign(e2 - e1) * 64;
+    }
+
+    if (y == 0.0 || z == 0.0) {
+        return 0.0 / 0.0;
+    }
+
+    return ldexp(x, e_scale);
+}
+float64_t v_div_scale_f64(inout uint64_t vcc, float64_t x, float64_t y, float64_t z) {
+    int32_t e1 = get_ieee_exponent(y);
+    int32_t e2 = get_ieee_exponent(z);
+
+    uint64_t thread_mask = uint64_t(1) << thread_id;
+    if (abs(e2 - e1) >= 768 && (exec & thread_mask) != 0) {
+        vcc |= thread_mask & exec;
+    } else {
+        vcc &= ~thread_mask;
+    }
+
+    int32_t e_scale = 0;
+
+    if (isnan(y) || isinf(y) || e2 - e1 >= 768) {
+        e_scale = 128;
+    } else if (e1 >= 126) {
+        e_scale = -128;
+    } else if (e2 <= -970 || e2 - e1 <= -768) {
+        e_scale = 128;
+    }
+
+    if (vcc != 0 && x != y) {
+        e_scale -= sign(e2 - e1) * 128;
+    }
+
+    if (y == 0.0 || z == 0.0) {
+        return 0.0 / 0.0;
+    }
+
+    return ldexp(x, e_scale);
+}
+float32_t v_div_fmas_f32(float32_t x, float32_t y, float32_t z) {
+    float32_t result = fma(x, y, z);
+    if (vcc != 0) {
+        result *= pow(2.0, z >= 2.0 ? 64 : -64);
+    }
+    return result;
+}
+float64_t v_div_fmas_f64(float64_t x, float64_t y, float64_t z) {
+    float64_t result = fma(x, y, z);
+    if (vcc != 0) {
+        result *= pow(2.0, z >= 2.0 ? 128 : -128);
+    }
+    return result;
+}
+uint32_t v_msad_u8(uint32_t x, uint32_t y, uint32_t z) {
+    uint32_t ybyte0 = y & 0xff;
+    uint32_t ybyte1 = (y >> 8) & 0xff;
+    uint32_t ybyte2 = (y >> 16) & 0xff;
+    uint32_t ybyte3 = y >> 24;
+
+    return z
+        + (ybyte0 == 0 ? 0 : absdiff(ybyte0, x & 0xff))
+        + (ybyte1 == 0 ? 0 : absdiff(ybyte1, (x >> 8) & 0xff))
+        + (ybyte2 == 0 ? 0 : absdiff(ybyte2, (x >> 16) & 0xff))
+        + (ybyte3 == 0 ? 0 : absdiff(ybyte3, x >> 24));
+}
+// float64_t v_trig_preop_f64(float64_t x, uint32_t y) {
+//     return x;
+// }
+
+// void v_mqsad_u32_u8() {}
+// void v_mad_u64_u32() {}
+// void v_mad_i64_i32() {}
+
+// SOP
+
+bool scc;
+
+void s_cmp_eq_i32(int32_t a, int32_t b) { scc = a == b; }
+void s_cmp_ge_i32(int32_t a, int32_t b) { scc = a >= b; }
+void s_cmp_gt_i32(int32_t a, int32_t b) { scc = a > b; }
+void s_cmp_le_i32(int32_t a, int32_t b) { scc = a <= b; }
+void s_cmp_lt_i32(int32_t a, int32_t b) { scc = a < b; }
+void s_cmp_lg_i32(int32_t a, int32_t b) { scc = a != b; }
+
+void s_cmp_eq_u32(uint32_t a, uint32_t b) { scc = a == b; }
+void s_cmp_ge_u32(uint32_t a, uint32_t b) { scc = a >= b; }
+void s_cmp_gt_u32(uint32_t a, uint32_t b) { scc = a > b; }
+void s_cmp_le_u32(uint32_t a, uint32_t b) { scc = a <= b; }
+void s_cmp_lt_u32(uint32_t a, uint32_t b) { scc = a < b; }
+void s_cmp_lg_u32(uint32_t a, uint32_t b) { scc = a != b; }
+
+void s_cmpk_eq_i32(int32_t a, int32_t b) { scc = a == b; }
+void s_cmpk_ge_i32(int32_t a, int32_t b) { scc = a >= b; }
+void s_cmpk_gt_i32(int32_t a, int32_t b) { scc = a > b; }
+void s_cmpk_le_i32(int32_t a, int32_t b) { scc = a <= b; }
+void s_cmpk_lt_i32(int32_t a, int32_t b) { scc = a < b; }
+void s_cmpk_lg_i32(int32_t a, int32_t b) { scc = a != b; }
+
+void s_cmpk_eq_u32(uint32_t a, uint32_t b) { scc = a == b; }
+void s_cmpk_ge_u32(uint32_t a, uint32_t b) { scc = a >= b; }
+void s_cmpk_gt_u32(uint32_t a, uint32_t b) { scc = a > b; }
+void s_cmpk_le_u32(uint32_t a, uint32_t b) { scc = a <= b; }
+void s_cmpk_lt_u32(uint32_t a, uint32_t b) { scc = a < b; }
+void s_cmpk_lg_u32(uint32_t a, uint32_t b) { scc = a != b; }
+
+
+uint32_t s_not_b32(uint32_t x) {
+    uint32_t result = ~x;
+    scc = result != 0;
+    return result;
+}
+uint64_t s_not_b64(uint64_t x) {
+    uint64_t result = ~x;
+    scc = result != 0;
+    return result;
+}
+uint32_t s_wqm_b32(uint32_t x) {
+    uint32_t result = 0;
+    for (int i = 0; i < 8; ++i) {
+        result |= ((x >> (i * 4)) & 0xf) != 0 ? (0xf << (i * 4)) : 0;
+    }
+    scc = result != 0;
+    return result;
+}
+uint64_t s_wqm_b64(uint64_t x) {
+    uint64_t result = 0;
+    for (int i = 0; i < 16; ++i) {
+        result |= ((x >> (i * 4)) & 0xf) != 0 ? (uint64_t(0xf) << (i * 4)) : 0;
+    }
+    scc = result != 0;
+    return result;
+}
+uint32_t s_brev_b32(uint32_t x) { return bitfieldReverse(x); }
+uint64_t s_brev_b64(uint64_t x) { return (uint64_t(bitfieldReverse(uint32_t(x))) << 32) | bitfieldReverse(uint32_t(x >> 32)); }
+int32_t s_bcnt0_i32_b32(uint32_t x) {
+    int32_t result = int32_t(bitCount(~x));
+    scc = result != 0;
+    return result;
+}
+int32_t s_bcnt0_i32_b64(uint64_t x) {
+    int32_t result = int32_t(bitCount(~uint32_t(x)) + bitCount(~uint32_t(x >> 32)));
+    scc = result != 0;
+    return result;
+}
+int32_t s_bcnt1_i32_b32(uint32_t x) {
+    int32_t result = int32_t(bitCount(x));
+    scc = result != 0;
+    return result;
+}
+int32_t s_bcnt1_i32_b64(uint64_t x) {
+    int32_t result = int32_t(bitCount(uint32_t(x)) + bitCount(uint32_t(x >> 32)));
+    scc = result != 0;
+    return result;
+}
+int32_t s_ff0_i32_b32(uint32_t x) { return int32_t(findLSB(~x)); }
+int32_t s_ff0_i32_b64(u32vec2 x) {
+    int lo = findLSB(~x.x);
+    if (lo >= 0) {
+        return lo;
+    }
+    int hi = findLSB(~x.y);
+    return hi < 0 ? -1 : 32 + hi;
+}
+int32_t s_ff1_i32_b32(uint32_t x) { return int32_t(findLSB(x)); }
+int32_t s_ff1_i32_b64(u32vec2 x) {
+    int lo = findLSB(x.x);
+    if (lo >= 0) {
+        return lo;
+    }
+    int hi = findLSB(x.y);
+    return hi < 0 ? -1 : 32 + hi;
+}
+int32_t s_flbit_i32_b32(uint32_t x) { return findMSB(x); }
+int32_t s_flbit_i32_b64(u32vec2 x) {
+    int hi = findMSB(x.y);
+    if (hi >= 0) {
+        return 32 + hi;
+    }
+    int lo = findMSB(x.x);
+    return lo < 0 ? -1 : lo;
+}
+int32_t s_flbit_i32(int32_t x) { return findMSB(x); }
+int32_t s_flbit_i32_i64(i32vec2 x) {
+    int hi = findMSB(x.y);
+    if (hi >= 0) {
+        return 32 + hi;
+    }
+    int lo = findMSB(x.y < 0 ? ~uint32_t(x.x) : uint32_t(x.x));
+    return lo < 0 ? -1 : lo;
+}
+int32_t s_sext_i32_i8(int8_t x) { return int32_t(x); }
+int32_t s_sext_i32_i16(int16_t x) { return int32_t(x); }
+uint32_t s_bitset0_b32(uint32_t dest, uint32_t x) { return dest & ~(~0 << (x & 0x1f)); }
+uint64_t s_bitset0_b64(uint32_t dest, uint64_t x) { return dest & ~(~uint64_t(0) << (x & 0x3f)); }
+uint32_t s_bitset1_b32(uint32_t dest, uint32_t x) { return dest | (~0 << (x & 0x1f)); }
+uint64_t s_bitset1_b64(uint64_t dest, uint64_t x) { return dest | (~uint64_t(0) << (x & 0x3f)); }
+
+uint64_t s_and_saveexec_b64(uint64_t x) {
+    uint64_t result = exec;
+    exec = result & x;
+    scc = result != 0;
+    return result;
+}
+uint64_t s_or_saveexec_b64(uint64_t x) {
+    uint64_t result = exec;
+    exec = result | x;
+    scc = result != 0;
+    return result;
+}
+uint64_t s_xor_saveexec_b64(uint64_t x) {
+    uint64_t result = exec;
+    exec = result ^ x;
+    scc = result != 0;
+    return result;
+}
+uint64_t s_andn2_saveexec_b64(uint64_t x) {
+    uint64_t result = exec;
+    exec = result & ~x;
+    scc = result != 0;
+    return result;
+}
+uint64_t s_orn2_saveexec_b64(uint64_t x) {
+    uint64_t result = exec;
+    exec = result | ~x;
+    scc = result != 0;
+    return result;
+}
+uint64_t s_nand_saveexec_b64(uint64_t x) {
+    uint64_t result = exec;
+    exec = ~(result & x);
+    scc = result != 0;
+    return result;
+}
+uint64_t s_nor_saveexec_b64(uint64_t x) {
+    uint64_t result = exec;
+    exec = ~(result | x);
+    scc = result != 0;
+    return result;
+}
+uint64_t s_xnor_saveexec_b64(uint64_t x) {
+    uint64_t result = exec;
+    exec = ~(result ^ x);
+    scc = result != 0;
+    return result;
+}
+
+uint32_t s_quadmask_b32(uint32_t x) {
+    uint32_t result = 0;
+    for (int i = 0; i < 8; ++i) {
+        result |= ((x >> (i * 4)) & 0xf) != 0 ? (1 << i) : 0;
+    }
+    scc = result != 0;
+    return result;
+}
+uint64_t s_quadmask_b64(uint64_t x) {
+    uint64_t result = 0;
+    for (int i = 0; i < 16; ++i) {
+        result |= ((x >> (i * 4)) & 0xf) != 0 ? (1 << i) : 0;
+    }
+    scc = result != 0;
+    return result;
+}
+
+uint32_t s_add_u32(uint32_t x, uint32_t y) {
+    uint32_t carry;
+    uint32_t result = uaddCarry(x, y, carry);
+    scc = carry != 0;
+    return result;
+}
+uint32_t s_sub_u32(uint32_t x, uint32_t y) {
+    uint32_t carry;
+    uint32_t result = usubBorrow(x, y, carry);
+    scc = carry != 0;
+    return result;
+}
+int32_t s_add_i32(int32_t x, int32_t y) {
+    int32_t result = x + y;
+    scc = sign(x) == sign(y) && sign(result) != sign(x);
+    return result;
+}
+int32_t s_sub_i32(int32_t x, int32_t y) {
+    int32_t result = x - y;
+    scc = sign(x) != sign(y) && sign(result) != sign(x);
+    return result;
+}
+uint32_t s_addc_u32(uint32_t x, uint32_t y) {
+    uint32_t carry0;
+    uint32_t carry1 = 0;
+    uint32_t result = uaddCarry(x, y, carry0);
+    if (scc) {
+        result = uaddCarry(result, 1, carry1);
+    }
+    scc = (carry0 | carry1) != 0;
+    return result;
+}
+uint32_t s_subb_u32(uint32_t x, uint32_t y) {
+    uint32_t result = x - y - (scc ? 1 : 0);
+    scc = y + (scc ? 1 : 0) > x;
+    return result;
+}
+int32_t s_min_i32(int32_t x, int32_t y) {
+    int32_t result = x < y ? x : y;
+    scc = x < y;
+    return result;
+}
+uint32_t s_min_u32(uint32_t x, uint32_t y) {
+    uint32_t result = x < y ? x : y;
+    scc = x < y;
+    return result;
+}
+int32_t s_max_i32(int32_t x, int32_t y) {
+    int32_t result = x > y ? x : y;
+    scc = x > y;
+    return result;
+}
+uint32_t s_max_u32(uint32_t x, uint32_t y) {
+    uint32_t result = x > y ? x : y;
+    scc = x > y;
+    return result;
+}
+uint32_t s_cselect_b32(uint32_t x, uint32_t y) { return scc ? x : y; }
+uint64_t s_cselect_b64(uint64_t x, uint64_t y) { return scc ? x : y; }
+uint32_t s_and_b32(uint32_t x, uint32_t y) { uint32_t result = x & y; scc = result != 0; return result; }
+uint64_t s_and_b64(uint64_t x, uint64_t y) { uint64_t result = x & y; scc = result != 0; return result; }
+uint32_t s_or_b32(uint32_t x, uint32_t y) { uint32_t result = x | y; scc = result != 0; return result; }
+uint64_t s_or_b64(uint64_t x, uint64_t y) { uint64_t result = x | y; scc = result != 0; return result; }
+uint32_t s_xor_b32(uint32_t x, uint32_t y) { uint32_t result = x ^ y; scc = result != 0; return result; }
+uint64_t s_xor_b64(uint64_t x, uint64_t y) { uint64_t result = x ^ y; scc = result != 0; return result; }
+uint32_t s_andn2_b32(uint32_t x, uint32_t y) { uint32_t result = x & ~y; scc = result != 0; return result; }
+uint64_t s_andn2_b64(uint64_t x, uint64_t y) { uint64_t result = x & ~y; scc = result != 0; return result; }
+uint32_t s_orn2_b32(uint32_t x, uint32_t y) { uint32_t result = x | ~y; scc = result != 0; return result; }
+uint64_t s_orn2_b64(uint64_t x, uint64_t y) { uint64_t result = x | ~y; scc = result != 0; return result; }
+uint32_t s_nand_b32(uint32_t x, uint32_t y) { uint32_t result = ~(x & y); scc = result != 0; return result; }
+uint64_t s_nand_b64(uint64_t x, uint64_t y) { uint64_t result = ~(x & y); scc = result != 0; return result; }
+uint32_t s_nor_b32(uint32_t x, uint32_t y) { uint32_t result = ~(x | y); scc = result != 0; return result; }
+uint64_t s_nor_b64(uint64_t x, uint64_t y) { uint64_t result = ~(x | y); scc = result != 0; return result; }
+uint32_t s_xnor_b32(uint32_t x, uint32_t y) { uint32_t result = ~(x ^ y); scc = result != 0; return result; }
+uint64_t s_xnor_b64(uint64_t x, uint64_t y) { uint64_t result = ~(x ^ y); scc = result != 0; return result; }
+uint32_t s_lshl_b32(uint32_t x, uint32_t y) { uint32_t result = x << (y & 0x1f); scc = result != 0; return result; }
+uint64_t s_lshl_b64(uint64_t x, uint32_t y) { uint64_t result = x << (y & 0x3f); scc = result != 0; return result; }
+uint32_t s_lshr_b32(uint32_t x, uint32_t y) { uint32_t result = x >> (y & 0x1f); scc = result != 0; return result; }
+uint64_t s_lshr_b64(uint64_t x, uint32_t y) { uint64_t result = x >> (y & 0x3f); scc = result != 0; return result; }
+int32_t s_ashr_i32(int32_t x, uint32_t y) { int32_t result = x >> (y & 0x1f); scc = result != 0; return result; }
+int64_t s_ashr_i64(int64_t x, uint32_t y) { int64_t result = x >> (y & 0x3f); scc = result != 0; return result; }
+uint32_t s_bfm_b32(uint32_t x, uint32_t y) { uint32_t result = ((1 << (x & 0x1f)) - 1) << (y & 0x1f); scc = result != 0; return result; }
+uint64_t s_bfm_b64(uint64_t x, uint64_t y) { uint64_t result = ((uint64_t(1) << (x & 0x1f)) - 1) << (y & 0x1f); scc = result != 0; return result; }
+int32_t s_mul_i32(int32_t x, int32_t y) { int32_t result = x * y; scc = result != 0; return result; }
+uint32_t s_bfe_u32(uint32_t x, uint32_t y) {
+    uint32_t offset = y & 0x1f;
+    uint32_t width = (y >> 16) & 0x7f;
+    uint32_t result = width >= 32 ? x >> offset : (x >> offset) & ((1 << width) - 1);
+    scc = result != 0;
+    return result;
+}
+int32_t s_bfe_i32(int32_t x, int32_t y) {
+    uint32_t offset = y & 0x1f;
+    uint32_t width = (y >> 16) & 0x7f;
+    if (width == 0) {
+        scc = false;
+        return 0;
+    }
+
+    uint32_t result = width >= 32 ? x >> offset : (x >> offset) & ((1 << width) - 1);
+    if ((result & (1 << (width - 1))) != 0) {
+        result -= 1 << width;
+    }
+    scc = result != 0;
+    return int32_t(result);
+}
+uint64_t s_bfe_u64(uint64_t x, uint32_t y) {
+    uint32_t offset = y & 0x3f;
+    uint32_t width = (y >> 16) & 0x7f;
+    uint64_t result = width >= 64 ? x >> offset : (x >> offset) & ((uint64_t(1) << width) - 1);
+    scc = result != 0;
+    return result;
+}
+int64_t s_bfe_i64(int64_t x, uint32_t y) {
+    uint32_t offset = y & 0x1f;
+    uint32_t width = (y >> 16) & 0x7f;
+    if (width == 0) {
+        scc = false;
+        return 0;
+    }
+
+    uint64_t result = width >= 64 ? x >> offset : (x >> offset) & ((uint64_t(1) << width) - 1);
+    if ((result & (uint64_t(1) << (width - 1))) != 0) {
+        result -= uint64_t(1) << width;
+    }
+    scc = result != 0;
+    return int64_t(result);
+}
+int32_t s_absdiff_i32(int32_t x, int32_t y) { int32_t result = abs(x - y); scc = result != 0; return result; }
+// uint32_t s_lshl1_add_u32(uint32_t x, uint32_t y) { uint32_t result = x & y; scc = result != 0; return result; }
+// uint32_t s_lshl2_add_u32(uint32_t x, uint32_t y) { uint32_t result = x & y; scc = result != 0; return result; }
+// uint32_t s_lshl3_add_u32(uint32_t x, uint32_t y) { uint32_t result = x & y; scc = result != 0; return result; }
+// uint32_t s_lshl4_add_u32(uint32_t x, uint32_t y) { uint32_t result = x & y; scc = result != 0; return result; }
+// uint32_t s_pack_ll_b32_b16(uint32_t x, uint32_t y) { uint32_t result = x & y; scc = result != 0; return result; }
+// uint32_t s_pack_lh_b32_b16(uint32_t x, uint32_t y) { uint32_t result = x & y; scc = result != 0; return result; }
+// uint32_t s_pack_hh_b32_b16(uint32_t x, uint32_t y) { uint32_t result = x & y; scc = result != 0; return result; }
+// uint32_t s_mul_hi_u32(uint32_t x, uint32_t y) { uint32_t result = x & y; scc = result != 0; return result; }
+// int32_t s_mul_hi_i32(int32_t x, int32_t y) { int32_t result = x & y; scc = result != 0; return result; }
+
+void s_bitcmp0_b32(uint32_t x, uint32_t y) { scc = ((x >> (y & 0x1f)) & 1) == 0; }
+void s_bitcmp1_b32(uint32_t x, uint32_t y) { scc = ((x >> (y & 0x1f)) & 1) == 1; }
+void s_bitcmp0_b64(uint64_t x, uint32_t y) { scc = ((x >> (y & 0x3f)) & 1) == 0; }
+void s_bitcmp1_b64(uint64_t x, uint32_t y) { scc = ((x >> (y & 0x3f)) & 1) == 1; }
+
+
+// MUBUF
+
+const int kBufferFormatInvalid = 0x00000000;
+const int kBufferFormat8 = 0x00000001;
+const int kBufferFormat16 = 0x00000002;
+const int kBufferFormat8_8 = 0x00000003;
+const int kBufferFormat32 = 0x00000004;
+const int kBufferFormat16_16 = 0x00000005;
+const int kBufferFormat10_11_11 = 0x00000006;
+const int kBufferFormat11_11_10 = 0x00000007;
+const int kBufferFormat10_10_10_2 = 0x00000008;
+const int kBufferFormat2_10_10_10 = 0x00000009;
+const int kBufferFormat8_8_8_8 = 0x0000000a;
+const int kBufferFormat32_32 = 0x0000000b;
+const int kBufferFormat16_16_16_16 = 0x0000000c;
+const int kBufferFormat32_32_32 = 0x0000000d;
+const int kBufferFormat32_32_32_32 = 0x0000000e;
+
+const int kBufferChannelTypeUNorm = 0x00000000;
+const int kBufferChannelTypeSNorm = 0x00000001;
+const int kBufferChannelTypeUScaled = 0x00000002;
+const int kBufferChannelTypeSScaled = 0x00000003;
+const int kBufferChannelTypeUInt = 0x00000004;
+const int kBufferChannelTypeSInt = 0x00000005;
+const int kBufferChannelTypeSNormNoZero = 0x00000006;
+const int kBufferChannelTypeFloat = 0x00000007;
+
+uint64_t compute_vbuffer_address(uint size, u32vec4 vbuffer, uint64_t soff, uint64_t OFFSET, bool IDXEN, uint64_t vINDEX, uint64_t vOFFSET) {
+    bool addTid = vbuffer_addtid_en(vbuffer);
+    uint64_t base = vbuffer_base(vbuffer) + soff;
+    uint64_t index = uint64_t(vINDEX) + (addTid ? thread_id : 0);
+    uint64_t offset = vOFFSET + OFFSET;
+    bool index_en = IDXEN || addTid;
+    uint64_t stride = vbuffer_stride(vbuffer);
+    uint64_t num_records = vbuffer_num_records(vbuffer);
+    uint64_t index_stride = vbuffer_index_stride(vbuffer);
+    uint64_t element_size = vbuffer_element_size(vbuffer);
+    bool swizzle_en = vbuffer_swizzle_en(vbuffer);
+
+    if ((stride == 0 && offset + size > num_records - soff) || (stride != 0 && (index >= num_records || (index_en && offset + size > stride)))) {
+        return 0;
+    }
+    
+    if (!swizzle_en) {
+        uint64_t address = base + offset + index * stride;
+        return address & ~uint64_t(3);
+    }
+
+    uint64_t index_msb = index / index_stride;
+    uint64_t index_lsb = index % index_stride;
+    uint64_t offset_msb = offset / element_size;
+    uint64_t offset_lsb = offset % element_size;
+    uint64_t address = base + (index_msb * stride + offset_msb * element_size) * index_stride + index_lsb * element_size + offset_lsb;
+    return address & ~uint64_t(3);
+}
+
+#define DEFINE_BUFFER_REFERENCE(TYPE) \
+    layout(buffer_reference) buffer buffer_reference_##TYPE { \
+        TYPE data[]; \
+    }; \
+
+#ifdef _8BIT_BUFFER_ACCESS
+DEFINE_BUFFER_REFERENCE(int8_t)
+DEFINE_BUFFER_REFERENCE(uint8_t)
+#else
+layout(buffer_reference) buffer buffer_reference_uint8_t {
+    uint16_t data[];
+};
+layout(buffer_reference) buffer buffer_reference_int8_t {
+    int16_t data[];
+};
+#endif
+
+DEFINE_BUFFER_REFERENCE(int16_t)
+DEFINE_BUFFER_REFERENCE(uint16_t)
+DEFINE_BUFFER_REFERENCE(float16_t)
+DEFINE_BUFFER_REFERENCE(int32_t)
+DEFINE_BUFFER_REFERENCE(uint32_t)
+DEFINE_BUFFER_REFERENCE(float32_t)
+DEFINE_BUFFER_REFERENCE(int64_t)
+DEFINE_BUFFER_REFERENCE(uint64_t)
+DEFINE_BUFFER_REFERENCE(float64_t)
+
+#ifdef _8BIT_BUFFER_ACCESS
+#define MEMORY_DATA_REF(TYPE, ADDRESS) buffer_reference_##TYPE(ADDRESS).data[0]
+#define MEMORY_DATA_REF8(TYPE, ADDRESS) buffer_reference_##TYPE(ADDRESS).data[0]
+#else
+#define MEMORY_DATA_REF(TYPE, ADDRESS) buffer_reference_##TYPE(ADDRESS).data[0]
+#define MEMORY_DATA_REF8(TYPE, ADDRESS) TYPE(buffer_reference_##TYPE((ADDRESS) & ~uint64_t(1)).data[0] >> (8 *((ADDRESS) & uint64_t(1))))
+#endif
+
+uint64_t memory_table;
+
+struct MemoryTableSlot {
+    uint64_t address;
+    uint64_t sizeAndFlags;
+    uint64_t deviceAddress;
+};
+
+uint64_t getSlotSize(MemoryTableSlot slot) {
+    return slot.sizeAndFlags & ((uint64_t(1) << 40) - 1);
+}
+uint8_t getSlotFlags(MemoryTableSlot slot) {
+    return uint8_t(slot.sizeAndFlags >> 40);
+}
+
+layout(buffer_reference) buffer MemoryTable {
+    uint32_t count;
+    uint32_t pad;
+    MemoryTableSlot slots[];
+};
+
+const uint64_t kInvalidAddress = ~uint64_t(0);
+
+uint64_t findMemoryAddress(uint64_t address, uint64_t size, int32_t hint, out uint64_t areaSize) {
+    MemoryTable mt = MemoryTable(memory_table);
+
+    uint32_t pivot;
+    uint32_t slotCount = mt.count;
+    if (hint < 0 || hint >= slotCount) {
+        pivot = slotCount / 2;
+    } else {
+        pivot = uint32_t(hint);
+    }
+
+    uint32_t begin = 0;
+    uint32_t end = slotCount;
+
+    while (begin < end) {
+        MemoryTableSlot slot = mt.slots[pivot];
+        uint64_t slotSize = getSlotSize(slot);
+        if (slot.address >= address + size) {
+            end = pivot;
+        } else if (address >= slot.address + slotSize) {
+            begin = pivot + 1;
+        } else {
+            uint64_t offset = address - slot.address;
+            areaSize = slotSize - offset;
+            return slot.deviceAddress + offset;
+        }
+
+        pivot = begin + ((end - begin) / 2);
+    }
+
+    return kInvalidAddress;
+}
+
+#define BUFFER_ATOMIC_OP(TYPE, LOCATION_HINT, OP) \
+    TYPE prev = 0; \
+    if (vbuffer_dfmt(vbuffer) != kBufferFormatInvalid) { \
+        uint64_t address = compute_vbuffer_address(SIZEOF(TYPE), vbuffer, soff, OFFSET, IDXEN, vINDEX, vOFFSET); \
+        if (address != 0) { \
+            uint64_t deviceAreaSize = 0; \
+            uint64_t deviceAddress = findMemoryAddress(address, SIZEOF(TYPE), LOCATION_HINT, deviceAreaSize); \
+            if (deviceAddress != kInvalidAddress && deviceAreaSize >= SIZEOF(TYPE)) { \
+                OP(prev, TYPE, MEMORY_DATA_REF(TYPE, deviceAddress), vdata); \
+            } \
+            /* FIXME: handle segmentation fault */ \
+        } \
+    } \
+    if (GLC) vdata.x = prev; \
+
+
+#define ATOMIC_ADD(RESULT, TYPE, MEM, DATA) RESULT = atomicAdd(MEM, DATA)
+#define ATOMIC_AND(RESULT, TYPE, MEM, DATA) RESULT = atomicAnd(MEM, DATA)
+
+#define ATOMIC_CMPSWAP(RESULT, TYPE, MEM, DATA) RESULT = atomicCompSwap(MEM, DATA.y, DATA.x)
+#define ATOMIC_INC(RESULT, TYPE, MEM, DATA) \
+    RESULT = 0; \
+    while (true) {\
+        TYPE newValue = RESULT >= DATA ? 0 : RESULT + 1; \
+        TYPE updatedValue = atomicCompSwap(MEM, RESULT, newValue, gl_ScopeWorkgroup, gl_StorageSemanticsBuffer, gl_SemanticsRelease, gl_StorageSemanticsBuffer, gl_SemanticsAcquire); \
+        if (RESULT == updatedValue) break; \
+        RESULT = updatedValue; \
+    } \
+
+#define ATOMIC_DEC(RESULT, TYPE, MEM, DATA) \
+    RESULT = 1; \
+    while (true) {\
+        TYPE newValue = (RESULT == 0 || RESULT > DATA) ? DATA : RESULT - 1; \
+        TYPE updatedValue = atomicCompSwap(MEM, RESULT, newValue, gl_ScopeWorkgroup, gl_StorageSemanticsBuffer, gl_SemanticsRelease, gl_StorageSemanticsBuffer, gl_SemanticsAcquire); \
+        if (RESULT == updatedValue) break; \
+        RESULT = updatedValue; \
+    } \
+
+void buffer_atomic_add(inout uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint32_t, memoryLocationHint, ATOMIC_ADD);
+}
+void buffer_atomic_add_x2(inout uint64_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint64_t, memoryLocationHint, ATOMIC_ADD);
+}
+
+void buffer_atomic_and(inout uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint32_t, memoryLocationHint, ATOMIC_AND);
+}
+void buffer_atomic_and_x2(inout uint64_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint64_t, memoryLocationHint, ATOMIC_AND);
+}
+
+void buffer_atomic_cmpswap(inout u32vec2 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint32_t, memoryLocationHint, ATOMIC_CMPSWAP);
+}
+void buffer_atomic_cmpswap_x2(inout u64vec2 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint64_t, memoryLocationHint, ATOMIC_CMPSWAP);
+}
+
+void buffer_atomic_dec(inout uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint32_t, memoryLocationHint, ATOMIC_DEC);
+}
+void buffer_atomic_dec_x2(inout uint64_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint64_t, memoryLocationHint, ATOMIC_DEC);
+}
+
+void buffer_atomic_fcmpswap(inout u32vec2 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint32_t, memoryLocationHint, ATOMIC_CMPSWAP);
+}
+void buffer_atomic_fcmpswap_x2(inout u64vec2 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint64_t, memoryLocationHint, ATOMIC_CMPSWAP);
+}
+
+void buffer_atomic_inc(inout uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint32_t, memoryLocationHint, ATOMIC_INC);
+}
+void buffer_atomic_inc_x2(inout uint64_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_ATOMIC_OP(uint64_t, memoryLocationHint, ATOMIC_INC);
+}
+
+uint32_t convert_from_nfmt(uint32_t data, uint bits, uint nfmt) {
+    data = zext(data, bits);
+
+    switch (nfmt) {
+    case kBufferChannelTypeUNorm:
+        return floatBitsToUint(float(uint(data)) / ((1 << bits) - 1));
+
+    case kBufferChannelTypeSNorm:
+        return floatBitsToUint(float(sext(int(data), bits)) / ((1 << (bits - 1)) - 1));
+
+    case kBufferChannelTypeUScaled:
+        return floatBitsToUint(float(data));
+
+    case kBufferChannelTypeSScaled:
+        return floatBitsToUint(float(sext(int(data), bits)));
+
+    case kBufferChannelTypeUInt:
+        return data;
+
+    case kBufferChannelTypeSInt:
+        return uint32_t(sext(int(data), bits));
+
+    case kBufferChannelTypeSNormNoZero:
+        return floatBitsToUint((float(sext(int(data), bits) * 2 + 1)) / ((1 << bits) - 1));
+
+    case kBufferChannelTypeFloat:
+        return data;
+    }
+
+    return 0;
+}
+
+uint32_t convert_to_nfmt(uint32_t data, uint bits, uint nfmt) {
+    data = zext(data, bits);
+
+    switch (nfmt) {
+    case kBufferChannelTypeUNorm:
+        return uint32_t(clamp(uintBitsToFloat(data), 0, 1) * ((1 << bits) - 1));
+
+    case kBufferChannelTypeSNorm:
+        return uint32_t(clamp(uintBitsToFloat(data), -1, 1) * ((1 << (bits - 1)) - 1));
+
+    case kBufferChannelTypeUScaled:
+        return uint32_t(uintBitsToFloat(data));
+
+    case kBufferChannelTypeUInt:
+        return data;
+
+    case kBufferChannelTypeSInt:
+        return uint32_t(sext(int32_t(data), bits));
+
+    case kBufferChannelTypeSNormNoZero:
+        return uint32_t(clamp(uintBitsToFloat(data), -1, 1) * ((1 << bits) - 1) / 2 - 1);
+
+    case kBufferChannelTypeFloat:
+        return data;
+    }
+
+    return 0;
+}
+
+uint32_t convert_from_format_x(uint32_t data, uint dfmt, uint nfmt) {
+    switch (dfmt) {
+    case kBufferFormatInvalid:
+        return 0;
+
+    case kBufferFormat8:
+        return convert_from_nfmt(data, 8, nfmt);
+
+    case kBufferFormat16:
+        return convert_from_nfmt(data, 16, nfmt);
+        
+    case kBufferFormat32:
+    case kBufferFormat32_32:
+    case kBufferFormat32_32_32:
+    case kBufferFormat32_32_32_32:
+        return convert_from_nfmt(data, 32, nfmt);
+    }
+    return data;
+}
+
+u32vec2 convert_from_format_xy(uint32_t data, uint dfmt, uint nfmt) {
+    switch (dfmt) {
+    case kBufferFormat8_8:
+        return u32vec2(
+            convert_from_nfmt(data >> 0, 8, nfmt),
+            convert_from_nfmt(data >> 8, 8, nfmt)
+        );
+    case kBufferFormat16_16:
+    case kBufferFormat16_16_16_16:
+        return u32vec2(
+            convert_from_nfmt(data >> 0, 16, nfmt),
+            convert_from_nfmt(data >> 16, 16, nfmt)
+        );
+    }
+    return u32vec2(0);
+}
+
+u32vec3 convert_from_format_xyz(uint32_t data, uint dfmt, uint nfmt) {
+    switch (dfmt) {
+    case kBufferFormat10_11_11:
+        return u32vec3(
+            convert_from_nfmt(data >> 0, 10, nfmt),
+            convert_from_nfmt(data >> 10, 11, nfmt),
+            convert_from_nfmt(data >> 21, 11, nfmt)
+        );
+
+    case kBufferFormat11_11_10:
+        return u32vec3(
+            convert_from_nfmt(data >> 0, 11, nfmt),
+            convert_from_nfmt(data >> 11, 11, nfmt),
+            convert_from_nfmt(data >> 22, 10, nfmt)
+        );
+    }
+
+    return u32vec3(0);
+}
+
+u32vec4 convert_from_format_xyzw(uint32_t data, uint dfmt, uint nfmt) {
+    switch (dfmt) {
+    case kBufferFormat8_8_8_8:
+        return u32vec4(
+            convert_from_nfmt(data >> 0, 8, nfmt),
+            convert_from_nfmt(data >> 8, 8, nfmt),
+            convert_from_nfmt(data >> 16, 8, nfmt),
+            convert_from_nfmt(data >> 24, 8, nfmt)
+        );
+
+    case kBufferFormat2_10_10_10:
+        return u32vec4(
+            convert_from_nfmt(data >> 0, 2, nfmt),
+            convert_from_nfmt(data >> 2, 10, nfmt),
+            convert_from_nfmt(data >> 12, 10, nfmt),
+            convert_from_nfmt(data >> 22, 10, nfmt)
+        );
+
+    case kBufferFormat10_10_10_2:
+        return u32vec4(
+            convert_from_nfmt(data >> 0, 10, nfmt),
+            convert_from_nfmt(data >> 10, 10, nfmt),
+            convert_from_nfmt(data >> 20, 10, nfmt),
+            convert_from_nfmt(data >> 30, 2, nfmt)
+        );
+    }
+
+    return u32vec4(0);
+}
+
+
+u32vec4 convert_from_format(uint32_t data, uint dfmt, uint nfmt) {
+    switch (dfmt) {
+    case kBufferFormat8:
+    case kBufferFormat16:
+    case kBufferFormat32:
+    case kBufferFormat32_32:
+    case kBufferFormat32_32_32:
+    case kBufferFormat32_32_32_32:
+        return u32vec4(convert_from_format_x(data, dfmt, nfmt), 0, 0, 0);
+
+    case kBufferFormat8_8:
+    case kBufferFormat16_16:
+    case kBufferFormat16_16_16_16:
+        return u32vec4(convert_from_format_xy(data, dfmt, nfmt), u32vec2(0));
+
+    case kBufferFormat10_11_11:
+    case kBufferFormat11_11_10:
+        return u32vec4(convert_from_format_xyz(data, dfmt, nfmt), 0);
+
+    case kBufferFormat10_10_10_2:
+    case kBufferFormat2_10_10_10:
+    case kBufferFormat8_8_8_8:
+        return convert_from_format_xyzw(data, dfmt, nfmt);
+    }
+
+    return u32vec4(0);
+}
+
+uint32_t convert_to_format(uint element, u32vec4 data, uint dfmt, uint nfmt) {
+    switch (dfmt) {
+    case kBufferFormat8:
+        if (element == 0) {
+            return convert_to_nfmt(data[0], 8, nfmt);
+        }
+        return 0;
+
+    case kBufferFormat16:
+        if (element == 0) {
+            return convert_to_nfmt(data[0], 16, nfmt);
+        }
+        return 0;
+
+    case kBufferFormat16_16:
+        if (element == 0) {
+            return 
+                (convert_to_nfmt(data[0], 16, nfmt) << 0) |
+                (convert_to_nfmt(data[1], 16, nfmt) << 8);
+        }
+        return 0;
+
+    case kBufferFormat16_16_16_16:
+        if (element == 0) {
+            return 
+                (convert_to_nfmt(data[0], 16, nfmt) << 0) |
+                (convert_to_nfmt(data[1], 16, nfmt) << 8);
+        } else if (element == 1) {
+            return 
+                (convert_to_nfmt(data[2], 16, nfmt) << 0) |
+                (convert_to_nfmt(data[3], 16, nfmt) << 8);
+        }
+        return 0;
+
+    case kBufferFormat32:
+        if (element == 0) {
+            return convert_to_nfmt(data[0], 32, nfmt);
+        }
+
+        return 0;
+
+    case kBufferFormat32_32:
+        switch (element) {
+        case 0: return convert_to_nfmt(data[0], 32, nfmt);
+        case 1: return convert_to_nfmt(data[1], 32, nfmt);
+        case 2: return convert_to_nfmt(data[2], 32, nfmt);
+        case 3: return convert_to_nfmt(data[3], 32, nfmt);
+        }
+
+        return 0;
+    case kBufferFormat32_32_32:
+        switch (element) {
+        case 0: return convert_to_nfmt(data[0], 32, nfmt);
+        case 1: return convert_to_nfmt(data[1], 32, nfmt);
+        case 2: return convert_to_nfmt(data[2], 32, nfmt);
+        case 3: return convert_to_nfmt(data[3], 32, nfmt);
+        }
+
+        return 0;
+
+    case kBufferFormat32_32_32_32:
+        switch (element) {
+        case 0: return convert_to_nfmt(data[0], 32, nfmt);
+        case 1: return convert_to_nfmt(data[1], 32, nfmt);
+        case 2: return convert_to_nfmt(data[2], 32, nfmt);
+        case 3: return convert_to_nfmt(data[3], 32, nfmt);
+        }
+
+        return 0;
+
+    case kBufferFormat10_11_11:
+        return uint32_t(
+            (convert_to_nfmt(data[0], 10, nfmt) << 0) |
+            (convert_to_nfmt(data[1], 11, nfmt) << 10) |
+            (convert_to_nfmt(data[2], 11, nfmt) << 21)
+        );
+
+    case kBufferFormat11_11_10:
+        return uint32_t(
+            (convert_to_nfmt(data[0], 11, nfmt) << 0) |
+            (convert_to_nfmt(data[1], 11, nfmt) << 11) |
+            (convert_to_nfmt(data[2], 10, nfmt) << 22)
+        );
+
+    case kBufferFormat8_8_8_8:
+        if (element == 0) {
+            return uint32_t(
+                (convert_to_nfmt(data[0], 8, nfmt) << 0) |
+                (convert_to_nfmt(data[1], 8, nfmt) << 8) |
+                (convert_to_nfmt(data[2], 8, nfmt) << 16) |
+                (convert_to_nfmt(data[3], 8, nfmt) << 24)
+            );
+        }
+        return 0;
+
+    case kBufferFormat2_10_10_10:
+        return uint32_t(
+            (convert_to_nfmt(data[0], 2, nfmt) << 0) |
+            (convert_to_nfmt(data[1], 10, nfmt) << 2) |
+            (convert_to_nfmt(data[2], 10, nfmt) << 12) |
+            (convert_to_nfmt(data[3], 10, nfmt) << 22)
+        );
+
+    case kBufferFormat10_10_10_2:
+        return uint32_t(
+            (convert_to_nfmt(data[0], 10, nfmt) << 0) |
+            (convert_to_nfmt(data[1], 10, nfmt) << 10) |
+            (convert_to_nfmt(data[2], 10, nfmt) << 20) |
+            (convert_to_nfmt(data[3], 2, nfmt) << 30)
+        );
+    }
+
+    return uint32_t(0);
+}
+
+uint size_of_format(uint dfmt) {
+    switch (dfmt) {
+    case kBufferFormat8: return 1;
+    case kBufferFormat8_8: return 2;
+    case kBufferFormat8_8_8_8: return 4;
+    case kBufferFormat16: return 2;
+    case kBufferFormat16_16: return 4;
+    case kBufferFormat16_16_16_16: return 8;
+    case kBufferFormat32: return 4;
+    case kBufferFormat32_32: return 8;
+    case kBufferFormat32_32_32: return 12;
+    case kBufferFormat32_32_32_32: return 16;
+    case kBufferFormat10_11_11: return 4;
+    case kBufferFormat11_11_10: return 4;
+    case kBufferFormat10_10_10_2: return 4;
+    case kBufferFormat2_10_10_10: return 4;
+    }
+    return 0;
+}
+
+uint components_of_format(uint dfmt) {
+    switch (dfmt) {
+    case kBufferFormat8: return 1;
+    case kBufferFormat8_8: return 2;
+    case kBufferFormat8_8_8_8: return 4;
+    case kBufferFormat16: return 1;
+    case kBufferFormat16_16: return 2;
+    case kBufferFormat16_16_16_16: return 4;
+    case kBufferFormat32: return 1;
+    case kBufferFormat32_32: return 2;
+    case kBufferFormat32_32_32: return 3;
+    case kBufferFormat32_32_32_32: return 4;
+    case kBufferFormat10_11_11: return 3;
+    case kBufferFormat11_11_10: return 3;
+    case kBufferFormat10_10_10_2: return 4;
+    case kBufferFormat2_10_10_10: return 4;
+    }
+    return 0;
+}
+
+u32vec4 buffer_load_format(uint dfmt, uint nfmt, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    uint data_size = size_of_format(dfmt);
+    uint channel_count = components_of_format(dfmt);
+    uint channel_size = data_size / channel_count;
+    uint elements_count = (data_size + SIZEOF(uint32_t) - 1) / SIZEOF(uint32_t);
+    uint channels_per_element;
+ 
+    if (data_size > SIZEOF(uint32_t)) {
+        channels_per_element = SIZEOF(uint32_t) / channel_size;
+    } else {
+        channels_per_element = channel_count;
+    }
+
+    uint64_t address = compute_vbuffer_address(data_size, vbuffer, soff, OFFSET, IDXEN, vINDEX, vOFFSET);
+
+    if (address == 0 || dfmt == kBufferFormatInvalid) {
+        return u32vec4(0);
+    }
+
+    uint64_t deviceAreaSize = 0;
+    uint64_t deviceAddress = findMemoryAddress(address, data_size, memoryLocationHint, deviceAreaSize);
+
+    if (deviceAddress == kInvalidAddress || deviceAreaSize < data_size) {
+        return u32vec4(0);
+    }
+
+    uint32_t result[4] = {};
+    int outIndex = 0;
+    for (int element = 0; element < elements_count; element++) {
+        uint32_t data = MEMORY_DATA_REF(uint32_t, deviceAddress);
+        u32vec4 unpacked = convert_from_format(data, dfmt, nfmt);
+        deviceAddress += SIZEOF(uint32_t);
+        for (int channel = 0; channel < channels_per_element; channel++) {
+            result[outIndex++] = unpacked[channel];
+        }
+    }
+
+    return u32vec4(result[0], result[1], result[2], result[3]);
+}
+
+void buffer_store_format(u32vec4 data, uint dfmt, uint nfmt, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    uint data_size = size_of_format(dfmt);
+    uint elements_count = (data_size + SIZEOF(uint32_t) - 1) / SIZEOF(uint32_t);
+
+    uint64_t address = compute_vbuffer_address(data_size, vbuffer, soff, OFFSET, IDXEN, vINDEX, vOFFSET);
+
+    if (address == 0 || dfmt == kBufferFormatInvalid) {
+        return;
+    }
+
+    uint64_t deviceAreaSize = 0;
+    uint64_t deviceAddress = findMemoryAddress(address, data_size, memoryLocationHint, deviceAreaSize);
+
+    if (deviceAddress == kInvalidAddress || deviceAreaSize < data_size) {
+        return;
+    }
+
+    for (uint element = 0; element < elements_count; element++) {
+        uint32_t value = convert_to_format(element, data, dfmt, nfmt);
+        MEMORY_DATA_REF(uint32_t, deviceAddress) = value;
+        deviceAddress += SIZEOF(uint32_t);
+    }
+}
+
+uint32_t buffer_load_format_x(uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    return buffer_load_format(vbuffer_dfmt(vbuffer), vbuffer_nfmt(vbuffer), vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, LDS, SLC, TFE).x;
+}
+u32vec2 buffer_load_format_xy(uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    return buffer_load_format(vbuffer_dfmt(vbuffer), vbuffer_nfmt(vbuffer), vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, LDS, SLC, TFE).xy;
+}
+u32vec3 buffer_load_format_xyz(uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    return buffer_load_format(vbuffer_dfmt(vbuffer), vbuffer_nfmt(vbuffer), vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, LDS, SLC, TFE).xyz;
+}
+u32vec4 buffer_load_format_xyzw(uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    return buffer_load_format(vbuffer_dfmt(vbuffer), vbuffer_nfmt(vbuffer), vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, LDS, SLC, TFE);
+}
+void buffer_store_format_x(uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    buffer_store_format(i32vec4(vdata, 0, 0, 0), vbuffer_dfmt(vbuffer), vbuffer_nfmt(vbuffer), vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, LDS, SLC, TFE);
+}
+void buffer_store_format_xy(u32vec2 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    buffer_store_format(i32vec4(vdata, i32vec2(0)), vbuffer_dfmt(vbuffer), vbuffer_nfmt(vbuffer), vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, LDS, SLC, TFE);
+}
+void buffer_store_format_xyz(u32vec3 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    buffer_store_format(i32vec4(vdata, 0), vbuffer_dfmt(vbuffer), vbuffer_nfmt(vbuffer), vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, LDS, SLC, TFE);
+}
+void buffer_store_format_xyzw(u32vec4 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    buffer_store_format(vdata, vbuffer_dfmt(vbuffer), vbuffer_nfmt(vbuffer), vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, LDS, SLC, TFE);
+}
+
+#define BUFFER_LOAD_IMPL(TYPE, DATA_REF) \
+    uint64_t address = compute_vbuffer_address(1, vbuffer, soff, OFFSET, IDXEN, vINDEX, vOFFSET); \
+    if (address == 0) { \
+        return; \
+    } \
+    uint64_t deviceAreaSize = 0; \
+    uint64_t deviceAddress = findMemoryAddress(address, SIZEOF(TYPE), memoryLocationHint, deviceAreaSize); \
+    if (deviceAddress == kInvalidAddress || deviceAreaSize < SIZEOF(TYPE)) { \
+        return; \
+    } \
+    TYPE result = DATA_REF(TYPE, deviceAddress) \
+
+#define BUFFER_LOAD_DWORD_N_IMPL(N) \
+    uint64_t address = compute_vbuffer_address(1, vbuffer, soff, OFFSET, IDXEN, vINDEX, vOFFSET); \
+    if (address == 0) { \
+        return; \
+    } \
+    uint64_t deviceAreaSize = 0; \
+    uint64_t deviceAddress = findMemoryAddress(address, SIZEOF(uint32_t) * N, memoryLocationHint, deviceAreaSize); \
+    if (deviceAddress == kInvalidAddress || deviceAreaSize < SIZEOF(uint32_t) * N) { \
+        return; \
+    } \
+    for (int i = 0; i < (N); ++i) { \
+        vdata[i] = MEMORY_DATA_REF(uint32_t, deviceAddress); \
+        deviceAddress += SIZEOF(uint32_t); \
+    } \
+
+void buffer_load_ubyte(out uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_LOAD_IMPL(uint8_t, MEMORY_DATA_REF8);
+
+    // FIXME: support LDS
+    vdata = uint32_t(result);
+}
+void buffer_load_sbyte(out int32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_LOAD_IMPL(int8_t, MEMORY_DATA_REF8);
+
+    // FIXME: support LDS
+    vdata = int32_t(result);
+}
+void buffer_load_ushort(out uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_LOAD_IMPL(uint16_t, MEMORY_DATA_REF);
+
+    // FIXME: support LDS
+    vdata = uint32_t(result);
+}
+void buffer_load_sshort(out int32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_LOAD_IMPL(int16_t, MEMORY_DATA_REF);
+
+    // FIXME: support LDS
+    vdata = int32_t(result);
+}
+void buffer_load_dword(out uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_LOAD_IMPL(uint32_t, MEMORY_DATA_REF);
+
+    // FIXME: support LDS
+    vdata = result;
+}
+void buffer_load_dwordx2(out u32vec2 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_LOAD_DWORD_N_IMPL(2);
+}
+void buffer_load_dwordx4(out u32vec4 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_LOAD_DWORD_N_IMPL(4);
+}
+void buffer_load_dwordx3(out u32vec3 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_LOAD_DWORD_N_IMPL(3);
+}
+
+#define BUFFER_STORE_IMPL(TYPE, N, DATA) \
+    uint64_t address = compute_vbuffer_address(1, vbuffer, soff, OFFSET, IDXEN, vINDEX, vOFFSET); \
+    if (address == 0) { \
+        return; \
+    } \
+    uint64_t deviceAreaSize = 0; \
+    uint64_t deviceAddress = findMemoryAddress(address, SIZEOF(TYPE) * N, memoryLocationHint, deviceAreaSize); \
+    if (deviceAddress == kInvalidAddress || deviceAreaSize < SIZEOF(TYPE) * N) { \
+        return; \
+    } \
+    for (int i = 0; i < (N); ++i) { \
+        MEMORY_DATA_REF(TYPE, deviceAddress) = (DATA)[i]; \
+        deviceAddress += SIZEOF(TYPE); \
+    } \
+
+void buffer_store_byte(uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_STORE_IMPL(uint8_t, 1, uint8_t[1](uint8_t(vdata)));
+}
+void buffer_store_short(uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_STORE_IMPL(uint16_t, 1, uint16_t[1](uint16_t(vdata)));
+}
+void buffer_store_dword(uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_STORE_IMPL(uint32_t, 1, uint32_t[1](vdata));
+}
+void buffer_store_dwordx2(u32vec2 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_STORE_IMPL(uint32_t, 2, vdata);
+}
+void buffer_store_dwordx4(u32vec4 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_STORE_IMPL(uint32_t, 4, vdata);
+}
+void buffer_store_dwordx3(u32vec3 vdata, uint32_t vOFFSET, uint32_t vINDEX, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool LDS, bool SLC, bool TFE) {
+    BUFFER_STORE_IMPL(uint32_t, 3, vdata);
+}
+
+
+uint32_t tbuffer_load_format_x(uint32_t vOFFSET, uint32_t vINDEX, uint dfmt, uint nfmt, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool SLC, bool TFE) {
+    return buffer_load_format(dfmt, nfmt, vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, false, SLC, TFE).x;
+}
+u32vec2 tbuffer_load_format_xy(uint32_t vOFFSET, uint32_t vINDEX, uint dfmt, uint nfmt, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool SLC, bool TFE) {
+    return buffer_load_format(dfmt, nfmt, vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, false, SLC, TFE).xy;
+}
+u32vec3 tbuffer_load_format_xyz(uint32_t vOFFSET, uint32_t vINDEX, uint dfmt, uint nfmt, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool SLC, bool TFE) {
+    return buffer_load_format(dfmt, nfmt, vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, false, SLC, TFE).xyz;
+}
+u32vec4 tbuffer_load_format_xyzw(uint32_t vOFFSET, uint32_t vINDEX, uint dfmt, uint nfmt, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool SLC, bool TFE) {
+    return buffer_load_format(dfmt, nfmt, vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, false, SLC, TFE);
+}
+void tbuffer_store_format_x(uint32_t vdata, uint32_t vOFFSET, uint32_t vINDEX, uint dfmt, uint nfmt, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool SLC, bool TFE) {
+    buffer_store_format(u32vec4(vdata, 0, 0, 0), dfmt, nfmt, vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, false, SLC, TFE);
+}
+void tbuffer_store_format_xy(u32vec2 vdata, uint32_t vOFFSET, uint32_t vINDEX, uint dfmt, uint nfmt, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool SLC, bool TFE) {
+    buffer_store_format(u32vec4(vdata, i32vec2(0)), dfmt, nfmt, vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, false, SLC, TFE);
+}
+void tbuffer_store_format_xyz(u32vec3 vdata, uint32_t vOFFSET, uint32_t vINDEX, uint dfmt, uint nfmt, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool SLC, bool TFE) {
+    buffer_store_format(u32vec4(vdata, 0), dfmt, nfmt, vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, false, SLC, TFE);
+}
+void tbuffer_store_format_xyzw(u32vec4 vdata, uint32_t vOFFSET, uint32_t vINDEX, uint dfmt, uint nfmt, int32_t memoryLocationHint, u32vec4 vbuffer, uint32_t soff, uint32_t OFFSET, bool IDXEN, bool GLC, bool SLC, bool TFE) {
+    buffer_store_format(vdata, dfmt, nfmt, vOFFSET, vINDEX, memoryLocationHint, vbuffer, soff, OFFSET, IDXEN, GLC, false, SLC, TFE);
+}
+
+#define S_LOAD_DWORD(dest, memoryLocationHint, sbase, offset, N) \
+    int32_t _offset = 0; \
+    uint64_t deviceAreaSize = 0; \
+    uint64_t deviceAddress = findMemoryAddress(sbase + offset, SIZEOF(uint32_t) * N, memoryLocationHint, deviceAreaSize); \
+    if (deviceAddress == kInvalidAddress || deviceAreaSize < SIZEOF(uint32_t) * N) { \
+        for (int i = 0; i < (N); ++i) { \
+            dest[i] = 0; \
+        } \
+    } else { \
+        for (int i = 0; i < (N); ++i) { \
+            dest[i] = MEMORY_DATA_REF(uint32_t, deviceAddress + _offset); \
+            _offset += SIZEOF(uint32_t); \
+        } \
+    }\
+
+uint32_t s_load_dword(int32_t memoryLocationHint, uint64_t sbase, int32_t offset) {
+    uint32_t sdst[1];
+    S_LOAD_DWORD(sdst, memoryLocationHint, sbase, offset, 1);
+    return sdst[0];
+}
+
+uint32_t[2] s_load_dwordx2(int32_t memoryLocationHint, uint64_t sbase, int32_t offset) {
+    uint32_t sdst[2];
+    S_LOAD_DWORD(sdst, memoryLocationHint, sbase, offset, 2);
+    return sdst;
+}
+uint32_t[4] s_load_dwordx4(int32_t memoryLocationHint, uint64_t sbase, int32_t offset) {
+    uint32_t sdst[4];
+    S_LOAD_DWORD(sdst, memoryLocationHint, sbase, offset, 4);
+    return sdst;
+}
+uint32_t[8] s_load_dwordx8(int32_t memoryLocationHint, uint64_t sbase, int32_t offset) {
+    uint32_t sdst[8];
+    S_LOAD_DWORD(sdst, memoryLocationHint, sbase, offset, 8);
+    return sdst;
+}
+uint32_t[16] s_load_dwordx16(int32_t memoryLocationHint, uint64_t sbase, int32_t offset) {
+    uint32_t sdst[16];
+    S_LOAD_DWORD(sdst, memoryLocationHint, sbase, offset, 16);
+    return sdst;
+}
+
+#define S_BUFFER_LOAD_DWORD(dest, memoryLocationHint, vbuffer, offset, N) \
+    uint64_t base_address = vbuffer_base(vbuffer) & ~0x3; \
+    uint64_t stride = vbuffer_stride(vbuffer); \
+    uint64_t num_records = vbuffer_num_records(vbuffer); \
+    uint64_t size = (stride == 0 ? 1 : stride) * num_records; \
+    uint64_t deviceAreaSize = 0; \
+    uint64_t deviceAddress = findMemoryAddress(base_address + offset, size, memoryLocationHint, deviceAreaSize); \
+    int32_t _offset = 0; \
+    for (int i = 0; i < N; i++) { \
+        if (deviceAddress == kInvalidAddress || _offset + SIZEOF(uint32_t) > deviceAreaSize) { \
+            sdst[i] = 0; \
+        } else { \
+            sdst[i] = MEMORY_DATA_REF(uint32_t, deviceAddress + _offset); \
+        } \
+        _offset += SIZEOF(uint32_t); \
+    } \
+
+uint32_t s_buffer_load_dword(int32_t memoryLocationHint, u32vec4 vbuffer, int32_t offset) {
+    uint32_t sdst[1];
+    S_BUFFER_LOAD_DWORD(sdst, memoryLocationHint, vbuffer, offset, 1);
+    return sdst[0];
+}
+u32vec2 s_buffer_load_dwordx2(int32_t memoryLocationHint, u32vec4 vbuffer, int32_t offset) {
+    u32vec2 sdst;
+    S_BUFFER_LOAD_DWORD(sdst, memoryLocationHint, vbuffer, offset, 2);
+    return sdst;
+}
+u32vec4 s_buffer_load_dwordx4(int32_t memoryLocationHint, u32vec4 vbuffer, int32_t offset) {
+    u32vec4 sdst;
+    S_BUFFER_LOAD_DWORD(sdst, memoryLocationHint, vbuffer, offset, 4);
+    return sdst;
+}
+uint32_t[8] s_buffer_load_dwordx8(int32_t memoryLocationHint, u32vec4 vbuffer, int32_t offset) {
+    uint32_t sdst[8];
+    S_BUFFER_LOAD_DWORD(sdst, memoryLocationHint, vbuffer, offset, 8);
+    return sdst;
+}
+uint32_t[16] s_buffer_load_dwordx16(int32_t memoryLocationHint, u32vec4 vbuffer, int32_t offset) {
+    uint32_t sdst[16];
+    S_BUFFER_LOAD_DWORD(sdst, memoryLocationHint, vbuffer, offset, 16);
+    return sdst;
+}
+
+uint64_t s_memtime() {
+    // TODO
+    return 0;
+}
+void s_dcache_inv() {
+    // TODO
+}
+
+bool s_cbranch_scc0() { return scc == false; }
+bool s_cbranch_scc1() { return scc == true; }
+bool s_cbranch_vccz() { return vcc == 0; }
+bool s_cbranch_vccnz() { return vcc != 0; }
+bool s_cbranch_execz() { return exec == 0; }
+bool s_cbranch_execnz() { return exec != 0; }
+
+
+// DS
+// void ds_add_u32() {
+//     // vbindex, vsrc [OFFSET:<0..65535>] [GDS:< 0|1>]
+// }
+// void ds_sub_u32() {}
+// void ds_rsub_u32() {}
+// void ds_inc_u32() {}
+// void ds_dec_u32() {}
+// void ds_min_i32() {}
+// void ds_max_i32() {}
+// void ds_min_u32() {}
+// void ds_max_u32() {}
+// void ds_and_b32() {}
+// void ds_or_b32() {}
+// void ds_xor_b32() {}
+// void ds_mskor_b32() {}
+// void ds_write_b32() {}
+// void ds_write2_b32() {}
+// void ds_write2st64_b32() {}
+// void ds_cmpst_b32() {}
+// void ds_cmpst_f32() {}
+// void ds_min_f32() {}
+// void ds_max_f32() {}
+void ds_nop(bool GDS) {}
+// void ds_gws_sema_release_all() {}
+// void ds_gws_init() {}
+// void ds_gws_sema_v() {}
+// void ds_gws_sema_br() {}
+// void ds_gws_sema_p() {}
+// void ds_gws_barrier() {}
+// void ds_write_b8() {}
+// void ds_write_b16() {}
+// void ds_add_rtn_u32() {}
+// void ds_sub_rtn_u32() {}
+// void ds_rsub_rtn_u32() {}
+// void ds_inc_rtn_u32() {}
+// void ds_dec_rtn_u32() {}
+// void ds_min_rtn_i32() {}
+// void ds_max_rtn_i32() {}
+// void ds_min_rtn_u32() {}
+// void ds_max_rtn_u32() {}
+// void ds_and_rtn_b32() {}
+// void ds_or_rtn_b32() {}
+// void ds_xor_rtn_b32() {}
+// void ds_mskor_rtn_b32() {}
+// void ds_wrxchg_rtn_b32() {}
+// void ds_wrxchg2_rtn_b32() {}
+// void ds_wrxchg2st64_rtn_b32() {}
+// void ds_cmpst_rtn_b32() {}
+// void ds_cmpst_rtn_f32() {}
+// void ds_min_rtn_f32() {}
+// void ds_max_rtn_f32() {}
+// void ds_wrap_rtn_b32() {}
+// void ds_swizzle_b32() {
+//     // uses lane, not DS
+// }
+// void ds_read_b32() {
+//     ds_base = (GDS) ? M0[31:16] : LDS_BASE
+//     ds_size = (GDS) ? M0[15:0] : min(M0[16:0], LDS_SIZE)
+//     valid = (GDS) ? gdsPartitionRangeCheck(ds_base, ds_size) : true
+//     alignment = ~(OpDataSize-1)
+//     region_addr = (OFFSET + vbindex) & alignment
+//     valid = valid && (0 <= region_addr <= ds_size - OpDataSize)
+
+//     if (OpDataSize == 8)
+//         vdst.du = valid ? DS[ds_base + region_addr].du : 0
+//     else if (OpDataSize == 4)
+//         vdst.u = valid ? DS[ds_base + region_addr].u : 0
+//     else if (OpDataSize == 2)
+//         data = valid ? DS[ds_base + region_addr].h : 0
+//         vdst.u = OpDataSigned ? sign_ext16(data) : zero_ext16(data)
+//     else if (OpDataSize == 1)
+//         data = valid ? DS[ds_base + region_addr].b : 0
+//         vdst.u = OpDataSigned ? sign_ext8(data) : zero_ext8(data)
+// }
+// void ds_read2_b32() {}
+// void ds_read2st64_b32() {}
+// void ds_read_i8() {}
+// void ds_read_u8() {}
+// void ds_read_i16() {}
+// void ds_read_u16() {}
+// void ds_consume() {}
+// void ds_append() {}
+// void ds_ordered_count() {}
+// void ds_add_u64() {}
+// void ds_sub_u64() {}
+// void ds_rsub_u64() {}
+// void ds_inc_u64() {}
+// void ds_dec_u64() {}
+// void ds_min_i64() {}
+// void ds_max_i64() {}
+// void ds_min_u64() {}
+// void ds_max_u64() {}
+// void ds_and_b64() {}
+// void ds_or_b64() {}
+// void ds_xor_b64() {}
+// void ds_mskor_b64() {}
+// void ds_write_b64() {}
+// void ds_write2_b64() {}
+// void ds_write2st64_b64() {}
+// void ds_cmpst_b64() {}
+// void ds_cmpst_f64() {}
+// void ds_min_f64() {}
+// void ds_max_f64() {}
+// void ds_add_rtn_u64() {}
+// void ds_sub_rtn_u64() {}
+// void ds_rsub_rtn_u64() {}
+// void ds_inc_rtn_u64() {}
+// void ds_dec_rtn_u64() {}
+// void ds_min_rtn_i64() {}
+// void ds_max_rtn_i64() {}
+// void ds_min_rtn_u64() {}
+// void ds_max_rtn_u64() {}
+// void ds_and_rtn_b64() {}
+// void ds_or_rtn_b64() {}
+// void ds_xor_rtn_b64() {}
+// void ds_mskor_rtn_b64() {}
+// void ds_wrxchg_rtn_b64() {}
+// void ds_wrxchg2_rtn_b64() {}
+// void ds_wrxchg2st64_rtn_b64() {}
+// void ds_cmpst_rtn_b64() {}
+// void ds_cmpst_rtn_f64() {}
+// void ds_min_rtn_f64() {}
+// void ds_max_rtn_f64() {}
+// void ds_read_b64() {}
+// void ds_read2_b64() {}
+// void ds_read2st64_b64() {}
+// void ds_condxchg32_rtn_b64() {}
+// void ds_add_src2_u32() {}
+// void ds_sub_src2_u32() {}
+// void ds_rsub_src2_u32() {}
+// void ds_inc_src2_u32() {}
+// void ds_dec_src2_u32() {}
+// void ds_min_src2_i32() {}
+// void ds_max_src2_i32() {}
+// void ds_min_src2_u32() {}
+// void ds_max_src2_u32() {}
+// void ds_and_src2_b32() {}
+// void ds_or_src2_b32() {}
+// void ds_xor_src2_b32() {}
+// void ds_write_src2_b32() {}
+// void ds_min_src2_f32() {}
+// void ds_max_src2_f32() {}
+// void ds_add_src2_u64() {}
+// void ds_sub_src2_u64() {}
+// void ds_rsub_src2_u64() {}
+// void ds_inc_src2_u64() {}
+// void ds_dec_src2_u64() {}
+// void ds_min_src2_i64() {}
+// void ds_max_src2_i64() {}
+// void ds_min_src2_u64() {}
+// void ds_max_src2_u64() {}
+// void ds_and_src2_b64() {}
+// void ds_or_src2_b64() {}
+// void ds_xor_src2_b64() {}
+// void ds_write_src2_b64() {}
+// void ds_min_src2_f64() {}
+// void ds_max_src2_f64() {}
+
+
+// void ds_write_b96() {}
+// void ds_write_b128() {}
+// void ds_condxchg32_rtn_b128() {}
+// void ds_read_b96() {}
+// void ds_read_b128() {}
+
+layout(binding = 1) uniform sampler samplers[];
+layout(binding = 2) uniform texture1D textures1D[];
+layout(binding = 3) uniform texture2D textures2D[];
+layout(binding = 4) uniform texture3D textures3D[];
+layout(binding = 5) uniform textureBuffer textureBuffers[];
+
+// void image_atomic_add() {
+//     // imageAtomicAdd
+// }
+// void image_atomic_and() {
+//     // imageAtomicAnd
+// }
+// void image_atomic_cmpswap() {
+//     // imageAtomicCompSwap
+// }
+// void image_atomic_dec() {}
+// void image_atomic_fcmpswap() {
+//     // imageAtomicCompSwap
+// }
+// void image_atomic_fmax() {
+//     // imageAtomicMax
+// }
+// void image_atomic_fmin() {
+//     // imageAtomicMin
+// }
+// void image_atomic_inc() {
+//     // imageAtomicMin
+// }
+// void image_atomic_or() {}
+// void image_atomic_smax() {}
+// void image_atomic_smin() {}
+// void image_atomic_sub() {}
+// void image_atomic_swap() {}
+// void image_atomic_umax() {}
+// void image_atomic_umin() {}
+// void image_atomic_xor() {}
+
+// void image_load() {}
+// void image_load_pck() {}
+// void image_load_pck_sgn() {}
+// void image_load_mip() {}
+// void image_load_mip_pck() {}
+// void image_load_mip_pck_sgn() {}
+
+// void image_store() {}
+// void image_store_pck() {}
+// void image_store_mip() {}
+// void image_store_mip_pck() {}
+
+const uint8_t kTextureType1D = uint8_t(8);
+const uint8_t kTextureType2D = uint8_t(9);
+const uint8_t kTextureType3D = uint8_t(10);
+const uint8_t kTextureTypeCube = uint8_t(11);
+const uint8_t kTextureTypeArray1D = uint8_t(12);
+const uint8_t kTextureTypeArray2D = uint8_t(13);
+const uint8_t kTextureTypeMsaa2D = uint8_t(14);
+const uint8_t kTextureTypeMsaaArray2D = uint8_t(15);
+
+uint64_t tbuffer_base256(uint32_t tbuffer[8]) {
+    uint64_t baseLo = tbuffer[0];
+    uint64_t baseHi = U32ARRAY_FETCH_BITS(tbuffer, 32, 6);
+    uint64_t base = baseLo | (baseHi << 32);
+    return base;
+}
+uint64_t tbuffer_base(uint32_t tbuffer[8]) {
+    return tbuffer_base256(tbuffer) << 8;
+}
+uint8_t tbuffer_mtype_L2(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 38, 2));
+}
+uint16_t tbuffer_min_lod(uint32_t tbuffer[8]) {
+    return uint16_t(U32ARRAY_FETCH_BITS(tbuffer, 40, 12));
+}
+uint8_t tbuffer_dfmt(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 52, 6));
+}
+uint8_t tbuffer_nfmt(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 58, 4));
+}
+uint8_t tbuffer_mtype(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 62, 2) | (U32ARRAY_FETCH_BITS(tbuffer, 122, 1) << 2));
+}
+uint16_t tbuffer_width(uint32_t tbuffer[8]) {
+    return uint16_t(U32ARRAY_FETCH_BITS(tbuffer, 64, 14));
+}
+uint16_t tbuffer_height(uint32_t tbuffer[8]) {
+    return uint16_t(U32ARRAY_FETCH_BITS(tbuffer, 78, 14));
+}
+uint8_t tbuffer_perf_mod(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 92, 3));
+}
+bool tbuffer_interlaced(uint32_t tbuffer[8]) {
+    return U32ARRAY_FETCH_BITS(tbuffer, 95, 1) != 0;
+}
+uint8_t tbuffer_dst_sel_x(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 96, 3));
+}
+uint8_t tbuffer_dst_sel_y(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 99, 3));
+}
+uint8_t tbuffer_dst_sel_z(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 102, 3));
+}
+uint8_t tbuffer_dst_sel_w(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 105, 3));
+}
+uint8_t tbuffer_base_level(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 108, 4));
+}
+uint8_t tbuffer_last_level(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 112, 4));
+}
+uint8_t tbuffer_tiling_idx(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 116, 5));
+}
+bool tbuffer_pow2pad(uint32_t tbuffer[8]) {
+    return U32ARRAY_FETCH_BITS(tbuffer, 121, 1) != 0;
+}
+uint8_t tbuffer_type(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 124, 4));
+}
+uint16_t tbuffer_depth(uint32_t tbuffer[8]) {
+    return uint16_t(U32ARRAY_FETCH_BITS(tbuffer, 128, 13));
+}
+uint16_t tbuffer_pitch(uint32_t tbuffer[8]) {
+    return uint16_t(U32ARRAY_FETCH_BITS(tbuffer, 141, 14));
+}
+uint16_t tbuffer_base_array(uint32_t tbuffer[8]) {
+    return uint16_t(U32ARRAY_FETCH_BITS(tbuffer, 160, 13));
+}
+uint16_t tbuffer_last_array(uint32_t tbuffer[8]) {
+    return uint16_t(U32ARRAY_FETCH_BITS(tbuffer, 173, 13));
+}
+uint16_t tbuffer_min_lod_warn(uint32_t tbuffer[8]) {
+    return uint16_t(U32ARRAY_FETCH_BITS(tbuffer, 192, 12));
+}
+uint8_t tbuffer_counter_bank_id(uint32_t tbuffer[8]) {
+    return uint8_t(U32ARRAY_FETCH_BITS(tbuffer, 204, 8));
+}
+bool tbuffer_LOD_hdw_cnt_en(uint32_t tbuffer[8]) {
+    return U32ARRAY_FETCH_BITS(tbuffer, 212, 1) != 0;
+}
+uint8_t ssampler_clamp_x(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 0, 3));
+}
+uint8_t ssampler_clamp_y(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 3, 3));
+}
+uint8_t ssampler_clamp_z(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 6, 3));
+}
+uint8_t ssampler_max_aniso_ratio(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 9, 3));
+}
+uint8_t ssampler_depth_compare_func(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 12, 3));
+}
+bool ssampler_force_unorm_coord(u32vec4 ssampler) {
+    return U32ARRAY_FETCH_BITS(ssampler, 15, 1) != 0;
+}
+uint8_t ssampler_aniso_thresholt(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 16, 3));
+}
+bool ssampler_mc_coord_trunc(u32vec4 ssampler) {
+    return U32ARRAY_FETCH_BITS(ssampler, 19, 1) != 0;
+}
+bool ssampler_force_degamma(u32vec4 ssampler) {
+    return U32ARRAY_FETCH_BITS(ssampler, 20, 1) != 0;
+}
+uint8_t ssampler_aniso_bias(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 21, 6));
+}
+bool ssampler_trunc_coord(u32vec4 ssampler) {
+    return U32ARRAY_FETCH_BITS(ssampler, 27, 1) != 0;
+}
+bool ssampler_disable_cube_wrap(u32vec4 ssampler) {
+    return U32ARRAY_FETCH_BITS(ssampler, 28, 1) != 0;
+}
+uint8_t ssampler_filter_mode(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 29, 2));
+}
+uint16_t ssampler_min_lod(u32vec4 ssampler) {
+    return uint16_t(U32ARRAY_FETCH_BITS(ssampler, 32, 12));
+}
+uint16_t ssampler_max_lod(u32vec4 ssampler) {
+    return uint16_t(U32ARRAY_FETCH_BITS(ssampler, 44, 12));
+}
+uint8_t ssampler_perf_mip(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 56, 4));
+}
+uint8_t ssampler_perf_z(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 60, 4));
+}
+uint16_t ssampler_lod_bias(u32vec4 ssampler) {
+    return uint16_t(U32ARRAY_FETCH_BITS(ssampler, 64, 14));
+}
+uint8_t ssampler_lod_bias_sec(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 78, 6));
+}
+uint8_t ssampler_xy_mag_filter(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 84, 2));
+}
+uint8_t ssampler_xy_min_filter(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 86, 2));
+}
+uint8_t ssampler_z_filter(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 88, 2));
+}
+uint8_t ssampler_mip_filter(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 90, 2));
+}
+uint16_t ssampler_border_color_ptr(u32vec4 ssampler) {
+    return uint16_t(U32ARRAY_FETCH_BITS(ssampler, 96, 12));
+}
+uint8_t ssampler_border_color_type(u32vec4 ssampler) {
+    return uint8_t(U32ARRAY_FETCH_BITS(ssampler, 126, 2));
+}
+
+// void image_gather4(inout u32vec4 vdata, u32vec4 vaddr, int32_t textureIndexHint, uint32_t tbuffer[8], int32_t samplerIndexHint, u32vec4 samplerDescriptor) {}
+// image_gather4_cl
+// image_gather4_l
+// image_gather4_b
+// image_gather4_b_cl
+// image_gather4_lz
+// image_gather4_c
+// image_gather4_c_cl
+// image_gather4_c_l
+// image_gather4_c_b
+// image_gather4_c_b_cl
+// image_gather4_c_lz
+// image_gather4_o
+// image_gather4_cl_o
+// image_gather4_l_o
+// image_gather4_b_o
+// image_gather4_b_cl_o
+// image_gather4_lz_o
+// image_gather4_c_o
+// image_gather4_c_cl_o
+// image_gather4_c_l_o
+// image_gather4_c_b_o
+// image_gather4_c_b_cl_o
+// image_gather4_c_lz_o
+
+int findSamplerIndex(int32_t samplerIndexHint, u32vec4 ssampler) {
+    return samplerIndexHint;
+}
+int findTexture1DIndex(int32_t textureIndexHint, uint32_t tbuffer[8]) {
+    return textureIndexHint;
+}
+int findTexture2DIndex(int32_t textureIndexHint, uint32_t tbuffer[8]) {
+    return textureIndexHint;
+}
+int findTexture3DIndex(int32_t textureIndexHint, uint32_t tbuffer[8]) {
+    return textureIndexHint;
+}
+
+
+void image_sample(inout f32vec4 vdata, f32vec3 vaddr, int32_t textureIndexHint, uint32_t tbuffer[8], int32_t samplerIndexHint, u32vec4 ssampler, uint32_t dmask) {
+    uint8_t textureType = tbuffer_type(tbuffer);
+    f32vec4 result;
+    switch (uint(textureType)) {
+    case kTextureType1D:
+    case kTextureTypeArray1D:
+        result = texture(
+            sampler1D(
+                textures1D[findTexture1DIndex(textureIndexHint, tbuffer)],
+                samplers[findSamplerIndex(samplerIndexHint, ssampler)]
+            ), vaddr.x);
+        break;
+
+    case kTextureType2D:
+    case kTextureTypeCube:
+    case kTextureTypeArray2D:
+    case kTextureTypeMsaa2D:
+    case kTextureTypeMsaaArray2D:
+        result = texture(
+            sampler2D(
+                textures2D[findTexture2DIndex(textureIndexHint, tbuffer)],
+                samplers[findSamplerIndex(samplerIndexHint, ssampler)]
+            ), vaddr.xy);
+        break;
+
+    case kTextureType3D:
+        result = texture(
+            sampler3D(
+                textures3D[findTexture3DIndex(textureIndexHint, tbuffer)],
+                samplers[findSamplerIndex(samplerIndexHint, ssampler)]
+            ), vaddr);
+        break;
+
+    default:
+        return;
+    }
+
+    int vdataIndex = 0;
+    for (int i = 0; i < 4; ++i) {
+        if ((dmask & (1 << i)) != 0) {
+            vdata[vdataIndex++] = result[i];
+        }
+    }
+}
+
+// image_sample_cl
+// image_sample_d
+// image_sample_d_cl
+// image_sample_l
+// image_sample_b
+// image_sample_b_cl
+// image_sample_lz
+// image_sample_c
+// image_sample_c_cl
+// image_sample_c_d
+// image_sample_c_d_cl
+// image_sample_c_l
+// image_sample_c_b
+// image_sample_c_b_cl
+// image_sample_c_lz
+// image_sample_o
+// image_sample_cl_o
+// image_sample_d_o
+// image_sample_d_cl_o
+// image_sample_l_o
+// image_sample_b_o
+// image_sample_b_cl_o
+// image_sample_lz_o
+// image_sample_c_o
+// image_sample_c_cl_o
+// image_sample_c_d_o
+// image_sample_c_d_cl_o
+// image_sample_c_l_o
+// image_sample_c_b_o
+// image_sample_c_b_cl_o
+// image_sample_c_lz_o
+// image_sample_cd
+// image_sample_cd_cl
+// image_sample_c_cd
+// image_sample_c_cd_cl
+// image_sample_cd_o
+// image_sample_cd_cl_o
+// image_sample_c_cd_o
+// image_sample_c_cd_cl_o
+
+void image_get_lod(inout f32vec2 vdata, u32vec3 vaddr, int32_t textureIndexHint, uint32_t tbuffer[8], int32_t samplerIndexHint, u32vec4 ssampler, uint32_t dmask) {
+    f32vec2 result = f32vec2(0);
+    switch (uint(tbuffer_type(tbuffer))) {
+    case kTextureType1D:
+    case kTextureTypeArray1D:
+        result = textureQueryLod(
+            sampler1D(
+                textures1D[findTexture1DIndex(textureIndexHint, tbuffer)],
+                samplers[findSamplerIndex(samplerIndexHint, ssampler)]
+            ), vaddr.x);
+        break;
+
+    case kTextureType2D:
+    case kTextureTypeCube:
+    case kTextureTypeArray2D:
+    case kTextureTypeMsaa2D:
+    case kTextureTypeMsaaArray2D:
+        result = textureQueryLod(
+            sampler2D(
+                textures2D[findTexture2DIndex(textureIndexHint, tbuffer)],
+                samplers[findSamplerIndex(samplerIndexHint, ssampler)]
+            ), vaddr.xy);
+        break;
+
+    case kTextureType3D:
+        result = textureQueryLod(
+            sampler3D(
+                textures3D[findTexture3DIndex(textureIndexHint, tbuffer)],
+                samplers[findSamplerIndex(samplerIndexHint, ssampler)]
+            ), vaddr);
+        break;
+    }
+
+    int vdataIndex = 0;
+    for (int i = 0; i < 2; ++i) {
+        if ((dmask & (1 << i)) != 0) {
+            vdata[vdataIndex++] = result[i];
+        }
+    }
+}
+
+void image_get_resinfo(inout u32vec4 vdata, int32_t vmipid, int32_t textureIndexHint, uint32_t tbuffer[8], uint32_t dmask) {
+    i32vec4 result = i32vec4(1);
+
+    switch (uint(tbuffer_type(tbuffer))) {
+    case kTextureType1D: {
+        int texIndex = findTexture1DIndex(textureIndexHint, tbuffer);
+        result.x = textureSize(textures1D[texIndex], vmipid);
+        result.w = textureQueryLevels(textures1D[texIndex]);
+        break;
+    }
+
+    case kTextureTypeArray1D:
+    case kTextureType2D:
+    case kTextureTypeCube:
+    case kTextureTypeArray2D: {
+        int texIndex = findTexture2DIndex(textureIndexHint, tbuffer);
+        result.xy = textureSize(textures2D[texIndex], vmipid);
+        result.w = textureQueryLevels(textures2D[texIndex]);
+        break;
+    }
+
+    case kTextureTypeMsaa2D:
+    case kTextureTypeMsaaArray2D:
+        result.xy = textureSize(textures2D[findTexture2DIndex(textureIndexHint, tbuffer)], 0);
+        break;
+
+    case kTextureType3D: {
+        int texIndex = findTexture3DIndex(textureIndexHint, tbuffer);
+        result.xyz = textureSize(textures3D[texIndex], vmipid);
+        result.w = textureQueryLevels(textures3D[texIndex]);
+        break;
+    }
+    }
+
+    int vdataIndex = 0;
+    for (int i = 0; i < 4; ++i) {
+        if ((dmask & (1 << i)) != 0) {
+            vdata[vdataIndex++] = result[i];
+        }
+    }
+}
+
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/Evaluator.cpp b/rpcsx-gpu2/lib/gcn-shader/src/Evaluator.cpp
new file mode 100644
index 00000000..a14b008f
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/Evaluator.cpp
@@ -0,0 +1,274 @@
+#include "Evaluator.hpp"
+#include "dialect.hpp"
+#include "ir.hpp"
+
+using namespace shader;
+
+eval::Value eval::Evaluator::eval(const ir::Operand &op, ir::Value type) {
+  if (auto val = op.getAsValue()) {
+    auto [it, inserted] = values.try_emplace(val, Value{});
+    if (inserted) {
+      it->second = eval(val);
+    }
+    return it->second;
+  }
+
+  if (auto result = op.getAsInt32()) {
+    if (type != nullptr) {
+      bool isSigned = *type.getOperand(1).getAsInt32() != 0;
+      switch (*type.getOperand(0).getAsInt32()) {
+      case 8:
+        if (isSigned) {
+          return static_cast<std::int8_t>(*result);
+        }
+
+        return static_cast<std::uint8_t>(*result);
+
+      case 16:
+        if (isSigned) {
+          return static_cast<std::int16_t>(*result);
+        }
+
+        return static_cast<std::uint16_t>(*result);
+
+      case 32:
+        if (isSigned) {
+          return static_cast<std::int32_t>(*result);
+        }
+
+        return static_cast<std::uint32_t>(*result);
+      }
+
+      return {};
+    }
+
+    return *result;
+  }
+
+  if (auto result = op.getAsInt64()) {
+    if (type != nullptr) {
+      bool isSigned = *type.getOperand(1).getAsInt32() != 0;
+
+      if (isSigned) {
+        return static_cast<std::int64_t>(*result);
+      }
+
+      return static_cast<std::uint64_t>(*result);
+    }
+
+    return *result;
+  }
+
+  if (auto result = op.getAsBool()) {
+    return *result;
+  }
+
+  if (auto result = op.getAsFloat()) {
+    if (type != nullptr) {
+      if (*type.getOperand(0).getAsInt32() == 16) {
+        return static_cast<float16_t>(*result);
+      }
+
+      return static_cast<std::uint64_t>(*result);
+    }
+
+    return *result;
+  }
+
+  if (auto result = op.getAsDouble()) {
+    return *result;
+  }
+
+  return {};
+}
+eval::Value eval::Evaluator::eval(ir::InstructionId instId,
+                                  std::span<const ir::Operand> operands) {
+  if (instId == ir::spv::OpConstant) {
+    return eval(operands[1], operands[0].getAsValue());
+  }
+
+  if (instId == ir::spv::OpBitcast) {
+    return eval(operands[1]).bitcast(operands[0].getAsValue());
+  }
+
+  if (instId == ir::spv::OpSConvert || instId == ir::spv::OpUConvert) {
+    if (auto rhs = eval(operands[1])) {
+      return rhs.iConvert(operands[0].getAsValue(),
+                          instId == ir::spv::OpSConvert);
+    }
+
+    return {};
+  }
+
+  if (instId == ir::spv::OpSelect) {
+    return eval(operands[1]).select(eval(operands[2]), eval(operands[3]));
+  }
+
+  if (instId == ir::spv::OpIAdd || instId == ir::spv::OpFAdd) {
+    return eval(operands[1]) + eval(operands[2]);
+  }
+  if (instId == ir::spv::OpISub || instId == ir::spv::OpFSub) {
+    return eval(operands[1]) - eval(operands[2]);
+  }
+  if (instId == ir::spv::OpSDiv || instId == ir::spv::OpUDiv ||
+      instId == ir::spv::OpFDiv) {
+    return eval(operands[1]) / eval(operands[2]);
+  }
+  if (instId == ir::spv::OpSMod || instId == ir::spv::OpUMod ||
+      instId == ir::spv::OpFMod) {
+    return eval(operands[1]) % eval(operands[2]);
+  }
+  if (instId == ir::spv::OpSRem) {
+    return eval(operands[1]) % eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFRem) {
+    return eval(operands[1]) % eval(operands[2]);
+  }
+  if (instId == ir::spv::OpSNegate || instId == ir::spv::OpFNegate) {
+    return -eval(operands[0]);
+  }
+
+  if (instId == ir::spv::OpNot) {
+    return ~eval(operands[1]);
+  }
+  if (instId == ir::spv::OpLogicalNot) {
+    return !eval(operands[1]);
+  }
+
+  if (instId == ir::spv::OpLogicalEqual || instId == ir::spv::OpIEqual) {
+    return eval(operands[1]) == eval(operands[2]);
+  }
+  if (instId == ir::spv::OpLogicalNotEqual || instId == ir::spv::OpINotEqual) {
+    return eval(operands[1]) != eval(operands[2]);
+  }
+  if (instId == ir::spv::OpLogicalOr) {
+    return eval(operands[1]) || eval(operands[2]);
+  }
+  if (instId == ir::spv::OpLogicalAnd) {
+    return eval(operands[1]) && eval(operands[2]);
+  }
+  if (instId == ir::spv::OpUGreaterThan || instId == ir::spv::OpSGreaterThan) {
+    return eval(operands[1]) > eval(operands[2]);
+  }
+  if (instId == ir::spv::OpUGreaterThanEqual ||
+      instId == ir::spv::OpSGreaterThanEqual) {
+    return eval(operands[1]) >= eval(operands[2]);
+  }
+  if (instId == ir::spv::OpULessThan || instId == ir::spv::OpSLessThan) {
+    return eval(operands[1]) < eval(operands[2]);
+  }
+  if (instId == ir::spv::OpULessThanEqual ||
+      instId == ir::spv::OpSLessThanEqual) {
+    return eval(operands[1]) <= eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFOrdEqual) {
+    return !eval(operands[1]).isNan() && !eval(operands[2]).isNan() &&
+           eval(operands[1]) == eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFUnordEqual) {
+    return eval(operands[1]).isNan() || eval(operands[2]).isNan() ||
+           eval(operands[1]) == eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFOrdNotEqual) {
+    return !eval(operands[1]).isNan() && !eval(operands[2]).isNan() &&
+           eval(operands[1]) != eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFUnordNotEqual) {
+    return eval(operands[1]).isNan() || eval(operands[2]).isNan() ||
+           eval(operands[1]) != eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFOrdLessThan) {
+    return !eval(operands[1]).isNan() && !eval(operands[2]).isNan() &&
+           eval(operands[1]) < eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFUnordLessThan) {
+    return eval(operands[1]).isNan() || eval(operands[2]).isNan() ||
+           eval(operands[1]) < eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFOrdGreaterThan) {
+    return !eval(operands[1]).isNan() && !eval(operands[2]).isNan() &&
+           eval(operands[1]) > eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFUnordGreaterThan) {
+    return eval(operands[1]).isNan() || eval(operands[2]).isNan() ||
+           eval(operands[1]) > eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFOrdLessThanEqual) {
+    return !eval(operands[1]).isNan() && !eval(operands[2]).isNan() &&
+           eval(operands[1]) <= eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFUnordLessThanEqual) {
+    return eval(operands[1]).isNan() || eval(operands[2]).isNan() ||
+           eval(operands[1]) <= eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFOrdGreaterThanEqual) {
+    return !eval(operands[1]).isNan() && !eval(operands[2]).isNan() &&
+           eval(operands[1]) >= eval(operands[2]);
+  }
+  if (instId == ir::spv::OpFUnordGreaterThanEqual) {
+    return eval(operands[1]).isNan() || eval(operands[2]).isNan() ||
+           eval(operands[1]) >= eval(operands[2]);
+  }
+  if (instId == ir::spv::OpShiftRightLogical) {
+    return eval(operands[1]) >> eval(operands[2]);
+  }
+  if (instId == ir::spv::OpShiftRightArithmetic) {
+    return eval(operands[1]) >> eval(operands[2]);
+  }
+  if (instId == ir::spv::OpShiftLeftLogical) {
+    return eval(operands[1]) << eval(operands[2]);
+  }
+  if (instId == ir::spv::OpBitwiseOr) {
+    return eval(operands[1]) | eval(operands[2]);
+  }
+  if (instId == ir::spv::OpBitwiseXor) {
+    return eval(operands[1]) ^ eval(operands[2]);
+  }
+  if (instId == ir::spv::OpBitwiseAnd) {
+    return eval(operands[1]) & eval(operands[2]);
+  }
+
+  if (instId == ir::spv::OpIsNan) {
+    return eval(operands[1]).isNan();
+  }
+  if (instId == ir::spv::OpIsInf) {
+    return eval(operands[1]).isInf();
+  }
+  if (instId == ir::spv::OpIsFinite) {
+    return eval(operands[1]).isFinite();
+  }
+
+  if (instId == ir::spv::OpCompositeConstruct) {
+    std::vector<Value> constituents;
+    constituents.reserve(operands.size() - 1);
+    for (auto &op : operands.subspan(1)) {
+      constituents.push_back(eval(op));
+    }
+    return Value::compositeConstruct(operands[0].getAsValue(), constituents);
+  }
+
+  if (instId == ir::spv::OpCompositeExtract) {
+    auto composite = eval(operands[1].getAsValue());
+    if (composite.empty()) {
+      return{};
+    }
+
+    std::vector<Value> indexes;
+    indexes.reserve(operands.size() - 2);
+    for (auto &op : operands.subspan(2)) {
+      indexes.push_back(eval(op));
+    }
+
+    if (indexes.size() != 1) {
+      return{};
+    }
+
+    return composite.compositeExtract(indexes[0]);
+  }
+
+  return {};
+}
+
+eval::Value eval::Evaluator::eval(ir::Value op) {
+  return eval(op.getInstId(), op.getOperands());
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/GcnConverter.cpp b/rpcsx-gpu2/lib/gcn-shader/src/GcnConverter.cpp
new file mode 100644
index 00000000..c7f705f1
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/GcnConverter.cpp
@@ -0,0 +1,1626 @@
+#include "GcnConverter.hpp"
+#include "ModuleInfo.hpp"
+#include "SPIRV/GLSL.std.450.h"
+#include "SpvConverter.hpp"
+#include "analyze.hpp"
+#include "dialect.hpp"
+#include "gcn.hpp"
+#include "ir.hpp"
+#include "rx/die.hpp"
+#include <iostream>
+#include <limits>
+
+using namespace shader;
+
+inline constexpr auto kConfigBinding = 0;
+
+struct GcnConverter {
+  gcn::Context &gcnContext;
+  ir::Value configBuffer;
+
+  ir::Value getGlPosition(gcn::Builder &builder);
+  ir::Value getConfigBlock(int descriptorSet);
+  ir::Value createReadConfig(gcn::Stage stage, gcn::Builder &builder,
+                             const ir::Operand &index);
+
+  ir::Value createLocalVariable(gcn::Builder &builder, ir::Location loc,
+                                ir::Value initializer,
+                                ir::Value type = nullptr) {
+    if (type == nullptr) {
+      type = initializer.getOperand(0).getAsValue();
+    } else if (type != initializer.getOperand(0).getAsValue()) {
+      initializer = builder.createSpvBitcast(loc, type, initializer);
+    }
+    auto variableType =
+        gcnContext.getTypePointer(ir::spv::StorageClass::Function, type);
+    auto result =
+        gcn::Builder::createAppend(gcnContext, gcnContext.localVariables)
+            .createSpvVariable(loc, variableType,
+                               ir::spv::StorageClass::Function);
+    builder.createSpvStore(loc, result, initializer);
+    return result;
+  };
+};
+
+inline int stageToDescriptorSet(gcn::Stage stage) {
+  switch (stage) {
+  case gcn::Stage::Ps:
+    return 2;
+  case gcn::Stage::VsVs:
+    return 0;
+  case gcn::Stage::Cs:
+    return 0;
+  case gcn::Stage::Gs:
+    return 1;
+  case gcn::Stage::GsVs:
+    return 0;
+  case gcn::Stage::DsVs:
+    return 0;
+
+  case gcn::Stage::VsEs:
+  case gcn::Stage::VsLs:
+  case gcn::Stage::Hs:
+  case gcn::Stage::DsEs:
+  case gcn::Stage::Invalid:
+    break;
+  }
+
+  std::abort();
+}
+
+static void printFlat(std::ostream &os, ir::Instruction inst,
+                      ir::NameStorage &ns) {
+  os << ir::getInstructionName(inst.getKind(), inst.getOp());
+  os << '(';
+
+  for (bool first = true; auto &op : inst.getOperands()) {
+    if (first) {
+      first = false;
+    } else {
+      os << ", ";
+    }
+
+    if (auto valueOp = op.getAsValue()) {
+      printFlat(os, valueOp, ns);
+    } else {
+      op.print(os, ns);
+    }
+  }
+
+  os << ')';
+}
+
+struct ResourcesBuilder {
+  gcn::Resources resources;
+  ir::NameStorage *ns;
+
+  void addPointer(gcn::Resources::Pointer p) {
+    p.resourceSlot = resources.slots++;
+    resources.pointers.push_back(p);
+  }
+  void addTexture(gcn::Resources::Texture p) {
+    p.resourceSlot = resources.slots++;
+    resources.textures.push_back(p);
+  }
+  void addBuffer(gcn::Resources::Buffer p) {
+    p.resourceSlot = resources.slots++;
+    resources.buffers.push_back(p);
+  }
+  void addSampler(gcn::Resources::Sampler p) {
+    p.resourceSlot = resources.slots++;
+    resources.samplers.push_back(p);
+  }
+
+  ir::Value unpackFunctionCall(MemorySSA &memorySSA, spv::Import &importer,
+                               ir::Value call) {
+    for (auto &argOp : call.getOperands().subspan(2)) {
+      auto argValue = argOp.getAsValue();
+
+      if (argValue == ir::spv::OpVariable ||
+          argValue == ir::spv::OpAccessChain) {
+        auto varDef = memorySSA.getDefInst(call, argValue);
+        if (varDef == ir::spv::OpStore) {
+          varDef = varDef.getOperand(1).getAsValue();
+        }
+        if (varDef == ir::amdgpu::POINTER) {
+          return importIR(memorySSA, importer, varDef).staticCast<ir::Value>();
+        }
+      } else if (argValue == ir::amdgpu::POINTER) {
+        return importIR(memorySSA, importer, argValue).staticCast<ir::Value>();
+      }
+    }
+
+    std::printf("failed to resolve function call to %s\n",
+                ns->getNameOf(call.getOperand(1).getAsValue()).c_str());
+
+    for (auto op : call.getOperands().subspan(2)) {
+      std::cerr << "arg: ";
+      op.print(std::cerr, *ns);
+      auto argValue = op.getAsValue();
+
+      if (argValue == ir::spv::OpVariable ||
+          argValue == ir::spv::OpAccessChain) {
+        auto varDef = memorySSA.getDefInst(call, argValue);
+        if (varDef == ir::spv::OpStore) {
+          varDef = varDef.getOperand(1).getAsValue();
+        }
+        if (varDef) {
+          std::cerr << " def is ";
+          varDef.print(std::cerr, *ns);
+        } else {
+          std::cerr << " def is null";
+        }
+      }
+      std::cerr << "\n";
+    }
+
+    resources.hasUnknown = true;
+    return nullptr;
+  }
+
+  ir::Instruction unpackResourceDef(MemorySSA &memorySSA, spv::Import &importer,
+                                    ir::memssa::Def def) {
+    if (def == nullptr) {
+      return nullptr;
+    }
+
+    if (auto defInst = def.getLinkedInst()) {
+      if (defInst == ir::spv::OpStore) {
+        return importIR(memorySSA, importer,
+                        defInst.getOperand(1).getAsValue());
+      }
+
+      if (defInst == ir::spv::OpFunctionCall) {
+        return unpackFunctionCall(memorySSA, importer,
+                                  defInst.staticCast<ir::Value>());
+      }
+
+      return importIR(memorySSA, importer, defInst);
+    }
+
+    if (auto phi = def.cast<ir::memssa::Phi>()) {
+      auto resourcePhi = resources.context.create<ir::Value>(
+          phi.getLocation(), ir::Kind::AmdGpu, ir::amdgpu::RESOURCE_PHI);
+
+      for (std::size_t i = 1, end = phi.getOperandCount(); i < end; i += 2) {
+        auto pred =
+            phi.getOperand(i).getAsValue().staticCast<ir::memssa::Scope>();
+        auto def =
+            phi.getOperand(i + 1).getAsValue().staticCast<ir::memssa::Def>();
+
+        auto inst = unpackResourceDef(memorySSA, importer, def);
+        if (inst == nullptr) {
+          resources.hasUnknown = true;
+        }
+
+        resourcePhi.addOperand(pred);
+        if (inst == nullptr) {
+          resourcePhi.addOperand(nullptr);
+        } else if (auto value = inst.cast<ir::Value>()) {
+          resourcePhi.addOperand(value);
+        } else {
+          auto block = resources.context.create<ir::Block>(inst.getLocation());
+          block.addChild(inst);
+          resourcePhi.addOperand(block);
+        }
+      }
+
+      return resourcePhi;
+    }
+
+    return importIR(memorySSA, importer, def.getLinkedInst());
+  }
+
+  ir::Instruction importIR(MemorySSA &memorySSA, spv::Import &importer,
+                           ir::Instruction resource) {
+    auto result = ir::clone(resource, resources.context, importer);
+    std::vector<ir::Instruction> workList;
+    workList.push_back(resource);
+    std::set<ir::Instruction> visited;
+    visited.insert(resource);
+
+    while (!workList.empty()) {
+      auto inst = workList.back();
+      workList.pop_back();
+
+      auto cloned = ir::clone(inst, resources.context, importer);
+
+      if (inst == ir::spv::OpLoad) {
+        auto load = inst.staticCast<ir::Value>();
+        auto def = memorySSA.getDef(inst, inst.getOperand(1).getAsValue());
+        auto resourceInst = unpackResourceDef(memorySSA, importer, def);
+
+        if (resourceInst == nullptr) {
+          resources.hasUnknown = true;
+          cloned.staticCast<ir::Value>().replaceAllUsesWith(nullptr);
+          continue;
+        }
+
+        if (auto value = resourceInst.cast<ir::Value>()) {
+          cloned.staticCast<ir::Value>().replaceAllUsesWith(value);
+        } else {
+          auto block =
+              resources.context.create<ir::Block>(resourceInst.getLocation());
+          block.addChild(resourceInst);
+          cloned.staticCast<ir::Value>().replaceAllUsesWith(block);
+        }
+
+        continue;
+      }
+
+      if (inst == ir::spv::OpFunctionCall) {
+        auto unpacked = unpackFunctionCall(memorySSA, importer,
+                                           inst.staticCast<ir::Value>());
+
+        if (unpacked) {
+          cloned.staticCast<ir::Value>().replaceAllUsesWith(unpacked);
+          if (visited.insert(unpacked).second) {
+            workList.push_back(unpacked);
+          }
+
+          continue;
+        }
+      }
+
+      for (auto &operand : inst.getOperands()) {
+        if (auto value = operand.getAsValue()) {
+          if (visited.insert(value).second) {
+            workList.push_back(value);
+          }
+        }
+      }
+    }
+
+    return result;
+  }
+
+  int importResource(MemorySSA &memorySSA, spv::Import &resourceImporter,
+                     ir::Instruction resource) {
+    auto imported = importIR(memorySSA, resourceImporter, resource);
+
+    std::vector<ir::Instruction> resourceSet{imported};
+
+    int slot = -1;
+
+    if (resourceSet.size() == 1 && resourceSet[0] != nullptr) {
+      slot = resources.slots;
+    }
+
+    for (auto inst : resourceSet) {
+      if (inst == ir::amdgpu::POINTER) {
+        std::uint32_t loadSize = *inst.getOperand(1).getAsInt32();
+        auto base = inst.getOperand(2).getAsValue();
+        auto offset = inst.getOperand(3).getAsValue();
+
+        addPointer({
+            .size = loadSize,
+            .base = base,
+            .offset = offset,
+        });
+
+        continue;
+      }
+
+      if (inst == ir::amdgpu::VBUFFER) {
+        auto access = static_cast<Access>(*inst.getOperand(1).getAsInt32());
+        auto words = inst.getOperands().subspan(2);
+
+        addBuffer({
+            .access = access,
+            .words = {words[0].getAsValue(), words[1].getAsValue(),
+                      words[2].getAsValue(), words[3].getAsValue()},
+        });
+
+        continue;
+      }
+
+      if (inst == ir::amdgpu::TBUFFER) {
+        auto access = static_cast<Access>(*inst.getOperand(1).getAsInt32());
+        auto words = inst.getOperands().subspan(2);
+        if (words.size() > 4) {
+          addTexture({
+              .access = access,
+              .words = {words[0].getAsValue(), words[1].getAsValue(),
+                        words[2].getAsValue(), words[3].getAsValue(),
+                        words[4].getAsValue(), words[5].getAsValue(),
+                        words[6].getAsValue(), words[7].getAsValue()},
+          });
+        } else {
+          addTexture({
+              .access = access,
+              .words = {words[0].getAsValue(), words[1].getAsValue(),
+                        words[2].getAsValue(), words[3].getAsValue()},
+          });
+        }
+        continue;
+      }
+
+      if (inst == ir::amdgpu::SAMPLER) {
+        auto words = inst.getOperands().subspan(1);
+        auto unorm = *inst.getOperand(5).getAsBool();
+        addSampler({
+            .unorm = unorm,
+            .words = {words[0].getAsValue(), words[1].getAsValue(),
+                      words[2].getAsValue(), words[3].getAsValue()},
+        });
+        continue;
+      }
+
+      inst.print(std::cerr, *ns);
+      rx::die("unexpected resource");
+    }
+
+    return slot;
+  }
+};
+
+void gcn::Resources::print(std::ostream &os, ir::NameStorage &ns) const {
+  os << "resource slots " << slots << ":\n";
+  os << "has resources with unknown source: " << (hasUnknown ? "yes" : "no")
+     << "\n";
+
+  if (!pointers.empty()) {
+    os << "pointers:\n";
+    for (auto pointer : pointers) {
+      os << " #" << pointer.resourceSlot << ":\n";
+      os << "  base: ";
+      printFlat(os, pointer.base, ns);
+      os << "\n";
+      os << "  offset: ";
+      printFlat(os, pointer.offset, ns);
+      os << "\n";
+      os << "  size: " << pointer.size << "\n";
+    }
+  }
+
+  auto printAccess = [&](Access access) {
+    os << "  access: ";
+    switch (access) {
+    case Access::None:
+      os << "none";
+      break;
+    case Access::Read:
+      os << "read";
+      break;
+    case Access::Write:
+      os << "write";
+      break;
+    case Access::ReadWrite:
+      os << "read/write";
+      break;
+    default:
+      os << "invalid";
+      break;
+    }
+    os << "\n";
+  };
+
+  if (!textures.empty()) {
+    os << "textures:\n";
+    for (auto &texture : textures) {
+      os << " #" << texture.resourceSlot << ":\n";
+      printAccess(texture.access);
+
+      for (auto &word : texture.words) {
+        os << "  word" << (&word - texture.words) << ": ";
+        printFlat(os, word, ns);
+        os << "\n";
+      }
+    }
+  }
+
+  if (!buffers.empty()) {
+    os << "buffers:\n";
+    for (auto &buffer : buffers) {
+      os << " #" << buffer.resourceSlot << ":\n";
+      printAccess(buffer.access);
+
+      for (auto &word : buffer.words) {
+        os << "  word" << (&word - buffer.words) << ": ";
+        printFlat(os, word, ns);
+        os << "\n";
+      }
+    }
+  }
+
+  if (!samplers.empty()) {
+    os << "samplers:\n";
+    for (auto &sampler : samplers) {
+      os << " #" << sampler.resourceSlot << ":\n";
+
+      for (auto &word : sampler.words) {
+        os << "  word" << (&word - sampler.words) << ": ";
+        printFlat(os, word, ns);
+        os << "\n";
+      }
+    }
+  }
+}
+
+void gcn::Resources::dump() { print(std::cerr, context.ns); }
+
+ir::Value GcnConverter::getGlPosition(gcn::Builder &builder) {
+  auto float4OutPtrT = gcnContext.getTypePointer(
+      ir::spv::StorageClass::Output,
+      gcnContext.getTypeVector(gcnContext.getTypeFloat32(), 4));
+
+  auto index = gcnContext.simm32(0);
+  return builder.createSpvAccessChain(gcnContext.getUnknownLocation(),
+                                      float4OutPtrT, gcnContext.perVertex,
+                                      {{gcnContext.simm32(0)}});
+}
+
+ir::Value GcnConverter::getConfigBlock(int descriptorSet) {
+  if (configBuffer != nullptr) {
+    return configBuffer;
+  }
+
+  auto result = gcnContext.createRuntimeArrayUniformBuffer(
+      descriptorSet, kConfigBinding, gcnContext.getTypeUInt32());
+  auto blockStruct =
+      result.getOperand(0).getAsValue().getOperand(1).getAsValue();
+
+  gcnContext.setName(blockStruct, "Config");
+  gcnContext.setName(result, "config");
+
+  configBuffer = result;
+  return result;
+}
+
+ir::Value GcnConverter::createReadConfig(gcn::Stage stage,
+                                         gcn::Builder &builder,
+                                         const ir::Operand &index) {
+  auto userSgprsBlock = getConfigBlock(stageToDescriptorSet(stage));
+
+  auto userSgprsPtrType = userSgprsBlock.getOperand(0).getAsValue();
+  auto userSgprsStorageClass = static_cast<ir::spv::StorageClass>(
+      *userSgprsPtrType.getOperand(0).getAsInt32());
+  auto elemType = gcnContext.getTypeUInt32();
+
+  auto elemPointer = gcnContext.getTypePointer(userSgprsStorageClass, elemType);
+  auto loc = gcnContext.getUnknownLocation();
+
+  auto ptr = builder.createSpvAccessChain(
+      loc, elemPointer, userSgprsBlock,
+      {{gcnContext.getIndex(0), gcnContext.getOperandValue(index)}});
+
+  return builder.createSpvLoad(loc, elemType, ptr);
+}
+
+static int findArrayBounds(ir::Value variable) {
+  int minReg = std::numeric_limits<int>::max();
+  int maxReg = std::numeric_limits<int>::min();
+
+  for (auto user : variable.getUserList()) {
+    auto inst = user.cast<ir::Instruction>();
+    if (inst == nullptr) {
+      continue;
+    }
+
+    if (inst == ir::spv::OpAccessChain) {
+      auto index = inst.getOperand(2).getAsValue();
+
+      if (index != ir::spv::OpConstant) {
+        return -1;
+      }
+
+      auto constIndex = index.getOperand(1).getAsInt32();
+
+      if (constIndex == nullptr) {
+        std::abort();
+      }
+
+      if (*constIndex > maxReg) {
+        maxReg = *constIndex;
+      }
+
+      if (*constIndex < minReg) {
+        minReg = *constIndex;
+      }
+    }
+  }
+
+  if (minReg > maxReg) {
+    return 0;
+  }
+
+  return maxReg;
+}
+
+template <typename... IndiciesT>
+ir::Value createPointerAccessChain(shader::spv::Context &context,
+                                   ir::Location loc, gcn::Builder &builder,
+                                   ir::Value type, ir::Value pointer,
+                                   IndiciesT... indicies) {
+  auto intT = context.getTypeSInt32();
+
+  auto createIndex = [&](int index) {
+    return context.getOrCreateConstant(intT, index);
+  };
+
+  auto pointerType = pointer.getOperand(0).getAsValue();
+  if (pointerType != ir::spv::OpTypePointer) {
+    std::abort();
+  }
+
+  auto storageClass = static_cast<ir::spv::StorageClass>(
+      *pointerType.getOperand(0).getAsInt32());
+  auto resultType = context.getTypePointer(storageClass, type);
+  return builder.createSpvAccessChain(loc, resultType, pointer,
+                                      {{createIndex(indicies)...}});
+}
+
+static void replaceVariableWithConstant(ir::Value variable,
+                                        ir::Value constant) {
+  while (!variable.getUseList().empty()) {
+    auto use = *variable.getUseList().begin();
+
+    if (use.user == ir::spv::OpName || use.user == ir::spv::OpDecorate) {
+      use.user.remove();
+      continue;
+    }
+
+    if (use.user == ir::spv::OpLoad) {
+      use.user.staticCast<ir::Value>().replaceAllUsesWith(constant);
+      use.user.remove();
+      continue;
+    }
+
+    ir::NameStorage ns;
+    use.user.print(std::cerr, ns);
+    rx::die("replaceVariableWithConstant: unexpected variable user");
+  }
+}
+
+static void expToSpv(GcnConverter &converter, gcn::Import &importer,
+                     gcn::Stage stage,
+                     const SemanticModuleInfo &semanticModuleInfo,
+                     gcn::ShaderInfo &info, ir::Instruction inst) {
+  enum Target : unsigned {
+    ET_MRT0 = 0,
+    ET_MRT7 = 7,
+    ET_MRTZ = 8,
+    ET_NULL = 9,
+    ET_POS0 = 12,
+    ET_POS3 = 15,
+    ET_PARAM0 = 32,
+    ET_PARAM31 = 63,
+  };
+
+  auto &context = converter.gcnContext;
+
+  auto target = *inst.getOperand(0).getAsValue().getOperand(1).getAsInt32();
+  auto swizzle = *inst.getOperand(1).getAsValue().getOperand(1).getAsInt32();
+  auto comr = *inst.getOperand(2).getAsValue().getOperand(1).getAsInt32()
+                  ? true
+                  : false;
+  auto done = *inst.getOperand(3).getAsValue().getOperand(1).getAsInt32()
+                  ? true
+                  : false;
+  auto vm = *inst.getOperand(4).getAsValue().getOperand(1).getAsInt32() ? true
+                                                                        : false;
+
+  auto loc = inst.getLocation();
+  auto builder = gcn::Builder::createInsertBefore(context, inst);
+
+  auto cf0 = context.fimm32(0);
+  auto elemType = context.getTypeFloat32();
+  auto valueType = context.getTypeVector(elemType, 4);
+  auto value = builder.createSpvCompositeConstruct(loc, valueType,
+                                                   {{cf0, cf0, cf0, cf0}});
+
+  if (comr) {
+    for (auto channel = 0; channel < 2; ++channel) {
+      if (~swizzle & (1 << (channel * 2))) {
+        continue;
+      }
+
+      auto src =
+          builder.createSpvBitcast(loc, context.getTypeFloat32(),
+                                   inst.getOperand(5 + channel).getAsValue());
+
+      auto srcType = src.getOperand(0).getAsValue();
+      ir::Value elementType;
+      if (srcType == ir::spv::OpTypeFloat) {
+        elementType = context.getTypeFloat16();
+      } else if (srcType == ir::spv::OpTypeInt) {
+        elementType =
+            context.getTypeInt(16, *srcType.getOperand(1).getAsInt32() != 0);
+      } else {
+        std::abort();
+      }
+
+      auto elemVecT = context.getTypeVector(elementType, 2);
+      src = builder.createSpvBitcast(loc, elemVecT, src);
+
+      auto src0 =
+          builder.createSpvCompositeExtract(loc, elementType, src, {{0}});
+      auto src1 =
+          builder.createSpvCompositeExtract(loc, elementType, src, {{1}});
+
+      if (srcType == ir::spv::OpTypeFloat) {
+        src0 = builder.createSpvFConvert(loc, context.getTypeFloat32(), src0);
+        src1 = builder.createSpvFConvert(loc, context.getTypeFloat32(), src1);
+      } else if (srcType == ir::spv::OpTypeInt) {
+        if (*srcType.getOperand(1).getAsInt32() != 0) {
+          src0 = builder.createSpvSConvert(loc, context.getTypeSInt32(), src0);
+          src1 = builder.createSpvSConvert(loc, context.getTypeSInt32(), src1);
+        } else {
+          src0 = builder.createSpvUConvert(loc, context.getTypeUInt32(), src0);
+          src1 = builder.createSpvUConvert(loc, context.getTypeUInt32(), src1);
+        }
+      } else {
+        std::abort();
+      }
+
+      src0 = context.createCast(loc, builder, elemType, src0);
+      src1 = context.createCast(loc, builder, elemType, src1);
+
+      value = builder.createSpvCompositeInsert(loc, valueType, src0, value,
+                                               {{channel * 2}});
+      value = builder.createSpvCompositeInsert(loc, valueType, src1, value,
+                                               {{channel * 2 + 1}});
+    }
+  } else {
+    for (auto channel = 0; channel < 4; ++channel) {
+      if (~swizzle & (1 << channel)) {
+        continue;
+      }
+
+      value = builder.createSpvCompositeInsert(
+          loc, valueType,
+          context.createCast(loc, builder, elemType,
+                             inst.getOperand(5 + channel).getAsValue()),
+          value, {{channel}});
+    }
+  }
+
+  if (target == ET_POS0) {
+    context.createPerVertex();
+    auto glPosition = converter.getGlPosition(builder);
+    auto channelType = context.getTypeFloat32();
+
+    for (int channel = 0; channel < 4; ++channel) {
+      if (~swizzle & (1 << channel)) {
+        continue;
+      }
+
+      auto pointer = createPointerAccessChain(context, loc, builder,
+                                              channelType, glPosition, channel);
+
+      auto channelValue =
+          builder.createSpvCompositeExtract(loc, elemType, value, {{channel}});
+
+      channelValue =
+          context.createCast(loc, builder, channelType, channelValue);
+
+      if (channel < 3) {
+        auto offsetId =
+            gcn::ConfigType(int(gcn::ConfigType::ViewPortOffsetX) + channel);
+        auto scaleId =
+            gcn::ConfigType(int(gcn::ConfigType::ViewPortScaleX) + channel);
+        auto offset = converter.createReadConfig(stage, builder,
+                                                 info.create(offsetId, 0));
+        auto scale =
+            converter.createReadConfig(stage, builder, info.create(scaleId, 0));
+
+        offset = builder.createSpvBitcast(loc, channelType, offset);
+        scale = builder.createSpvBitcast(loc, channelType, scale);
+
+        channelValue =
+            builder.createSpvFMul(loc, channelType, channelValue, scale);
+        channelValue =
+            builder.createSpvFAdd(loc, channelType, channelValue, offset);
+      }
+
+      builder.createSpvStore(loc, pointer, channelValue);
+    }
+
+    return;
+  }
+
+  if (target >= ET_MRT0 && target <= ET_MRT7) {
+    auto output = context.createOutput(loc, target - ET_MRT0);
+    auto compSwap = converter.createReadConfig(
+        stage, builder,
+        info.create(gcn::ConfigType::CbCompSwap, target - ET_MRT0));
+
+    value = builder.createValue(
+        loc, ir::amdgpu::PS_COMP_SWAP, valueType,
+        converter.createLocalVariable(builder, loc, compSwap),
+        converter.createLocalVariable(builder, loc, value));
+
+    auto channelType = context.getTypeFloat32();
+
+    for (int channel = 0; channel < 4; ++channel) {
+      if (~swizzle & (1 << channel)) {
+        continue;
+      }
+
+      auto pointer = createPointerAccessChain(context, loc, builder,
+                                              channelType, output, channel);
+      auto channelValue =
+          builder.createSpvCompositeExtract(loc, elemType, value, {{channel}});
+      channelValue =
+          context.createCast(loc, builder, channelType, channelValue);
+      builder.createSpvStore(loc, pointer, channelValue);
+    }
+
+    return;
+  }
+
+  if (target >= ET_PARAM0 && target <= ET_PARAM31) {
+    auto output = context.createOutput(loc, target - ET_PARAM0);
+    auto floatT = context.getTypeFloat32();
+    auto channelType = floatT;
+
+    for (int channel = 0; channel < 4; ++channel) {
+      if (~swizzle & (1 << channel)) {
+        continue;
+      }
+      auto pointer = createPointerAccessChain(context, loc, builder,
+                                              channelType, output, channel);
+      auto channelValue =
+          builder.createSpvCompositeExtract(loc, elemType, value, {{channel}});
+
+      builder.createSpvStore(
+          loc, pointer,
+          context.createCast(loc, builder, channelType, channelValue));
+    }
+
+    return;
+  }
+
+  // FIXME
+
+  auto targetToString = [](unsigned target) -> std::string {
+    if (target >= ET_MRT0 && target <= ET_MRT7) {
+      return "mrt" + std::to_string(target - ET_MRT0);
+    }
+    if (target == ET_MRTZ) {
+      return "mrtz";
+    }
+    if (target == ET_NULL) {
+      return "null";
+    }
+    if (target >= ET_POS0 && target <= ET_POS3) {
+      return "pos" + std::to_string(target - ET_POS0);
+    }
+    if (target >= ET_PARAM0 && target <= ET_PARAM31) {
+      return "param" + std::to_string(target - ET_PARAM0);
+    }
+
+    return std::to_string(target);
+  };
+
+  auto swizzleToString = [](unsigned swizzle) {
+    std::string result;
+
+    if (swizzle & 1) {
+      result += 'x';
+    }
+    if (swizzle & 2) {
+      result += 'y';
+    }
+    if (swizzle & 4) {
+      result += 'z';
+    }
+    if (swizzle & 8) {
+      result += 'w';
+    }
+
+    return result;
+  };
+
+  std::printf("exp target %s.%s\n", targetToString(target).c_str(),
+              swizzleToString(swizzle).c_str());
+  std::abort();
+}
+
+static void instructionsToSpv(GcnConverter &converter, gcn::Import &importer,
+                              gcn::Stage stage, const gcn::Environment &env,
+                              const SemanticModuleInfo &semanticModuleInfo,
+                              gcn::ShaderInfo &info, ir::Region body) {
+  auto &context = converter.gcnContext;
+  std::vector<ir::Value> toAnalyze;
+
+  ir::Value baryCoordVar;
+  ir::Value baryCoordNoPerspVar;
+  auto glslStd450 =
+      gcn::Builder::createAppend(
+          context, context.layout.getOrCreateExtInstImports(context))
+          .createSpvExtInstImport(context.getUnknownLocation(), "GLSL.std.450");
+  auto boolT = context.getTypeBool();
+  auto f32T = context.getTypeFloat32();
+  auto u32T = context.getTypeUInt32();
+  auto s32T = context.getTypeSInt32();
+  auto f32x3 = context.getTypeVector(f32T, 3);
+  auto f32x4 = context.getTypeVector(f32T, 4);
+  auto s32PT = context.getTypePointer(ir::spv::StorageClass::Input, s32T);
+  auto f32x3PT = context.getTypePointer(ir::spv::StorageClass::Input, f32x3);
+
+  auto f32x3array = context.getTypeArray(f32T, context.imm32(3));
+
+  ir::Value sampleIdVar;
+
+  if (env.supportsBarycentric && stage == gcn::Stage::Ps) {
+    auto loc = context.getUnknownLocation();
+    auto globals = gcn::Builder::createAppend(
+        context, context.layout.getOrCreateGlobals(context));
+    auto annotations = gcn::Builder::createAppend(
+        context, context.layout.getOrCreateAnnotations(context));
+    baryCoordVar =
+        globals.createSpvVariable(loc, f32x3PT, ir::spv::StorageClass::Input);
+    annotations.createSpvDecorate(
+        loc, baryCoordVar,
+        ir::spv::Decoration::BuiltIn(ir::spv::BuiltIn::BaryCoordKHR));
+
+    baryCoordNoPerspVar =
+        globals.createSpvVariable(loc, f32x3PT, ir::spv::StorageClass::Input);
+    annotations.createSpvDecorate(
+        loc, baryCoordNoPerspVar,
+        ir::spv::Decoration::BuiltIn(ir::spv::BuiltIn::BaryCoordNoPerspKHR));
+
+    sampleIdVar =
+        globals.createSpvVariable(loc, s32PT, ir::spv::StorageClass::Input);
+    annotations.createSpvDecorate(
+        loc, sampleIdVar,
+        ir::spv::Decoration::BuiltIn(ir::spv::BuiltIn::SampleId));
+    annotations.createSpvDecorate(loc, sampleIdVar,
+                                  ir::spv::Decoration::Flat());
+  }
+
+  for (auto inst : body.children()) {
+    if (inst.getKind() == ir::Kind::Spv) {
+      continue;
+    }
+
+    if (inst == ir::exp::EXP) {
+      expToSpv(converter, importer, stage, semanticModuleInfo, info, inst);
+      inst.remove();
+      continue;
+    }
+
+    if (inst == ir::amdgpu::POINTER || inst == ir::amdgpu::VBUFFER ||
+        inst == ir::amdgpu::SAMPLER || inst == ir::amdgpu::TBUFFER) {
+      toAnalyze.push_back(inst.staticCast<ir::Value>());
+      continue;
+    }
+
+    auto builder = gcn::Builder::createInsertBefore(context, inst);
+
+    if (inst == ir::vintrp::P1_F32 || inst == ir::vintrp::P2_F32) {
+      auto mode = builder.createSpvLoad(inst.getLocation(), f32T,
+                                        inst.getOperand(2).getAsValue());
+      mode = builder.createSpvBitcast(inst.getLocation(), s32T, mode);
+      auto isPerspSample = builder.createSpvIEqual(
+          inst.getLocation(), boolT, mode,
+          context.imm32(static_cast<std::uint32_t>(
+              inst == ir::vintrp::P1_F32 ? gcn::PsVGprInput::IPerspSample
+                                         : gcn::PsVGprInput::JPerspSample)));
+      auto isPerspCenter = builder.createSpvIEqual(
+          inst.getLocation(), boolT, mode,
+          context.imm32(static_cast<std::uint32_t>(
+              inst == ir::vintrp::P1_F32 ? gcn::PsVGprInput::IPerspCenter
+                                         : gcn::PsVGprInput::JPerspCenter)));
+      auto isPerspCentroid = builder.createSpvIEqual(
+          inst.getLocation(), boolT, mode,
+          context.imm32(static_cast<std::uint32_t>(
+              inst == ir::vintrp::P1_F32 ? gcn::PsVGprInput::IPerspCentroid
+                                         : gcn::PsVGprInput::JPerspCentroid)));
+      auto isLinearSample = builder.createSpvIEqual(
+          inst.getLocation(), boolT, mode,
+          context.imm32(static_cast<std::uint32_t>(
+              inst == ir::vintrp::P1_F32 ? gcn::PsVGprInput::ILinearSample
+                                         : gcn::PsVGprInput::JLinearSample)));
+      auto isLinearCenter = builder.createSpvIEqual(
+          inst.getLocation(), boolT, mode,
+          context.imm32(static_cast<std::uint32_t>(
+              inst == ir::vintrp::P1_F32 ? gcn::PsVGprInput::ILinearCenter
+                                         : gcn::PsVGprInput::JLinearCenter)));
+      auto isLinearCentroid = builder.createSpvIEqual(
+          inst.getLocation(), boolT, mode,
+          context.imm32(static_cast<std::uint32_t>(
+              inst == ir::vintrp::P1_F32 ? gcn::PsVGprInput::ILinearCentroid
+                                         : gcn::PsVGprInput::JLinearCentroid)));
+
+      auto attr = inst.getOperand(3).getAsValue();
+
+      if (env.supportsBarycentric) {
+        attr = builder.createSpvLoad(inst.getLocation(), f32x3array, attr);
+        auto sampleId =
+            builder.createSpvLoad(inst.getLocation(), s32T, sampleIdVar);
+
+        auto baryCoordPerspCenter =
+            builder.createSpvLoad(inst.getLocation(), f32x3, baryCoordVar);
+        auto baryCoordPerspSample = builder.createSpvExtInst(
+            inst.getLocation(), f32x3, glslStd450,
+            GLSLstd450InterpolateAtSample, {{baryCoordVar, sampleId}});
+        auto baryCoordPerspCentroid = builder.createSpvExtInst(
+            inst.getLocation(), f32x3, glslStd450,
+            GLSLstd450InterpolateAtCentroid, {{baryCoordVar}});
+        auto baryCoordLinearCenter = builder.createSpvLoad(
+            inst.getLocation(), f32x3, baryCoordNoPerspVar);
+        auto baryCoordLinearSample = builder.createSpvExtInst(
+            inst.getLocation(), f32x3, glslStd450,
+            GLSLstd450InterpolateAtSample, {{baryCoordNoPerspVar, sampleId}});
+        auto baryCoordLinearCentroid = builder.createSpvExtInst(
+            inst.getLocation(), f32x3, glslStd450,
+            GLSLstd450InterpolateAtCentroid, {{baryCoordNoPerspVar}});
+
+        ir::Value PerspSample;
+        ir::Value PerspCenter;
+        ir::Value PerspCentroid;
+        ir::Value LinearSample;
+        ir::Value LinearCenter;
+        ir::Value LinearCentroid;
+
+        if (inst == ir::vintrp::P1_F32) {
+          auto attr0 = builder.createSpvCompositeExtract(inst.getLocation(),
+                                                         f32T, attr, {{0}});
+          auto attr1 = builder.createSpvCompositeExtract(inst.getLocation(),
+                                                         f32T, attr, {{1}});
+          auto baryCoordPerspCenterX = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordPerspCenter, {{0}});
+          auto baryCoordPerspCenterY = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordPerspCenter, {{1}});
+          auto baryCoordPerspSampleX = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordPerspSample, {{0}});
+          auto baryCoordPerspSampleY = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordPerspSample, {{1}});
+          auto baryCoordPerspCentroidX = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordPerspCentroid, {{0}});
+          auto baryCoordPerspCentroidY = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordPerspCentroid, {{1}});
+          auto baryCoordLinearCenterX = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordLinearCenter, {{0}});
+          auto baryCoordLinearCenterY = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordLinearCenter, {{1}});
+          auto baryCoordLinearSampleX = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordLinearSample, {{0}});
+          auto baryCoordLinearSampleY = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordLinearSample, {{1}});
+          auto baryCoordLinearCentroidX = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordLinearCentroid, {{0}});
+          auto baryCoordLinearCentroidY = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordLinearCentroid, {{1}});
+
+          auto PerspSample0 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordPerspSampleX, attr0);
+          auto PerspSample1 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordPerspSampleY, attr1);
+          auto PerspCenter0 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordPerspCenterX, attr0);
+          auto PerspCenter1 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordPerspCenterY, attr1);
+          auto PerspCentroid0 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordPerspCentroidX, attr0);
+          auto PerspCentroid1 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordPerspCentroidY, attr1);
+          auto LinearSample0 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordLinearSampleX, attr0);
+          auto LinearSample1 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordLinearSampleY, attr1);
+          auto LinearCenter0 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordLinearCenterX, attr0);
+          auto LinearCenter1 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordLinearCenterY, attr1);
+          auto LinearCentroid0 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordLinearCentroidX, attr0);
+          auto LinearCentroid1 = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordLinearCentroidY, attr1);
+
+          PerspSample = builder.createSpvFAdd(inst.getLocation(), f32T,
+                                              PerspSample0, PerspSample1);
+          PerspCenter = builder.createSpvFAdd(inst.getLocation(), f32T,
+                                              PerspCenter0, PerspCenter1);
+          PerspCentroid = builder.createSpvFAdd(inst.getLocation(), f32T,
+                                                PerspCentroid0, PerspCentroid1);
+          LinearSample = builder.createSpvFAdd(inst.getLocation(), f32T,
+                                               LinearSample0, LinearSample1);
+          LinearCenter = builder.createSpvFAdd(inst.getLocation(), f32T,
+                                               LinearCenter0, LinearCenter1);
+          LinearCentroid = builder.createSpvFAdd(
+              inst.getLocation(), f32T, LinearCentroid0, LinearCentroid1);
+        } else {
+          auto dst = builder.createSpvLoad(inst.getLocation(), f32T,
+                                           inst.getOperand(1).getAsValue());
+          auto attr2 = builder.createSpvCompositeExtract(inst.getLocation(),
+                                                         f32T, attr, {{2}});
+
+          auto baryCoordPerspSampleZ = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordPerspSample, {{2}});
+          auto baryCoordPerspCenterZ = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordPerspCenter, {{2}});
+          auto baryCoordPerspCentroidZ = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordPerspCentroid, {{2}});
+          auto baryCoordLinearSampleZ = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordLinearSample, {{2}});
+          auto baryCoordLinearCenterZ = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordLinearCenter, {{2}});
+          auto baryCoordLinearCentroidZ = builder.createSpvCompositeExtract(
+              inst.getLocation(), f32T, baryCoordLinearCentroid, {{2}});
+
+          PerspSample = builder.createSpvFMul(inst.getLocation(), f32T,
+                                              baryCoordPerspSampleZ, attr2);
+          PerspCenter = builder.createSpvFMul(inst.getLocation(), f32T,
+                                              baryCoordPerspCenterZ, attr2);
+          PerspCentroid = builder.createSpvFMul(inst.getLocation(), f32T,
+                                                baryCoordPerspCentroidZ, attr2);
+          LinearSample = builder.createSpvFMul(inst.getLocation(), f32T,
+                                               baryCoordLinearSampleZ, attr2);
+          LinearCenter = builder.createSpvFMul(inst.getLocation(), f32T,
+                                               baryCoordLinearCenterZ, attr2);
+          LinearCentroid = builder.createSpvFMul(
+              inst.getLocation(), f32T, baryCoordLinearCentroidZ, attr2);
+
+          PerspSample =
+              builder.createSpvFAdd(inst.getLocation(), f32T, dst, PerspSample);
+          PerspCenter =
+              builder.createSpvFAdd(inst.getLocation(), f32T, dst, PerspCenter);
+          PerspCentroid = builder.createSpvFAdd(inst.getLocation(), f32T, dst,
+                                                PerspCentroid);
+          LinearSample = builder.createSpvFAdd(inst.getLocation(), f32T, dst,
+                                               LinearSample);
+          LinearCenter = builder.createSpvFAdd(inst.getLocation(), f32T, dst,
+                                               LinearCenter);
+          LinearCentroid = builder.createSpvFAdd(inst.getLocation(), f32T, dst,
+                                                 LinearCentroid);
+        }
+
+        attr = PerspCenter;
+        attr = builder.createSpvSelect(inst.getLocation(), f32T, isPerspSample,
+                                       PerspSample, attr);
+        // attr = builder.createSpvSelect(inst.getLocation(), f32T,
+        // isPerspCenter,
+        //                                PerspCenter, attr);
+        attr = builder.createSpvSelect(inst.getLocation(), f32T,
+                                       isPerspCentroid, PerspCentroid, attr);
+        attr = builder.createSpvSelect(inst.getLocation(), f32T, isLinearSample,
+                                       LinearSample, attr);
+        attr = builder.createSpvSelect(inst.getLocation(), f32T, isLinearCenter,
+                                       LinearCenter, attr);
+        attr = builder.createSpvSelect(inst.getLocation(), f32T,
+                                       isLinearCentroid, LinearCentroid, attr);
+      } else {
+        attr = builder.createSpvLoad(inst.getLocation(), f32x3array, attr);
+        attr = builder.createSpvCompositeExtract(inst.getLocation(), f32T, attr,
+                                                 {{0}});
+      }
+
+      builder.createSpvStore(inst.getLocation(),
+                             inst.getOperand(1).getAsValue(), attr);
+      inst.remove();
+      continue;
+    }
+
+    if (inst == ir::amdgpu::OMOD) {
+      auto resultType = inst.getOperand(0).getAsValue();
+      auto clamp = *inst.getOperand(1).getAsBool();
+      auto omod = *inst.getOperand(2).getAsInt32();
+      auto value = inst.getOperand(3).getAsValue();
+
+      if (resultType == ir::spv::OpTypeFloat) {
+        auto resultWidth = *resultType.getOperand(0).getAsInt32();
+        auto createConstant = [&](auto value) {
+          return resultWidth == 64
+                     ? context.getOrCreateConstant(resultType,
+                                                   static_cast<double>(value))
+                     : context.getOrCreateConstant(resultType,
+                                                   static_cast<float>(value));
+        };
+
+        auto loc = inst.getLocation();
+
+        switch (omod) {
+        case 1:
+          value =
+              builder.createSpvFMul(loc, resultType, value, createConstant(2));
+          break;
+
+        case 2:
+          value =
+              builder.createSpvFMul(loc, resultType, value, createConstant(4));
+          break;
+
+        case 3:
+          value =
+              builder.createSpvFDiv(loc, resultType, value, createConstant(2));
+          break;
+        }
+
+        if (clamp) {
+          auto c0 = createConstant(0);
+          auto c1 = createConstant(1);
+          auto boolT = context.getTypeBool();
+
+          value = builder.createSpvSelect(
+              loc, resultType,
+              builder.createSpvFOrdLessThan(loc, boolT, value, c0), c0, value);
+
+          value = builder.createSpvSelect(
+              loc, resultType,
+              builder.createSpvFOrdGreaterThan(loc, boolT, value, c1), c1,
+              value);
+        }
+
+        inst.staticCast<ir::Value>().replaceAllUsesWith(value);
+      }
+
+      inst.remove();
+      continue;
+    }
+
+    if (inst == ir::amdgpu::NEG_ABS) {
+      auto resultType = inst.getOperand(0).getAsValue();
+      auto neg = *inst.getOperand(1).getAsBool();
+      auto abs = *inst.getOperand(2).getAsBool();
+      auto value = inst.getOperand(3).getAsValue();
+
+      while (true) {
+        auto valueType = value.getOperand(0).getAsValue();
+        if (valueType == ir::spv::OpTypeFloat) {
+          break;
+        }
+
+        if (value == ir::spv::OpBitcast) {
+          value = value.getOperand(1).getAsValue();
+          continue;
+        }
+
+        break;
+      }
+
+      auto loc = inst.getLocation();
+      auto valueType = value.getOperand(0).getAsValue();
+
+      if (valueType == ir::spv::OpTypeFloat) {
+        auto width = *valueType.getOperand(0).getAsInt32();
+        if (abs) {
+          auto boolT = context.getTypeBool();
+          auto c0 = width == 64 ? context.fimm64(0.0) : context.fimm32(0.0f);
+          value = builder.createSpvSelect(
+              loc, valueType,
+              builder.createSpvFOrdLessThan(loc, boolT, value, c0),
+              builder.createSpvFNegate(loc, valueType, value), value);
+        }
+
+        if (neg) {
+          value = builder.createSpvFNegate(loc, valueType, value);
+        }
+
+        if (valueType != resultType) {
+          value = builder.createSpvBitcast(loc, resultType, value);
+        }
+
+        inst.staticCast<ir::Value>().replaceAllUsesWith(value);
+      }
+
+      inst.remove();
+      continue;
+    }
+
+    auto function = semanticModuleInfo.findSemanticOf(inst.getInstId());
+
+    if (function == nullptr) {
+      continue;
+    }
+
+    function = ir::clone(function, context, importer);
+
+    auto spvFnCall = builder.createSpvFunctionCall(
+        inst.getLocation(), inst.getOperand(0).getAsValue(), function);
+
+    for (auto arg : inst.getOperands().subspan(1)) {
+      spvFnCall.addOperand(arg);
+    }
+
+    if (auto val = inst.cast<ir::Value>()) {
+      val.replaceAllUsesWith(spvFnCall);
+    }
+
+    inst.remove();
+  }
+
+  if (!toAnalyze.empty()) {
+    auto &cfg = context.analysis.get<CFG>([&] { return buildCFG(body.getFirst()); });
+
+    ModuleInfo moduleInfo;
+    collectModuleInfo(moduleInfo, context.layout);
+    auto memorySSA = buildMemorySSA(cfg, &moduleInfo);
+    spv::Import resourceImporter;
+
+    memorySSA.print(std::cerr, body, context.ns);
+
+    ResourcesBuilder resourcesBuilder;
+    std::map<ir::Value, std::int32_t> resourceConfigSlots;
+    resourcesBuilder.ns = &context.ns;
+    for (auto inst : toAnalyze) {
+      std::uint32_t configSlot = -1;
+      int resourceSlot =
+          resourcesBuilder.importResource(memorySSA, resourceImporter, inst);
+      if (resourceSlot >= 0) {
+        configSlot = info.create(gcn::ConfigType::ResourceSlot, resourceSlot);
+      }
+
+      resourceConfigSlots[inst] = configSlot;
+    }
+
+    for (auto [inst, slot] : resourceConfigSlots) {
+      auto builder = gcn::Builder::createInsertBefore(context, inst);
+      if (slot >= 0) {
+        auto value = converter.createReadConfig(stage, builder, slot);
+        value = builder.createSpvBitcast(inst.getLocation(),
+                                         context.getTypeSInt32(), value);
+        inst.replaceAllUsesWith(value);
+      } else {
+        inst.replaceAllUsesWith(context.simm32(-1));
+      }
+      inst.remove();
+    }
+
+    info.resources = std::move(resourcesBuilder.resources);
+  }
+
+  for (auto inst : body.children()) {
+    if (inst.getKind() == ir::Kind::Spv) {
+      continue;
+    }
+
+    auto builder = gcn::Builder::createInsertBefore(context, inst);
+
+    if (inst == ir::amdgpu::IMM) {
+      auto type = inst.getOperand(0).getAsValue();
+      std::uint64_t address = *inst.getOperand(1).getAsInt64();
+      std::uint32_t slot = info.create(gcn::ConfigType::Imm, address);
+
+      auto materialized = converter.createReadConfig(stage, builder, slot);
+      if (type != materialized.getOperand(0)) {
+        materialized =
+            builder.createSpvBitcast(inst.getLocation(), type, materialized);
+      }
+      inst.staticCast<ir::Value>().replaceAllUsesWith(materialized);
+      inst.remove();
+      continue;
+    }
+
+    if (inst == ir::amdgpu::USER_SGPR) {
+      auto type = inst.getOperand(0).getAsValue();
+      std::uint32_t index = *inst.getOperand(1).getAsInt32();
+      std::uint32_t slot = info.create(gcn::ConfigType::UserSgpr, index);
+      auto materialized = converter.createReadConfig(stage, builder, slot);
+      if (type != materialized.getOperand(0)) {
+        materialized =
+            builder.createSpvBitcast(inst.getLocation(), type, materialized);
+      }
+      inst.staticCast<ir::Value>().replaceAllUsesWith(materialized);
+      inst.remove();
+      continue;
+    }
+
+    auto function = semanticModuleInfo.findSemanticOf(inst.getInstId());
+
+    if (function == nullptr) {
+      inst.print(std::cerr, context.ns);
+      std::cerr << "\n";
+      rx::die("unimplemented semantic");
+    }
+
+    function = ir::clone(function, context, importer);
+
+    auto spvFnCall = builder.createSpvFunctionCall(
+        inst.getLocation(), inst.getOperand(0).getAsValue(), function);
+
+    for (auto arg : inst.getOperands().subspan(1)) {
+      spvFnCall.addOperand(arg);
+    }
+
+    if (auto val = inst.cast<ir::Value>()) {
+      val.replaceAllUsesWith(spvFnCall);
+    }
+
+    inst.remove();
+  }
+}
+
+static void createEntryPoint(gcn::Context &context, gcn::Stage stage,
+                             ir::Region &&body) {
+  auto executionModel = ir::spv::ExecutionModel::GLCompute;
+
+  switch (stage) {
+  case gcn::Stage::Ps:
+    executionModel = ir::spv::ExecutionModel::Fragment;
+    break;
+  case gcn::Stage::Gs:
+    executionModel = ir::spv::ExecutionModel::Geometry;
+    break;
+  case gcn::Stage::DsVs:
+  case gcn::Stage::VsVs:
+  case gcn::Stage::GsVs:
+    executionModel = ir::spv::ExecutionModel::Vertex;
+    break;
+
+  case gcn::Stage::VsEs:
+  case gcn::Stage::DsEs:
+  case gcn::Stage::VsLs:
+    executionModel = ir::spv::ExecutionModel::TessellationEvaluation;
+    break;
+
+  case gcn::Stage::Hs:
+    executionModel = ir::spv::ExecutionModel::TessellationControl;
+    break;
+
+  case gcn::Stage::Cs:
+    executionModel = ir::spv::ExecutionModel::GLCompute;
+    break;
+  case gcn::Stage::Invalid:
+    rx::die("invalid shader stage");
+  }
+
+  std::vector<ir::spv::IdRef> interfaceList;
+
+  for (auto global :
+       context.layout.getOrCreateGlobals(context).children<ir::Value>()) {
+    if (global == ir::spv::OpVariable) {
+      interfaceList.push_back(global);
+    }
+  }
+
+  auto mainLoc = context.getUnknownLocation();
+  auto prologueBlock = context.createRegionWithLabel(mainLoc);
+  auto prologue = gcn::Builder::createInsertBefore(context, prologueBlock);
+  auto mainReturnT = context.getTypeVoid();
+  auto mainFnT = context.getTypeFunction(context.getTypeVoid(), {});
+
+  auto mainFn = prologue.createSpvFunction(
+      mainLoc, mainReturnT, ir::spv::FunctionControl::None, mainFnT);
+
+  gcn::Builder::createAppend(context, context.localVariables)
+      .createSpvBranch(context.getUnknownLocation(), context.entryPoint);
+
+  prologueBlock.getParent().appendRegion(context.localVariables);
+
+  auto epilogue = gcn::Builder::createAppend(context, context.epilogue);
+  epilogue.createSpvReturn(mainLoc);
+  epilogue.createSpvFunctionEnd(mainLoc);
+
+  auto functions = context.layout.getOrCreateFunctions(context);
+  functions.appendRegion(prologueBlock.getParent());
+
+  for (auto cfg = buildCFG(body.getFirst()); auto bb : cfg.getPreorderNodes()) {
+    for (auto child : bb->range()) {
+      child.erase();
+      functions.addChild(child);
+    }
+  }
+
+  functions.appendRegion(context.epilogue);
+
+  auto entryPoints = gcn::Builder::createAppend(
+      context, context.layout.getOrCreateEntryPoints(context));
+
+  if (executionModel == ir::spv::ExecutionModel::Fragment) {
+    auto executionModes = gcn::Builder::createAppend(
+        context, context.layout.getOrCreateExecutionModes(context));
+
+    executionModes.createSpvExecutionMode(
+        mainFn.getLocation(), mainFn,
+        ir::spv::ExecutionMode::OriginUpperLeft());
+  }
+  entryPoints.createSpvEntryPoint(mainFn.getLocation(), executionModel, mainFn,
+                                  "main", interfaceList);
+}
+
+static void createInitialValues(GcnConverter &converter,
+                                const gcn::Environment &env, gcn::Stage stage,
+                                gcn::ShaderInfo &info, ir::Region body) {
+  auto &context = converter.gcnContext;
+  auto builder = gcn::Builder::createInsertAfter(context, body.getFirst());
+
+  auto loc = context.getUnknownLocation();
+
+  if (stage != gcn::Stage::Cs) {
+    context.writeReg(loc, builder, gcn::RegId::Exec, 0, context.imm64(1));
+    // context.writeReg(loc, builder, gcn::RegId::ThreadId, 0,
+    // context.imm32(0));
+
+    replaceVariableWithConstant(
+        context.getOrCreateRegisterVariable(gcn::RegId::ThreadId),
+        context.imm32(0));
+  }
+
+  if (stage == gcn::Stage::VsVs || stage == gcn::Stage::GsVs ||
+      stage == gcn::Stage::DsVs) {
+    auto inputType = context.getTypePointer(ir::spv::StorageClass::Input,
+                                            context.getTypeUInt32());
+
+    auto globals = gcn::Builder::createAppend(
+        context, context.layout.getOrCreateGlobals(context));
+    auto annotations = gcn::Builder::createAppend(
+        context, context.layout.getOrCreateAnnotations(context));
+
+    auto vertexIndexVariable =
+        globals.createSpvVariable(loc, inputType, ir::spv::StorageClass::Input);
+
+    annotations.createSpvDecorate(
+        loc, vertexIndexVariable,
+        ir::spv::Decoration::BuiltIn(ir::spv::BuiltIn::VertexIndex));
+
+    auto vertexIndex = builder.createSpvLoad(loc, context.getTypeUInt32(),
+                                             vertexIndexVariable);
+
+    auto primType = converter.createReadConfig(
+        stage, builder, info.create(gcn::ConfigType::VsPrimType, 0));
+    primType = converter.createLocalVariable(builder, loc, primType);
+    vertexIndex = converter.createLocalVariable(builder, loc, vertexIndex);
+
+    vertexIndex =
+        builder.createValue(loc, ir::amdgpu::VS_GET_INDEX,
+                            {{context.getTypeUInt32(), primType, vertexIndex}});
+
+    context.writeReg(loc, builder, gcn::RegId::Vgpr, 0, vertexIndex);
+  } else if (stage == gcn::Stage::Ps) {
+    auto boolT = context.getTypeBool();
+    auto f32T = context.getTypeFloat32();
+    auto s32T = context.getTypeSInt32();
+    auto f32x3 = context.getTypeVector(f32T, 3);
+    auto f32x4 = context.getTypeVector(f32T, 4);
+
+    auto boolPT = context.getTypePointer(ir::spv::StorageClass::Input, boolT);
+    auto s32PT = context.getTypePointer(ir::spv::StorageClass::Input, s32T);
+    auto f32x3PT = context.getTypePointer(ir::spv::StorageClass::Input, f32x3);
+    auto f32x4PT = context.getTypePointer(ir::spv::StorageClass::Input, f32x4);
+
+    auto globals = gcn::Builder::createAppend(
+        context, context.layout.getOrCreateGlobals(context));
+    auto annotations = gcn::Builder::createAppend(
+        context, context.layout.getOrCreateAnnotations(context));
+    auto capabilities = gcn::Builder::createAppend(
+        context, context.layout.getOrCreateCapabilities(context));
+    auto extensions = gcn::Builder::createAppend(
+        context, context.layout.getOrCreateExtensions(context));
+
+    if (env.supportsBarycentric) {
+      capabilities.createSpvCapability(
+          loc, ir::spv::Capability::FragmentBarycentricKHR);
+      extensions.createSpvExtension(loc, "SPV_KHR_fragment_shader_barycentric");
+    }
+    capabilities.createSpvCapability(
+        loc, ir::spv::Capability::InterpolationFunction);
+    capabilities.createSpvCapability(loc,
+                                     ir::spv::Capability::SampleRateShading);
+
+    auto fragCoordVar =
+        globals.createSpvVariable(loc, f32x4PT, ir::spv::StorageClass::Input);
+    annotations.createSpvDecorate(
+        loc, fragCoordVar,
+        ir::spv::Decoration::BuiltIn(ir::spv::BuiltIn::FragCoord));
+
+    auto frontFaceVar =
+        globals.createSpvVariable(loc, boolPT, ir::spv::StorageClass::Input);
+    annotations.createSpvDecorate(
+        loc, frontFaceVar,
+        ir::spv::Decoration::BuiltIn(ir::spv::BuiltIn::FrontFacing));
+
+    auto fragCoord = builder.createSpvLoad(loc, f32x4, fragCoordVar);
+    auto frontFace = builder.createSpvLoad(loc, boolT, frontFaceVar);
+    auto indexLocal =
+        converter.createLocalVariable(builder, loc, context.simm32(0));
+
+    fragCoord = converter.createLocalVariable(builder, loc, fragCoord);
+    frontFace = converter.createLocalVariable(builder, loc, frontFace);
+
+    for (int i = 0;
+         i < std::min<int>(env.vgprCount,
+                           static_cast<int>(gcn::PsVGprInput::Count));
+         ++i) {
+      std::uint32_t slot = info.create(gcn::ConfigType::PsInputVGpr, i);
+      auto runtimeIndex = converter.createReadConfig(stage, builder, slot);
+
+      builder.createSpvStore(
+          loc, indexLocal,
+          builder.createSpvBitcast(loc, context.getTypeSInt32(), runtimeIndex));
+
+      auto vgprValue = builder.createValue(loc, ir::amdgpu::PS_INPUT_VGPR,
+                                           std::span<const ir::Operand>{{
+                                               context.getTypeFloat32(),
+                                               indexLocal,
+                                               fragCoord,
+                                               frontFace,
+                                           }});
+      context.writeReg(loc, builder, gcn::RegId::Vgpr, i, vgprValue);
+    }
+  }
+
+  context.writeReg(loc, builder, gcn::RegId::Vcc, 0, context.imm64(0));
+
+  for (int word = 0; word < 2; ++word) {
+    context.writeReg(
+        loc, builder, gcn::RegId::MemoryTable, word,
+        converter.createReadConfig(
+            stage, builder, info.create(gcn::ConfigType::MemoryTable, word)));
+  }
+
+  for (int word = 0; word < 2; ++word) {
+    context.writeReg(
+        loc, builder, gcn::RegId::Gds, word,
+        converter.createReadConfig(stage, builder,
+                                   info.create(gcn::ConfigType::Gds, word)));
+  }
+}
+
+std::optional<gcn::ConvertedShader>
+gcn::convertToSpv(Context &context, ir::Region body,
+                  const SemanticModuleInfo &semanticInfo, Stage stage,
+                  const Environment &env) {
+  gcn::ConvertedShader result;
+  GcnConverter converter{context};
+  gcn::Import importer;
+
+  createInitialValues(converter, env, stage, result.info, body);
+  instructionsToSpv(converter, importer, stage, env, semanticInfo, result.info,
+                    body);
+  createEntryPoint(context, stage, std::move(body));
+
+  for (int userSgpr = std::countr_zero(context.requiredUserSgprs);
+       userSgpr < 32;
+       userSgpr +=
+       std::countr_zero(context.requiredUserSgprs >> (userSgpr + 1)) + 1) {
+    result.info.requiredSgprs.push_back({userSgpr, env.userSgprs[userSgpr]});
+  }
+
+  auto memModel = Builder::createAppend(
+      context, context.layout.getOrCreateMemoryModels(context));
+  auto capabilities = Builder::createAppend(
+      context, context.layout.getOrCreateCapabilities(context));
+  auto extensions = gcn::Builder::createAppend(
+      context, context.layout.getOrCreateExtensions(context));
+
+  memModel.createSpvMemoryModel(
+      context.getUnknownLocation(),
+      ir::spv::AddressingModel::PhysicalStorageBuffer64,
+      ir::spv::MemoryModel::GLSL450);
+
+  for (auto cap : {
+           ir::spv::Capability::Shader,
+           ir::spv::Capability::Float16,
+           ir::spv::Capability::Float64,
+           ir::spv::Capability::Int64,
+           ir::spv::Capability::Int16,
+           ir::spv::Capability::StorageBuffer16BitAccess,
+           ir::spv::Capability::PhysicalStorageBufferAddresses,
+           ir::spv::Capability::Sampled1D,
+           ir::spv::Capability::Image1D,
+           ir::spv::Capability::RuntimeDescriptorArrayEXT,
+       }) {
+    capabilities.createSpvCapability(context.getUnknownLocation(), cap);
+  }
+
+  extensions.createSpvExtension(context.getUnknownLocation(),
+                                "SPV_EXT_descriptor_indexing");
+
+  if (env.supportsInt8) {
+    for (auto cap : {
+             ir::spv::Capability::Int8,
+             ir::spv::Capability::StorageBuffer8BitAccess,
+         }) {
+      capabilities.createSpvCapability(context.getUnknownLocation(), cap);
+    }
+
+    extensions.createSpvExtension(context.getUnknownLocation(),
+                                  "SPV_KHR_8bit_storage");
+  }
+
+  if (env.supportsInt64Atomics) {
+    capabilities.createSpvCapability(context.getUnknownLocation(),
+                                     ir::spv::Capability::Int64Atomics);
+  }
+
+  extensions.createSpvExtension(context.getUnknownLocation(),
+                                "SPV_EXT_physical_storage_buffer");
+
+  auto merged = context.layout.merge(context);
+  result.spv = spv::serialize(merged);
+  result.info.memoryMap = std::move(context.memoryMap);
+  return result;
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/GcnInstruction.cpp b/rpcsx-gpu2/lib/gcn-shader/src/GcnInstruction.cpp
new file mode 100644
index 00000000..9bd91d27
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/GcnInstruction.cpp
@@ -0,0 +1,1153 @@
+#include "GcnInstruction.hpp"
+
+#include <cstdint>
+#include <iostream>
+
+using namespace shader;
+
+static constexpr bool isVop3b(unsigned op) {
+  return op == ir::vop3::ADD_I32 || op == ir::vop3::ADDC_U32 ||
+         op == ir::vop3::SUB_I32 || op == ir::vop3::SUBB_U32 ||
+         op == ir::vop3::SUBBREV_U32 || op == ir::vop3::SUBREV_I32 ||
+         op == ir::vop3::DIV_SCALE_F32 || op == ir::vop3::DIV_SCALE_F64;
+}
+
+constexpr std::uint32_t genMask(std::uint32_t offset, std::uint32_t bitCount) {
+  return ((1u << bitCount) - 1u) << offset;
+}
+
+constexpr std::uint32_t getMaskEnd(std::uint32_t mask) {
+  return 32 - std::countl_zero(mask);
+}
+
+constexpr std::uint32_t fetchMaskedValue(std::uint32_t hex,
+                                         std::uint32_t mask) {
+  return (hex & mask) >> std::countr_zero(mask);
+}
+
+static GcnOperand createVgprGcnOperand(unsigned id) {
+  return GcnOperand::createVgpr(id);
+}
+
+static constexpr auto createSgprOperands() {
+  std::array<GcnOperand, 512> result;
+
+  for (auto &op : result) {
+    op.kind = GcnOperand::Kind::Invalid;
+  }
+
+  for (std::size_t i = 0; i < 104; ++i) {
+    result[i] = GcnOperand::createSgpr(i);
+  }
+
+  for (std::size_t i = 256; i < 512; ++i) {
+    result[i] = GcnOperand::createVgpr(i - 256);
+  }
+
+  result[106] = GcnOperand::createVccLo();
+  result[107] = GcnOperand::createVccHi();
+  result[124] = GcnOperand::createM0();
+  result[126] = GcnOperand::createExecLo();
+  result[127] = GcnOperand::createExecHi();
+
+  for (std::size_t i = 128; i < 193; ++i) {
+    result[i] = GcnOperand::createConstant(static_cast<std::uint32_t>(i - 128));
+  }
+  for (std::size_t i = 193; i < 209; ++i) {
+    result[i] = GcnOperand::createConstant(
+        static_cast<std::uint32_t>(-static_cast<std::int32_t>(i - 192)));
+  }
+
+  result[240] = GcnOperand::createConstant(0.5f);
+  result[241] = GcnOperand::createConstant(-0.5f);
+  result[242] = GcnOperand::createConstant(1.0f);
+  result[243] = GcnOperand::createConstant(-1.0f);
+  result[244] = GcnOperand::createConstant(2.0f);
+  result[245] = GcnOperand::createConstant(-2.0f);
+  result[246] = GcnOperand::createConstant(4.0f);
+  result[247] = GcnOperand::createConstant(-4.0f);
+  result[251] = GcnOperand::createVccZ();
+  result[252] = GcnOperand::createExecZ();
+  result[253] = GcnOperand::createScc();
+  result[254] = GcnOperand::createLdsDirect();
+
+  return result;
+}
+
+static GcnOperand createImmediateGcnOperand(std::uint64_t &address) {
+  auto result = GcnOperand::createImmediateConstant(address);
+  address += sizeof(std::uint32_t);
+  return result;
+}
+
+static GcnOperand createSgprGcnOperand(std::uint64_t &address, unsigned id) {
+  static constexpr auto g_operands = createSgprOperands();
+
+  if (id == 255) {
+    return createImmediateGcnOperand(address);
+  }
+
+  return g_operands[id];
+}
+
+static void
+readVop2Inst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 1;
+  constexpr auto src0Mask = genMask(0, 9);
+  constexpr auto vsrc1Mask = genMask(getMaskEnd(src0Mask), 8);
+  constexpr auto vdstMask = genMask(getMaskEnd(vsrc1Mask), 8);
+  constexpr auto opMask = genMask(getMaskEnd(vdstMask), 6);
+
+  std::uint32_t words[] = {readMemory(address)};
+  address += sizeof(std::uint32_t);
+
+  std::uint32_t src0 = fetchMaskedValue(words[0], src0Mask);
+  std::uint32_t vsrc1 = fetchMaskedValue(words[0], vsrc1Mask);
+  std::uint32_t vdst = fetchMaskedValue(words[0], vdstMask);
+  auto op = static_cast<ir::vop2::Op>(fetchMaskedValue(words[0], opMask));
+
+  inst.op = op;
+  bool writesVcc = op == ir::vop2::ADD_I32 || op == ir::vop2::ADDC_U32 ||
+                   op == ir::vop2::SUB_I32 || op == ir::vop2::SUBB_U32 ||
+                   op == ir::vop2::SUBBREV_U32 || op == ir::vop2::SUBREV_I32;
+  bool readsVcc = op == ir::vop2::ADDC_U32 || op == ir::vop2::SUBB_U32 ||
+                  op == ir::vop2::SUBBREV_U32 || op == ir::vop2::CNDMASK_B32;
+
+  inst.addOperand(createVgprGcnOperand(vdst).withW());
+  if (writesVcc) {
+    inst.addOperand(GcnOperand::createVccLo().withW());
+  }
+  inst.addOperand(createSgprGcnOperand(address, src0).withR());
+  inst.addOperand(createVgprGcnOperand(vsrc1).withR());
+
+  if (readsVcc) {
+    inst.addOperand(GcnOperand::createVccLo().withR());
+  }
+
+  if (op == ir::vop2::MADMK_F32 || op == ir::vop2::MADAK_F32) {
+    inst.addOperand(createImmediateGcnOperand(address));
+  } else if (op == ir::vop2::MAC_F32) {
+    inst.addOperand(createVgprGcnOperand(vdst).withR());
+  }
+}
+
+static void
+readSop2Inst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 1;
+  constexpr auto ssrc0Mask = genMask(0, 8);
+  constexpr auto ssrc1Mask = genMask(getMaskEnd(ssrc0Mask), 8);
+  constexpr auto sdstMask = genMask(getMaskEnd(ssrc1Mask), 7);
+  constexpr auto opMask = genMask(getMaskEnd(sdstMask), 7);
+
+  std::uint32_t words[] = {readMemory(address)};
+  address += sizeof(std::uint32_t);
+
+  std::uint32_t ssrc0 = fetchMaskedValue(words[0], ssrc0Mask);
+  std::uint32_t ssrc1 = fetchMaskedValue(words[0], ssrc1Mask);
+  auto op = static_cast<ir::sop2::Op>(fetchMaskedValue(words[0], opMask));
+  std::uint32_t sdst = fetchMaskedValue(words[0], sdstMask);
+
+  inst.op = op;
+  inst.addOperand(createSgprGcnOperand(address, sdst).withW());
+  inst.addOperand(createSgprGcnOperand(address, ssrc0).withR());
+  inst.addOperand(createSgprGcnOperand(address, ssrc1).withR());
+}
+
+static void
+readSopkInst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 1;
+  constexpr auto simmMask = genMask(0, 16);
+  constexpr auto sdstMask = genMask(getMaskEnd(simmMask), 7);
+  constexpr auto opMask = genMask(getMaskEnd(sdstMask), 5);
+
+  std::uint32_t words[] = {readMemory(address)};
+  address += sizeof(std::uint32_t);
+
+  auto simm = static_cast<std::int16_t>(fetchMaskedValue(words[0], simmMask));
+  auto op = static_cast<ir::sopk::Op>(fetchMaskedValue(words[0], opMask));
+  auto sdst = fetchMaskedValue(words[0], sdstMask);
+
+  inst.op = op;
+  inst.addOperand(createSgprGcnOperand(address, sdst).withW());
+
+  inst.addOperand(GcnOperand::createConstant(static_cast<std::uint32_t>(simm)));
+  if (op <= 16) {
+    inst.addOperand(createImmediateGcnOperand(address));
+  }
+}
+
+static void
+readSmrdInst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 1;
+  constexpr auto offsetMask = genMask(0, 8);
+  constexpr auto immMask = genMask(getMaskEnd(offsetMask), 1);
+  constexpr auto sbaseMask = genMask(getMaskEnd(immMask), 6);
+  constexpr auto sdstMask = genMask(getMaskEnd(sbaseMask), 7);
+  constexpr auto opMask = genMask(getMaskEnd(sdstMask), 5);
+
+  std::uint32_t words[] = {readMemory(address)};
+  address += sizeof(std::uint32_t);
+
+  auto offset = fetchMaskedValue(words[0], offsetMask);
+  auto imm = fetchMaskedValue(words[0], immMask);
+  auto sbase = fetchMaskedValue(words[0], sbaseMask) << 1;
+  auto sdst = fetchMaskedValue(words[0], sdstMask);
+  auto op = static_cast<ir::smrd::Op>(fetchMaskedValue(words[0], opMask));
+
+  int loadSize = 0;
+  bool isBuffer = false;
+
+  if (op >= ir::smrd::Op::LOAD_DWORD && op <= ir::smrd::Op::LOAD_DWORDX16) {
+    loadSize = sizeof(std::uint32_t) * (1 << (op - ir::smrd::Op::LOAD_DWORD));
+  } else if (op >= ir::smrd::Op::BUFFER_LOAD_DWORD &&
+             op <= ir::smrd::Op::BUFFER_LOAD_DWORDX16) {
+    loadSize =
+        sizeof(std::uint32_t) * (1 << (op - ir::smrd::Op::BUFFER_LOAD_DWORD));
+    isBuffer = true;
+  }
+
+  inst.op = op;
+  if (op != ir::smrd::DCACHE_INV) {
+    inst.addOperand(createSgprGcnOperand(address, sdst).withW());
+
+    if (op != ir::smrd::MEMTIME) {
+      auto baseOperand = createSgprGcnOperand(address, sbase);
+      auto offsetOperand =
+          imm ? GcnOperand::createConstant(std::uint32_t(std::int8_t(offset << 2)))
+              : createSgprGcnOperand(address, offset).withR();
+
+      if (isBuffer) {
+        inst.addOperand(GcnOperand::createBuffer(baseOperand).withR());
+      } else {
+        inst.addOperand(
+            GcnOperand::createPointer(baseOperand, loadSize, offsetOperand)
+                .withR());
+      }
+
+      inst.addOperand(baseOperand);
+      inst.addOperand(offsetOperand);
+    }
+  }
+}
+
+static void
+readVop3Inst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 2;
+  constexpr auto vdstMask = genMask(0, 8);
+
+  constexpr auto absMask = genMask(getMaskEnd(vdstMask), 3);
+  constexpr auto abs0Mask = genMask(getMaskEnd(vdstMask), 1);
+  constexpr auto abs1Mask = genMask(getMaskEnd(abs0Mask), 1);
+  constexpr auto abs2Mask = genMask(getMaskEnd(abs1Mask), 1);
+  constexpr auto clmpMask = genMask(getMaskEnd(absMask), 1);
+
+  constexpr auto sdstMask = genMask(getMaskEnd(vdstMask), 7);
+
+  constexpr auto opMask = genMask(getMaskEnd(clmpMask) + 5, 9);
+
+  constexpr auto src0Mask = genMask(0, 9);
+  constexpr auto src1Mask = genMask(getMaskEnd(src0Mask), 9);
+  constexpr auto src2Mask = genMask(getMaskEnd(src1Mask), 9);
+  constexpr auto omodMask = genMask(getMaskEnd(src2Mask), 2);
+  constexpr auto negMask = genMask(getMaskEnd(omodMask), 3);
+  constexpr auto neg0Mask = genMask(getMaskEnd(omodMask), 1);
+  constexpr auto neg1Mask = genMask(getMaskEnd(neg0Mask), 1);
+  constexpr auto neg2Mask = genMask(getMaskEnd(neg1Mask), 1);
+
+  std::uint32_t words[2];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+  words[1] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto op = static_cast<ir::vop3::Op>(fetchMaskedValue(words[0], opMask));
+  auto vdst = fetchMaskedValue(words[0], vdstMask);
+  auto abs = fetchMaskedValue(words[0], absMask);
+  auto clmp = fetchMaskedValue(words[0], clmpMask) != 0;
+  auto sdst = fetchMaskedValue(words[0], sdstMask);
+
+  auto src0 = fetchMaskedValue(words[1], src0Mask);
+  auto src1 = fetchMaskedValue(words[1], src1Mask);
+  auto src2 = fetchMaskedValue(words[1], src2Mask);
+  auto omod = fetchMaskedValue(words[1], omodMask);
+  auto neg = fetchMaskedValue(words[1], negMask);
+
+  if (op == ir::vop3::Op::MUL_HI_U32) {
+    std::printf(".");
+  }
+
+  inst.op = op;
+  bool vop3b = isVop3b(op);
+
+  if (!vop3b) {
+    abs = 0;
+    clmp = false;
+  }
+
+  if (op >= 0 && op < ir::vopc::OpCount + 0) {
+    inst.addOperand(createSgprGcnOperand(address, vdst)
+                        .withRW()
+                        .withOutputModifier(omod)
+                        .withClamp(clmp));
+  } else {
+    inst.addOperand(
+        createVgprGcnOperand(vdst).withRW().withOutputModifier(omod).withClamp(
+            clmp));
+  }
+
+  if (vop3b) {
+    inst.addOperand(createSgprGcnOperand(address, sdst).withRW());
+  }
+
+  bool writesVcc = op == ir::vop3::MAD_I64_I32 || op == ir::vop3::MAD_U64_U32 ||
+                   op == ir::vop3::MQSAD_U32_U8 ||
+                   op == ir::vop3::DIV_SCALE_F32 ||
+                   op == ir::vop3::DIV_SCALE_F64;
+  bool readsVcc = op == ir::vop3::DIV_FMAS_F32 || op == ir::vop3::DIV_FMAS_F64;
+
+  bool usesSrc2 = op >= ir::vop3::MAD_LEGACY_F32 && op <= ir::vop3::DIV_FIXUP_F64;
+
+  if (writesVcc) {
+    inst.addOperand(GcnOperand::createVccLo().withRW());
+  }
+
+  inst.addOperand(createSgprGcnOperand(address, src0)
+                      .withR()
+                      .withAbs((abs & 1) != 0)
+                      .withNeg((neg & 1) != 0));
+
+  if (op >= 0 && op < ir::vopc::OpCount + 0) {
+    // vopc
+    inst.addOperand(createSgprGcnOperand(address, src1)
+                        .withR()
+                        .withAbs(((abs >> 1) & 1) != 0)
+                        .withNeg(((neg >> 1) & 1) != 0));
+
+  } else if (op >= 256 && op < ir::vop2::OpCount + 256) {
+    // vop2
+    inst.addOperand(createSgprGcnOperand(address, src1)
+                        .withR()
+                        .withAbs(((abs >> 1) & 1) != 0)
+                        .withNeg(((neg >> 1) & 1) != 0));
+
+    if (op == ir::vop3::ADDC_U32 || op == ir::vop3::SUBB_U32 ||
+        op == ir::vop3::SUBBREV_U32 || op == ir::vop3::CNDMASK_B32) {
+      inst.addOperand(createSgprGcnOperand(address, src2)
+                          .withR()
+                          .withAbs(((abs >> 2) & 1) != 0)
+                          .withNeg(((neg >> 2) & 1) != 0));
+    } else if (op == ir::vop3::MADMK_F32 || op == ir::vop3::MADAK_F32) {
+      inst.addOperand(createImmediateGcnOperand(address));
+    } else if (op == ir::vop3::MAC_F32) {
+      inst.addOperand(createSgprGcnOperand(address, vdst).withRW());
+    }
+  } else if (op >= 384 && op < ir::vop1::OpCount + 384) {
+    // vop1
+  } else {
+    inst.addOperand(createSgprGcnOperand(address, src1)
+                        .withR()
+                        .withAbs(((abs >> 1) & 1) != 0)
+                        .withNeg(((neg >> 1) & 1) != 0));
+
+    if (usesSrc2) {
+      inst.addOperand(createSgprGcnOperand(address, src2)
+                          .withR()
+                          .withAbs(((abs >> 2) & 1) != 0)
+                          .withNeg(((neg >> 2) & 1) != 0));
+    }
+  }
+
+  if (readsVcc) {
+    inst.addOperand(GcnOperand::createVccLo().withR());
+  }
+}
+
+static void
+readMubufInst(GcnInstruction &inst, std::uint64_t &address,
+              const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 2;
+  constexpr auto offsetMask = genMask(0, 12);
+  constexpr auto offenMask = genMask(getMaskEnd(offsetMask), 1);
+  constexpr auto idxenMask = genMask(getMaskEnd(offenMask), 1);
+  constexpr auto glcMask = genMask(getMaskEnd(idxenMask), 1);
+  constexpr auto ldsMask = genMask(getMaskEnd(glcMask) + 1, 1);
+  constexpr auto opMask = genMask(getMaskEnd(ldsMask) + 1, 7);
+
+  constexpr auto vaddrMask = genMask(0, 8);
+  constexpr auto vdataMask = genMask(getMaskEnd(vaddrMask), 8);
+  constexpr auto srsrcMask = genMask(getMaskEnd(vdataMask), 5);
+  constexpr auto slcMask = genMask(getMaskEnd(srsrcMask) + 1, 1);
+  constexpr auto tfeMask = genMask(getMaskEnd(slcMask), 1);
+  constexpr auto soffsetMask = genMask(getMaskEnd(tfeMask), 8);
+
+  std::uint32_t words[2];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+  words[1] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto offset = fetchMaskedValue(words[0], offsetMask);
+  auto offen = fetchMaskedValue(words[0], offenMask) != 0;
+  auto idxen = fetchMaskedValue(words[0], idxenMask) != 0;
+  auto glc = fetchMaskedValue(words[0], glcMask) != 0;
+  auto lds = fetchMaskedValue(words[0], ldsMask) != 0;
+  auto op = static_cast<ir::mubuf::Op>(fetchMaskedValue(words[0], opMask));
+
+  auto vaddr = fetchMaskedValue(words[1], vaddrMask);
+  auto vdata = fetchMaskedValue(words[1], vdataMask);
+  auto srsrc = fetchMaskedValue(words[1], srsrcMask) << 2;
+  bool slc = fetchMaskedValue(words[1], slcMask) != 0;
+  bool tfe = fetchMaskedValue(words[1], tfeMask) != 0;
+  auto soffset = fetchMaskedValue(words[1], soffsetMask);
+
+  bool isLoadOp =
+      op == ir::mubuf::LOAD_FORMAT_X || op == ir::mubuf::LOAD_FORMAT_XY ||
+      op == ir::mubuf::LOAD_FORMAT_XYZ || op == ir::mubuf::LOAD_FORMAT_XYZW ||
+      op == ir::mubuf::LOAD_UBYTE || op == ir::mubuf::LOAD_SBYTE ||
+      op == ir::mubuf::LOAD_USHORT || op == ir::mubuf::LOAD_SSHORT ||
+      op == ir::mubuf::LOAD_DWORD || op == ir::mubuf::LOAD_DWORDX2 ||
+      op == ir::mubuf::LOAD_DWORDX4 || op == ir::mubuf::LOAD_DWORDX3;
+
+  bool supportsLds =
+      op == ir::mubuf::LOAD_FORMAT_X || op == ir::mubuf::LOAD_SBYTE ||
+      op == ir::mubuf::LOAD_UBYTE || op == ir::mubuf::LOAD_USHORT ||
+      op == ir::mubuf::LOAD_SSHORT || op == ir::mubuf::LOAD_DWORD;
+
+  std::uint8_t dataAccess = 0;
+  std::uint8_t bufferAccess = 0;
+  if (!supportsLds || !lds) {
+    if (isLoadOp) {
+      dataAccess |= GcnOperand::W;
+    } else {
+      dataAccess |= GcnOperand::R;
+    }
+  }
+
+  if (isLoadOp) {
+    bufferAccess = GcnOperand::R;
+  } else if ((op >= ir::mubuf::STORE_FORMAT_X &&
+              op <= ir::mubuf::STORE_FORMAT_XYZW) ||
+             (op >= ir::mubuf::STORE_BYTE && op <= ir::mubuf::STORE_DWORDX3)) {
+    bufferAccess = GcnOperand::W;
+  } else {
+    bufferAccess = GcnOperand::R | GcnOperand::W;
+  }
+
+  inst.op = op;
+  inst.addOperand(createVgprGcnOperand(vdata).withAccess(dataAccess));
+
+  if (offen) {
+    inst.addOperand(createVgprGcnOperand(vaddr + (idxen ? 1 : 0)).withR());
+  } else {
+    inst.addOperand(GcnOperand::createConstant(0u));
+  }
+
+  if (idxen) {
+    inst.addOperand(createVgprGcnOperand(vaddr).withR());
+  } else {
+    inst.addOperand(GcnOperand::createConstant(0u));
+  }
+
+  auto srsrcOperand = createSgprGcnOperand(address, srsrc).withR();
+  inst.addOperand(
+      GcnOperand::createBuffer(srsrcOperand).withAccess(bufferAccess));
+  inst.addOperand(srsrcOperand);
+  inst.addOperand(createSgprGcnOperand(address, soffset).withR());
+
+  inst.addOperand(GcnOperand::createConstant(offset));
+  inst.addOperand(GcnOperand::createConstant(idxen));
+  inst.addOperand(GcnOperand::createConstant(glc));
+  inst.addOperand(GcnOperand::createConstant(lds));
+  inst.addOperand(GcnOperand::createConstant(slc));
+  inst.addOperand(GcnOperand::createConstant(tfe));
+}
+static void
+readMtbufInst(GcnInstruction &inst, std::uint64_t &address,
+              const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 2;
+
+  constexpr auto offsetMask = genMask(0, 12);
+  constexpr auto offenMask = genMask(getMaskEnd(offsetMask), 1);
+  constexpr auto idxenMask = genMask(getMaskEnd(offenMask), 1);
+  constexpr auto glcMask = genMask(getMaskEnd(idxenMask), 1);
+  constexpr auto opMask = genMask(getMaskEnd(glcMask) + 1, 3);
+  constexpr auto dfmtMask = genMask(getMaskEnd(opMask), 4);
+  constexpr auto nfmtMask = genMask(getMaskEnd(dfmtMask), 4);
+
+  constexpr auto vaddrMask = genMask(0, 8);
+  constexpr auto vdataMask = genMask(getMaskEnd(vaddrMask), 8);
+  constexpr auto srsrcMask = genMask(getMaskEnd(vdataMask), 5);
+  constexpr auto slcMask = genMask(getMaskEnd(srsrcMask) + 1, 1);
+  constexpr auto tfeMask = genMask(getMaskEnd(slcMask), 1);
+  constexpr auto soffsetMask = genMask(getMaskEnd(tfeMask), 8);
+
+  std::uint32_t words[2];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+  words[1] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto op = static_cast<ir::mtbuf::Op>(fetchMaskedValue(words[0], opMask));
+
+  auto offset = fetchMaskedValue(words[0], offsetMask);
+  auto offen = fetchMaskedValue(words[0], offenMask) != 0;
+  auto idxen = fetchMaskedValue(words[0], idxenMask) != 0;
+  auto glc = fetchMaskedValue(words[0], glcMask) != 0;
+  auto dfmt = fetchMaskedValue(words[0], dfmtMask);
+  auto nfmt = fetchMaskedValue(words[0], nfmtMask);
+
+  auto vaddr = fetchMaskedValue(words[1], vaddrMask);
+  auto vdata = fetchMaskedValue(words[1], vdataMask);
+  auto srsrc = fetchMaskedValue(words[1], srsrcMask) << 2;
+  auto slc = fetchMaskedValue(words[1], slcMask) != 0;
+  auto tfe = fetchMaskedValue(words[1], tfeMask) != 0;
+  auto soffset = fetchMaskedValue(words[1], soffsetMask);
+
+  inst.op = op;
+
+  bool isLoadOp =
+      op == ir::mtbuf::LOAD_FORMAT_X || op == ir::mtbuf::LOAD_FORMAT_XY ||
+      op == ir::mtbuf::LOAD_FORMAT_XYZ || op == ir::mtbuf::LOAD_FORMAT_XYZW;
+
+  std::uint8_t dataAccess = 0;
+  std::uint8_t bufferAccess = 0;
+  if (isLoadOp) {
+    dataAccess = GcnOperand::W;
+    bufferAccess = GcnOperand::R;
+  } else {
+    dataAccess = GcnOperand::R;
+    bufferAccess = GcnOperand::W;
+  }
+
+  inst.op = op;
+  inst.addOperand(createVgprGcnOperand(vdata).withAccess(dataAccess));
+
+  if (idxen) {
+    inst.addOperand(createVgprGcnOperand(vaddr).withR());
+  } else {
+    inst.addOperand(GcnOperand::createConstant(0u));
+  }
+
+  if (offen) {
+    inst.addOperand(createVgprGcnOperand(vaddr + (idxen ? 1 : 0)).withR());
+  } else {
+    inst.addOperand(GcnOperand::createConstant(0u));
+  }
+
+  inst.addOperand(GcnOperand::createConstant(dfmt));
+  inst.addOperand(GcnOperand::createConstant(nfmt));
+
+  auto srsrcOperand = createSgprGcnOperand(address, srsrc).withR();
+  inst.addOperand(
+      GcnOperand::createBuffer(srsrcOperand).withAccess(bufferAccess));
+  inst.addOperand(srsrcOperand);
+  inst.addOperand(createSgprGcnOperand(address, soffset).withR());
+
+  inst.addOperand(GcnOperand::createConstant(offset));
+  inst.addOperand(GcnOperand::createConstant(idxen));
+  inst.addOperand(GcnOperand::createConstant(glc));
+  inst.addOperand(GcnOperand::createConstant(slc));
+  inst.addOperand(GcnOperand::createConstant(tfe));
+}
+
+static void
+readMimgInst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 2;
+
+  constexpr auto dmaskMask = genMask(8, 4);
+  constexpr auto unrmMask = genMask(getMaskEnd(dmaskMask), 1);
+  constexpr auto glcMask = genMask(getMaskEnd(unrmMask), 1);
+  constexpr auto daMask = genMask(getMaskEnd(glcMask), 1);
+  constexpr auto r128Mask = genMask(getMaskEnd(daMask), 1);
+  constexpr auto tfeMask = genMask(getMaskEnd(r128Mask), 1);
+  constexpr auto lweMask = genMask(getMaskEnd(tfeMask), 1);
+  constexpr auto opMask = genMask(getMaskEnd(lweMask), 7);
+  constexpr auto slcMask = genMask(getMaskEnd(opMask), 1);
+
+  constexpr auto vaddrMask = genMask(0, 8);
+  constexpr auto vdataMask = genMask(getMaskEnd(vaddrMask), 8);
+  constexpr auto srsrcMask = genMask(getMaskEnd(vdataMask), 5);
+  constexpr auto ssampMask = genMask(getMaskEnd(srsrcMask), 5);
+
+  std::uint32_t words[2];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+  words[1] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto op = static_cast<ir::mimg::Op>(fetchMaskedValue(words[0], opMask));
+
+  auto dmask = fetchMaskedValue(words[0], dmaskMask);
+  auto unrm = fetchMaskedValue(words[0], unrmMask) != 0;
+  auto glc = fetchMaskedValue(words[0], glcMask) != 0;
+  auto da = fetchMaskedValue(words[0], daMask) != 0;
+  auto r128 = fetchMaskedValue(words[0], r128Mask) != 0;
+  auto tfe = fetchMaskedValue(words[0], tfeMask) != 0;
+  auto lwe = fetchMaskedValue(words[0], lweMask) != 0;
+  auto slc = fetchMaskedValue(words[0], slcMask) != 0;
+
+  auto vaddr = fetchMaskedValue(words[1], vaddrMask);
+  auto vdata = fetchMaskedValue(words[1], vdataMask);
+  auto srsrc = fetchMaskedValue(words[1], srsrcMask) << 2;
+  auto ssamp = fetchMaskedValue(words[1], ssampMask) << 2;
+
+  std::uint8_t textureAccess = 0;
+  bool hasSampler = true;
+
+  if (op >= ir::mimg::Op::LOAD && op <= ir::mimg::Op::LOAD_MIP_PCK_SGN) {
+    textureAccess = GcnOperand::R;
+  } else if (op >= ir::mimg::Op::STORE && op <= ir::mimg::Op::STORE_MIP_PCK) {
+    textureAccess = GcnOperand::W;
+  } else if (op >= ir::mimg::Op::ATOMIC_SWAP &&
+             op <= ir::mimg::Op::ATOMIC_FMAX) {
+    textureAccess = GcnOperand::R | GcnOperand::W;
+    hasSampler = false;
+  } else if (op >= ir::mimg::Op::SAMPLE && op <= ir::mimg::Op::GATHER4_C_LZ_O) {
+    textureAccess = GcnOperand::R;
+  } else if (op >= ir::mimg::Op::SAMPLE_CD &&
+             op <= ir::mimg::Op::SAMPLE_C_CD_CL_O) {
+    textureAccess = GcnOperand::R;
+  } else if (op == ir::mimg::Op::GET_RESINFO) {
+    hasSampler = false;
+  }
+
+  inst.op = op;
+  inst.addOperand(createVgprGcnOperand(vdata).withRW());
+  inst.addOperand(createVgprGcnOperand(vaddr).withR());
+  auto tbufferStart = createSgprGcnOperand(address, srsrc);
+  inst.addOperand(
+      GcnOperand::createTexture(tbufferStart, r128).withAccess(textureAccess));
+  inst.addOperand(tbufferStart);
+
+  if (hasSampler) {
+    auto samplerStart = createSgprGcnOperand(address, ssamp);
+    inst.addOperand(GcnOperand::createSampler(samplerStart, unrm).withR());
+    inst.addOperand(samplerStart);
+  }
+
+  inst.addOperand(GcnOperand::createConstant(dmask));
+  // inst.addOperand(GcnOperand::createConstant(glc));
+  // inst.addOperand(GcnOperand::createConstant(da));
+  // inst.addOperand(GcnOperand::createConstant(r128));
+  // inst.addOperand(GcnOperand::createConstant(tfe));
+  // inst.addOperand(GcnOperand::createConstant(lwe));
+  // inst.addOperand(GcnOperand::createConstant(slc));
+}
+static void
+readDsInst(GcnInstruction &inst, std::uint64_t &address,
+           const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 2;
+  constexpr auto offset0Mask = genMask(0, 8);
+  constexpr auto offset1Mask = genMask(getMaskEnd(offset0Mask), 8);
+  constexpr auto gdsMask = genMask(getMaskEnd(offset1Mask) + 1, 1);
+  constexpr auto opMask = genMask(getMaskEnd(gdsMask), 8);
+
+  constexpr auto addrMask = genMask(0, 8);
+  constexpr auto data0Mask = genMask(getMaskEnd(addrMask), 8);
+  constexpr auto data1Mask = genMask(getMaskEnd(data0Mask), 8);
+  constexpr auto vdstMask = genMask(getMaskEnd(data1Mask), 8);
+
+  std::uint32_t words[2];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+  words[1] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto op = static_cast<ir::ds::Op>(fetchMaskedValue(words[0], opMask));
+  auto offset0 = fetchMaskedValue(words[0], offset0Mask);
+  auto offset1 = fetchMaskedValue(words[0], offset1Mask);
+  auto gds = fetchMaskedValue(words[0], gdsMask) != 0;
+
+  auto addr = fetchMaskedValue(words[1], addrMask);
+  auto data0 = fetchMaskedValue(words[1], data0Mask);
+  auto data1 = fetchMaskedValue(words[1], data1Mask);
+  auto vdst = fetchMaskedValue(words[1], vdstMask);
+
+  bool hasOffset1 =
+      op == ir::ds::READ2_B32 || op == ir::ds::READ2_B64 ||
+      op == ir::ds::READ2ST64_B32 || op == ir::ds::READ2ST64_B64 ||
+      op == ir::ds::WRITE2_B32 || op == ir::ds::WRITE2_B64 ||
+      op == ir::ds::WRITE2ST64_B32 || op == ir::ds::WRITE2ST64_B64 ||
+      op == ir::ds::WRXCHG2ST64_RTN_B32 || op == ir::ds::WRXCHG2ST64_RTN_B64 ||
+      op == ir::ds::WRXCHG2_RTN_B32 || op == ir::ds::WRXCHG2_RTN_B64 ||
+      op == ir::ds::ORDERED_COUNT;
+
+  bool hasDst = op == ir::ds::READ_B32 || op == ir::ds::READ2_B32 ||
+                op == ir::ds::READ2ST64_B32 || op == ir::ds::READ_I8 ||
+                op == ir::ds::READ_U8 || op == ir::ds::READ_I16 ||
+                op == ir::ds::READ_U16 || op == ir::ds::READ_B64 ||
+                op == ir::ds::READ2_B64 || op == ir::ds::READ2ST64_B64 ||
+                op == ir::ds::READ_B96 || op == ir::ds::READ_B128 ||
+                op == ir::ds::AND_RTN_B64 || op == ir::ds::OR_RTN_B64 ||
+                op == ir::ds::XOR_RTN_B64 || op == ir::ds::MSKOR_RTN_B64 ||
+                op == ir::ds::APPEND || op == ir::ds::CONSUME ||
+                op == ir::ds::SWIZZLE_B32 || op == ir::ds::ORDERED_COUNT;
+
+  bool hasLoOffset = op == ir::ds::GWS_BARRIER || op == ir::ds::GWS_INIT ||
+                     op == ir::ds::GWS_SEMA_BR || op == ir::ds::GWS_SEMA_P ||
+                     op == ir::ds::GWS_SEMA_RELEASE_ALL;
+
+  inst.op = op;
+
+  if (op != ir::ds::NOP) {
+    if (hasDst) {
+      inst.addOperand(createVgprGcnOperand(vdst).withW());
+    }
+    inst.addOperand(createVgprGcnOperand(addr).withR());
+    inst.addOperand(createVgprGcnOperand(data0).withRW());
+    inst.addOperand(createVgprGcnOperand(data1).withRW());
+
+    if (hasOffset1) {
+      inst.addOperand(GcnOperand::createConstant(offset0));
+      inst.addOperand(GcnOperand::createConstant(offset1));
+    } else if (hasLoOffset) {
+      inst.addOperand(GcnOperand::createConstant(offset0));
+    } else {
+      inst.addOperand(GcnOperand::createConstant(offset0 | (offset1 << 8)));
+    }
+  }
+  inst.addOperand(GcnOperand::createConstant(gds));
+}
+static void
+readVintrpInst(GcnInstruction &inst, std::uint64_t &address,
+               const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 1;
+  constexpr auto vsrcMask = genMask(0, 8);
+  constexpr auto attrChanMask = genMask(getMaskEnd(vsrcMask), 2);
+  constexpr auto attrMask = genMask(getMaskEnd(attrChanMask), 6);
+  constexpr auto opMask = genMask(getMaskEnd(attrMask), 2);
+  constexpr auto vdstMask = genMask(getMaskEnd(opMask), 8);
+
+  std::uint32_t words[1];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto op = static_cast<ir::vintrp::Op>(fetchMaskedValue(words[0], opMask));
+  auto vsrc = fetchMaskedValue(words[0], vsrcMask);
+  auto attrChan = fetchMaskedValue(words[0], attrChanMask);
+  auto attr = fetchMaskedValue(words[0], attrMask);
+  auto vdst = fetchMaskedValue(words[0], vdstMask);
+
+  inst.op = op;
+  std::uint8_t vdstAccess = GcnOperand::W;
+  if (op == ir::vintrp::Op::P2_F32) {
+    vdstAccess |= GcnOperand::R;
+  }
+
+  inst.addOperand(createVgprGcnOperand(vdst).withAccess(vdstAccess));
+  inst.addOperand(createVgprGcnOperand(vsrc).withR());
+  inst.addOperand(GcnOperand::createAttr(attr, attrChan));
+}
+static void
+readExpInst(GcnInstruction &inst, std::uint64_t &address,
+            const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 2;
+
+  constexpr auto enMask = genMask(0, 4);
+  constexpr auto targetMask = genMask(getMaskEnd(enMask), 6);
+  constexpr auto comprMask = genMask(getMaskEnd(targetMask), 1);
+  constexpr auto doneMask = genMask(getMaskEnd(comprMask), 1);
+  constexpr auto vmMask = genMask(getMaskEnd(doneMask), 1);
+
+  constexpr auto vsrc0Mask = genMask(0, 8);
+  constexpr auto vsrc1Mask = genMask(getMaskEnd(vsrc0Mask), 8);
+  constexpr auto vsrc2Mask = genMask(getMaskEnd(vsrc1Mask), 8);
+  constexpr auto vsrc3Mask = genMask(getMaskEnd(vsrc2Mask), 8);
+
+  std::uint32_t words[2];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+  words[1] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto en = fetchMaskedValue(words[0], enMask);
+  auto target = fetchMaskedValue(words[0], targetMask);
+  auto compr = fetchMaskedValue(words[0], comprMask) != 0;
+  auto done = fetchMaskedValue(words[0], doneMask) != 0;
+  auto vm = fetchMaskedValue(words[0], vmMask) != 0;
+  auto vsrc0 = fetchMaskedValue(words[1], vsrc0Mask);
+  auto vsrc1 = fetchMaskedValue(words[1], vsrc1Mask);
+  auto vsrc2 = fetchMaskedValue(words[1], vsrc2Mask);
+  auto vsrc3 = fetchMaskedValue(words[1], vsrc3Mask);
+
+  inst.op = 0;
+  inst.addOperand(GcnOperand::createConstant(target));
+  inst.addOperand(GcnOperand::createConstant(en));
+  inst.addOperand(GcnOperand::createConstant(compr));
+  inst.addOperand(GcnOperand::createConstant(done));
+  inst.addOperand(GcnOperand::createConstant(vm));
+
+  if (en & (1 << 0)) {
+    inst.addOperand(createVgprGcnOperand(vsrc0).withR());
+  }
+  if (en & (1 << 1)) {
+    inst.addOperand(createVgprGcnOperand(vsrc1).withR());
+  }
+  if (!compr) {
+    if (en & (1 << 2)) {
+      inst.addOperand(createVgprGcnOperand(vsrc2).withR());
+    }
+    if (en & (1 << 3)) {
+      inst.addOperand(createVgprGcnOperand(vsrc3).withR());
+    }
+  }
+}
+static void
+readVop1Inst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 1;
+
+  constexpr auto src0Mask = genMask(0, 9);
+  constexpr auto opMask = genMask(getMaskEnd(src0Mask), 8);
+  constexpr auto vdstMask = genMask(getMaskEnd(opMask), 8);
+
+  std::uint32_t words[1];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto op = static_cast<ir::vop1::Op>(fetchMaskedValue(words[0], opMask));
+  auto src0 = fetchMaskedValue(words[0], src0Mask);
+  auto vdst = fetchMaskedValue(words[0], vdstMask);
+
+  inst.op = op;
+  inst.addOperand(createVgprGcnOperand(vdst).withW());
+  inst.addOperand(createSgprGcnOperand(address, src0).withR());
+}
+static void
+readVopcInst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 1;
+  constexpr auto src0Mask = genMask(0, 9);
+  constexpr auto vsrc1Mask = genMask(getMaskEnd(src0Mask), 8);
+  constexpr auto opMask = genMask(getMaskEnd(vsrc1Mask), 8);
+
+  std::uint32_t words[1];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto op = static_cast<ir::vopc::Op>(fetchMaskedValue(words[0], opMask));
+  auto src0 = fetchMaskedValue(words[0], src0Mask);
+  auto vsrc1 = fetchMaskedValue(words[0], vsrc1Mask);
+
+  inst.op = op;
+  inst.addOperand(GcnOperand::createVccLo().withRW());
+  inst.addOperand(createSgprGcnOperand(address, src0).withR());
+  inst.addOperand(createVgprGcnOperand(vsrc1).withR());
+}
+
+static void
+readSop1Inst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 1;
+
+  constexpr auto ssrc0Mask = genMask(0, 8);
+  constexpr auto opMask = genMask(getMaskEnd(ssrc0Mask), 8);
+  constexpr auto sdstMask = genMask(getMaskEnd(opMask), 7);
+
+  std::uint32_t words[1];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto op = static_cast<ir::sop1::Op>(fetchMaskedValue(words[0], opMask));
+  auto ssrc0 = fetchMaskedValue(words[0], ssrc0Mask);
+  auto sdst = fetchMaskedValue(words[0], sdstMask);
+
+  inst.op = op;
+
+  bool readsM0 = op == ir::sop1::MOVRELS_B32 || op == ir::sop1::MOVRELS_B64 ||
+                 op == ir::sop1::MOVRELD_B32 || op == ir::sop1::MOVRELD_B64 ||
+                 op == ir::sop1::ABS_I32;
+
+  inst.addOperand(createSgprGcnOperand(address, sdst).withW());
+  inst.addOperand(createSgprGcnOperand(address, ssrc0).withR());
+
+  if (readsM0) {
+    inst.addOperand(GcnOperand::createM0().withR());
+  }
+}
+static void
+readSopcInst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  constexpr int kMinInstSize = 1;
+
+  constexpr auto ssrc0Mask = genMask(0, 8);
+  constexpr auto ssrc1Mask = genMask(getMaskEnd(ssrc0Mask), 8);
+  constexpr auto opMask = genMask(getMaskEnd(ssrc1Mask), 7);
+
+  std::uint32_t words[1];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto op = static_cast<ir::sopc::Op>(fetchMaskedValue(words[0], opMask));
+  auto ssrc0 = fetchMaskedValue(words[0], ssrc0Mask);
+  auto ssrc1 = fetchMaskedValue(words[0], ssrc1Mask);
+
+  inst.op = op;
+  inst.addOperand(createSgprGcnOperand(address, ssrc0).withR());
+  inst.addOperand(createSgprGcnOperand(address, ssrc1).withR());
+}
+
+static void
+readSoppInst(GcnInstruction &inst, std::uint64_t &address,
+             const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  static constexpr int kMinInstSize = 1;
+
+  static constexpr auto simmMask = genMask(0, 16);
+  static constexpr auto opMask = genMask(getMaskEnd(simmMask), 7);
+
+  std::uint32_t words[1];
+  words[0] = readMemory(address);
+  address += sizeof(std::uint32_t);
+
+  auto op = static_cast<ir::sopp::Op>(fetchMaskedValue(words[0], opMask));
+  auto simm = static_cast<std::int16_t>(fetchMaskedValue(words[0], simmMask));
+
+  inst.op = op;
+  inst.addOperand(
+      GcnOperand::createConstant(static_cast<std::uint32_t>(simm) << 2));
+}
+
+void GcnOperand::print(std::ostream &os) const {
+  switch (kind) {
+  case Kind::Invalid:
+    os << "<invalid>";
+    break;
+  case Kind::Constant:
+    os << '#';
+    os << std::to_string(value);
+
+    if (value != 0 &&
+        std::abs(0.f - std::bit_cast<float>(value)) > 0.0000001f) {
+      os << " (" << std::to_string(std::bit_cast<float>(value)) << ')';
+    }
+    break;
+  case Kind::Immediate:
+    os << "*" << std::hex << std::to_string(address) << std::dec;
+    break;
+  case Kind::VccLo:
+    os << "vcc_lo";
+    break;
+  case Kind::VccHi:
+    os << "vcc_hi";
+    break;
+  case Kind::M0:
+    os << "m0";
+    break;
+  case Kind::ExecLo:
+    os << "exec_lo";
+    break;
+  case Kind::ExecHi:
+    os << "exec_hi";
+    break;
+  case Kind::Scc:
+    os << "scc";
+    break;
+  case Kind::VccZ:
+    os << "vccz";
+    break;
+  case Kind::ExecZ:
+    os << "execz";
+    break;
+  case Kind::LdsDirect:
+    os << "lds_direct";
+    break;
+  case Kind::Vgpr:
+    os << 'v';
+    os << std::to_string(value);
+    break;
+  case Kind::Sgpr:
+    os << 's';
+    os << std::to_string(value);
+    break;
+  case Kind::Attr:
+    os << "attr";
+    os << std::to_string(attrId);
+    os << '.';
+    switch (attrChannel) {
+    case 0:
+      os << 'x';
+      break;
+    case 1:
+      os << 'y';
+      break;
+    case 2:
+      os << 'z';
+      break;
+    case 3:
+      os << 'w';
+      break;
+    }
+    break;
+  case Kind::Buffer:
+    os << "V#{";
+    getUnderlyingOperand(0).print(os);
+    os << "..";
+    getUnderlyingOperand(3).print(os);
+    os << "}";
+    break;
+  case Kind::Sampler:
+    os << "S#{";
+    getUnderlyingOperand(0).print(os);
+    os << "..";
+    getUnderlyingOperand(3).print(os);
+    os << "}";
+    break;
+  case Kind::Texture128:
+    os << "T#{";
+    getUnderlyingOperand(0).print(os);
+    os << "..";
+    getUnderlyingOperand(3).print(os);
+    os << "}";
+    break;
+  case Kind::Texture256:
+    os << "T#{";
+    getUnderlyingOperand(0).print(os);
+    os << "..";
+    getUnderlyingOperand(7).print(os);
+    os << "}";
+    break;
+  case Kind::Pointer:
+    os << "ptr{";
+    getUnderlyingOperand(0).print(os);
+    os << "..";
+    getUnderlyingOperand(1).print(os);
+    os << "} + ";
+    getPointerOffsetOperand().print(os);
+    break;
+  }
+}
+
+void GcnOperand::dump() const {
+  print(std::cerr);
+  std::cerr << '\n';
+}
+
+void GcnInstruction::print(std::ostream &os) const {
+  os << ir::getInstructionName(kind, op);
+
+  if (operandCount > 0) {
+    os << ' ';
+
+    for (int i = 0; i < operandCount; ++i) {
+      if (i != 0) {
+        os << ", ";
+      }
+
+      operands[i].print(os);
+    }
+  }
+}
+
+void GcnInstruction::dump() const {
+  print(std::cerr);
+  std::cerr << '\n';
+}
+
+void shader::readGcnInst(
+    GcnInstruction &isaInst, std::uint64_t &address,
+    const std::function<std::uint32_t(std::uint64_t)> &readMemory) {
+  static constexpr std::uint32_t kInstMask1 =
+      static_cast<std::uint32_t>(~0u << (32 - 1));
+  static constexpr std::uint32_t kInstMask2 =
+      static_cast<std::uint32_t>(~0u << (32 - 2));
+  static constexpr std::uint32_t kInstMask4 =
+      static_cast<std::uint32_t>(~0u << (32 - 4));
+  static constexpr std::uint32_t kInstMask5 =
+      static_cast<std::uint32_t>(~0u << (32 - 5));
+  static constexpr std::uint32_t kInstMask6 =
+      static_cast<std::uint32_t>(~0u << (32 - 6));
+  static constexpr std::uint32_t kInstMask7 =
+      static_cast<std::uint32_t>(~0u << (32 - 7));
+  static constexpr std::uint32_t kInstMask9 =
+      static_cast<std::uint32_t>(~0u << (32 - 9));
+
+  static constexpr std::uint32_t kInstMaskValVop2 = 0b0u << (32 - 1);
+  static constexpr std::uint32_t kInstMaskValSop2 = 0b10u << (32 - 2);
+  static constexpr std::uint32_t kInstMaskValSopk = 0b1011u << (32 - 4);
+  static constexpr std::uint32_t kInstMaskValSmrd = 0b11000u << (32 - 5);
+  static constexpr std::uint32_t kInstMaskValVop3 = 0b110100u << (32 - 6);
+  static constexpr std::uint32_t kInstMaskValMubuf = 0b111000u << (32 - 6);
+  static constexpr std::uint32_t kInstMaskValMtbuf = 0b111010u << (32 - 6);
+  static constexpr std::uint32_t kInstMaskValMimg = 0b111100u << (32 - 6);
+  static constexpr std::uint32_t kInstMaskValDs = 0b110110u << (32 - 6);
+  static constexpr std::uint32_t kInstMaskValVintrp = 0b110010u << (32 - 6);
+  static constexpr std::uint32_t kInstMaskValExp = 0b111110u << (32 - 6);
+  static constexpr std::uint32_t kInstMaskValVop1 = 0b0111111u << (32 - 7);
+  static constexpr std::uint32_t kInstMaskValVopC = 0b0111110u << (32 - 7);
+  static constexpr std::uint32_t kInstMaskValSop1 = 0b101111101u << (32 - 9);
+  static constexpr std::uint32_t kInstMaskValSopc = 0b101111110u << (32 - 9);
+  static constexpr std::uint32_t kInstMaskValSopp = 0b101111111u << (32 - 9);
+
+  auto instr = readMemory(address);
+
+  switch (instr & kInstMask9) {
+  case kInstMaskValSop1:
+    isaInst.kind = ir::Kind::Sop1;
+    return readSop1Inst(isaInst, address, readMemory);
+  case kInstMaskValSopc:
+    isaInst.kind = ir::Kind::Sopc;
+    return readSopcInst(isaInst, address, readMemory);
+  case kInstMaskValSopp:
+    isaInst.kind = ir::Kind::Sopp;
+    return readSoppInst(isaInst, address, readMemory);
+  }
+
+  switch (instr & kInstMask7) {
+  case kInstMaskValVop1:
+    isaInst.kind = ir::Kind::Vop1;
+    return readVop1Inst(isaInst, address, readMemory);
+  case kInstMaskValVopC:
+    isaInst.kind = ir::Kind::Vopc;
+    return readVopcInst(isaInst, address, readMemory);
+  }
+
+  switch (instr & kInstMask6) {
+  case kInstMaskValVop3:
+    isaInst.kind = ir::Kind::Vop3;
+    return readVop3Inst(isaInst, address, readMemory);
+  case kInstMaskValMubuf:
+    isaInst.kind = ir::Kind::Mubuf;
+    return readMubufInst(isaInst, address, readMemory);
+  case kInstMaskValMtbuf:
+    isaInst.kind = ir::Kind::Mtbuf;
+    return readMtbufInst(isaInst, address, readMemory);
+  case kInstMaskValMimg:
+    isaInst.kind = ir::Kind::Mimg;
+    return readMimgInst(isaInst, address, readMemory);
+  case kInstMaskValDs:
+    isaInst.kind = ir::Kind::Ds;
+    return readDsInst(isaInst, address, readMemory);
+  case kInstMaskValVintrp:
+    isaInst.kind = ir::Kind::Vintrp;
+    return readVintrpInst(isaInst, address, readMemory);
+  case kInstMaskValExp:
+    isaInst.kind = ir::Kind::Exp;
+    return readExpInst(isaInst, address, readMemory);
+  }
+
+  if ((instr & kInstMask5) == kInstMaskValSmrd) {
+    isaInst.kind = ir::Kind::Smrd;
+    return readSmrdInst(isaInst, address, readMemory);
+  }
+
+  if ((instr & kInstMask4) == kInstMaskValSopk) {
+    isaInst.kind = ir::Kind::Sopk;
+    return readSopkInst(isaInst, address, readMemory);
+  }
+
+  if ((instr & kInstMask2) == kInstMaskValSop2) {
+    isaInst.kind = ir::Kind::Sop2;
+    return readSop2Inst(isaInst, address, readMemory);
+  }
+
+  if ((instr & kInstMask1) == kInstMaskValVop2) {
+    isaInst.kind = ir::Kind::Vop2;
+    return readVop2Inst(isaInst, address, readMemory);
+  }
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/ModuleInfo.cpp b/rpcsx-gpu2/lib/gcn-shader/src/ModuleInfo.cpp
new file mode 100644
index 00000000..4a6d4d5a
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/ModuleInfo.cpp
@@ -0,0 +1,106 @@
+#include "ModuleInfo.hpp"
+#include "analyze.hpp"
+#include "dialect.hpp"
+#include "ir.hpp"
+
+shader::ModuleInfo::Function &
+shader::collectFunctionInfo(ModuleInfo &moduleInfo, ir::Value function) {
+  auto [fnIt, fnInserted] =
+      moduleInfo.functions.try_emplace(function, ModuleInfo::Function{});
+  if (!fnInserted) {
+    return fnIt->second;
+  }
+
+  auto &result = fnIt->second;
+  std::map<ir::Value, int> params;
+
+  result.returnType = function.getOperand(0).getAsValue();
+
+  auto trackAccess = [&](ir::Value pointer, Access access) {
+    pointer = unwrapPointer(pointer);
+
+    if (auto it = params.find(pointer); it != params.end()) {
+      result.parameters[it->second].access |= access;
+      return;
+    }
+
+    if (pointer == ir::spv::OpVariable) {
+      auto storagePtr = pointer.getOperand(1).getAsInt32();
+      if (!storagePtr) {
+        return;
+      }
+
+      auto storage = ir::spv::StorageClass(*storagePtr);
+
+      if (storage != ir::spv::StorageClass::Function) {
+        result.variables[pointer] = access;
+      }
+    }
+  };
+
+  for (auto inst : ir::range(function.getNext())) {
+    if (inst == ir::spv::OpFunctionEnd) {
+      break;
+    }
+
+    if (inst == ir::spv::OpFunctionParameter) {
+      auto type = inst.getOperand(0).getAsValue();
+      params[inst.staticCast<ir::Value>()] = result.parameters.size();
+      result.parameters.push_back({.type = type, .access = Access::None});
+      continue;
+    }
+
+    if (inst == ir::spv::OpFunctionCall) {
+      auto callee = inst.getOperand(1).getAsValue();
+      auto &calleeInfo = collectFunctionInfo(moduleInfo, callee);
+      auto args = inst.getOperands().subspan(2);
+
+      for (std::size_t index = 0; auto &[_, access] : calleeInfo.parameters) {
+        trackAccess(args[index++].getAsValue(), access);
+      }
+      for (auto &[global, access] : calleeInfo.variables) {
+        trackAccess(global, access);
+      }
+      continue;
+    }
+
+    if (inst == ir::spv::OpLoad || inst == ir::spv::OpAtomicLoad) {
+      trackAccess(inst.getOperand(1).getAsValue(), Access::Read);
+      continue;
+    }
+
+    if (inst == ir::spv::OpStore || inst == ir::spv::OpAtomicStore) {
+      trackAccess(inst.getOperand(0).getAsValue(), Access::Write);
+      continue;
+    }
+
+    if (inst == ir::spv::OpAtomicExchange ||
+        inst == ir::spv::OpAtomicCompareExchange ||
+        inst == ir::spv::OpAtomicCompareExchangeWeak ||
+        inst == ir::spv::OpAtomicIIncrement ||
+        inst == ir::spv::OpAtomicIDecrement || inst == ir::spv::OpAtomicIAdd ||
+        inst == ir::spv::OpAtomicISub || inst == ir::spv::OpAtomicSMin ||
+        inst == ir::spv::OpAtomicUMin || inst == ir::spv::OpAtomicSMax ||
+        inst == ir::spv::OpAtomicUMax || inst == ir::spv::OpAtomicAnd ||
+        inst == ir::spv::OpAtomicOr || inst == ir::spv::OpAtomicXor) {
+      trackAccess(inst.getOperand(1).getAsValue(), Access::ReadWrite);
+    }
+  }
+
+  return result;
+}
+
+void shader::collectModuleInfo(ModuleInfo &moduleInfo,
+                               const spv::BinaryLayout &layout) {
+  auto functions = layout.regions[spv::BinaryLayout::kFunctions];
+
+  if (!functions) {
+    return;
+  }
+
+  for (auto child : functions.children<ir::Value>()) {
+    if (child == ir::spv::OpFunction) {
+      collectFunctionInfo(moduleInfo, child);
+    }
+  }
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/SemanticModuleInfo.cpp b/rpcsx-gpu2/lib/gcn-shader/src/SemanticModuleInfo.cpp
new file mode 100644
index 00000000..942be1f1
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/SemanticModuleInfo.cpp
@@ -0,0 +1,149 @@
+#include "SemanticInfo.hpp"
+#include "dialect.hpp"
+
+using namespace shader;
+
+static std::size_t getOpCount(ir::Kind kind) {
+  switch (kind) {
+  case ir::Kind::Spv:
+  case ir::Kind::Builtin:
+  case ir::Kind::MemSSA:
+    break;
+
+  case ir::Kind::AmdGpu:
+    return ir::amdgpu::OpCount;
+  case ir::Kind::Vop2:
+    return ir::vop2::OpCount;
+  case ir::Kind::Sop2:
+    return ir::sop2::OpCount;
+  case ir::Kind::Sopk:
+    return ir::sopk::OpCount;
+  case ir::Kind::Smrd:
+    return ir::smrd::OpCount;
+  case ir::Kind::Vop3:
+    return ir::vop3::OpCount;
+  case ir::Kind::Mubuf:
+    return ir::mubuf::OpCount;
+  case ir::Kind::Mtbuf:
+    return ir::mtbuf::OpCount;
+  case ir::Kind::Mimg:
+    return ir::mimg::OpCount;
+  case ir::Kind::Ds:
+    return ir::ds::OpCount;
+  case ir::Kind::Vintrp:
+    return ir::vintrp::OpCount;
+  case ir::Kind::Exp:
+    return 1;
+  case ir::Kind::Vop1:
+    return ir::vop1::OpCount;
+  case ir::Kind::Vopc:
+    return ir::vopc::OpCount;
+  case ir::Kind::Sop1:
+    return ir::sop1::OpCount;
+  case ir::Kind::Sopc:
+    return ir::sopc::OpCount;
+  case ir::Kind::Sopp:
+    return ir::sopp::OpCount;
+  case ir::Kind::Count:
+    break;
+  }
+
+  return 0;
+}
+
+void shader::collectSemanticModuleInfo(SemanticModuleInfo &moduleInfo,
+                                       const spv::BinaryLayout &layout) {
+  static auto instNameToIds = [] {
+    std::map<std::string, std::vector<ir::InstructionId>, std::less<>> result;
+    for (std::size_t kind = 0; kind < std::size_t(ir::Kind::Count); ++kind) {
+      auto opCount = getOpCount(ir::Kind(kind));
+
+      for (unsigned op = 0; op < opCount; ++op) {
+        auto name = getInstructionShortName(ir::Kind(kind), op);
+        if (name == nullptr) {
+          continue;
+        }
+
+        result[name].push_back(ir::getInstructionId(ir::Kind(kind), op));
+      }
+    }
+    return result;
+  }();
+
+  collectModuleInfo(moduleInfo, layout);
+
+  static auto wideInstNameToIds = [] {
+    std::map<std::string, std::vector<ir::InstructionId>, std::less<>> result;
+    for (std::size_t kind = 0; kind < std::size_t(ir::Kind::Count); ++kind) {
+      auto opCount = getOpCount(ir::Kind(kind));
+      if (opCount == 0) {
+        continue;
+      }
+
+      for (unsigned op = 0; op < opCount; ++op) {
+        auto name = getInstructionShortName(ir::Kind(kind), op);
+        if (name == nullptr) {
+          continue;
+        }
+
+        std::string wideName = getKindName(ir::Kind(kind));
+        wideName += '_';
+        wideName += name;
+
+        result[std::move(wideName)].push_back(
+            ir::getInstructionId(ir::Kind(kind), op));
+      }
+    }
+    return result;
+  }();
+
+  for (auto &[fn, info] : moduleInfo.functions) {
+    for (auto &use : fn.getUseList()) {
+      if (use.user != ir::spv::OpName) {
+        continue;
+      }
+
+      auto mangledNameString = use.user.getOperand(1).getAsString();
+
+      if (mangledNameString == nullptr) {
+        break;
+      }
+
+      auto mangledName = std::string_view(*mangledNameString);
+      std::string_view name;
+      if (auto pos = mangledName.find('('); pos != std::string_view::npos) {
+        name = mangledName.substr(0, pos);
+      } else {
+        break;
+      }
+
+      std::vector<ir::InstructionId> *ids = nullptr;
+      std::vector<ir::InstructionId> *wideIds = nullptr;
+
+      if (auto it = wideInstNameToIds.find(name);
+          it != wideInstNameToIds.end()) {
+        wideIds = &it->second;
+      }
+
+      if (auto it = instNameToIds.find(name); it != instNameToIds.end()) {
+        ids = &it->second;
+      }
+
+      if (ids == nullptr && wideIds == nullptr) {
+        break;
+      }
+
+      if (wideIds != nullptr) {
+        for (auto id : *wideIds) {
+          moduleInfo.semantics[id] = fn;
+        }
+      } else {
+        for (auto id : *ids) {
+          moduleInfo.semantics.emplace(id, fn);
+        }
+      }
+
+      break;
+    }
+  }
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/SpvConverter.cpp b/rpcsx-gpu2/lib/gcn-shader/src/SpvConverter.cpp
new file mode 100644
index 00000000..6e861c89
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/SpvConverter.cpp
@@ -0,0 +1,641 @@
+#include "SpvConverter.hpp"
+#include "dialect.hpp"
+#include "dialect/spv.hpp"
+#include <string>
+
+using namespace shader;
+
+using Builder = ir::Builder<ir::spv::Builder, ir::builtin::Builder>;
+
+static std::string getTypeName(ir::Value type);
+
+static std::string getConstantName(ir::Value constant) {
+  if (constant == ir::spv::OpConstant) {
+    auto typeValue = constant.getOperand(0).getAsValue();
+    auto value = constant.getOperand(1);
+
+    if (typeValue == ir::spv::OpTypeInt) {
+      auto width = *typeValue.getOperand(0).getAsInt32();
+
+      if (width <= 32) {
+        if (value.getAsInt32() == nullptr) {
+          std::abort();
+        }
+        return "_" + std::to_string(*value.getAsInt32());
+      }
+      if (value.getAsInt64() == nullptr) {
+        std::abort();
+      }
+      return "c_" + std::to_string(*value.getAsInt64());
+    }
+
+    if (typeValue == ir::spv::OpTypeFloat) {
+      auto width = *typeValue.getOperand(0).getAsInt32();
+
+      if (width == 32) {
+        if (value.getAsFloat() == nullptr) {
+          std::abort();
+        }
+        return "c_" + std::to_string(*value.getAsFloat());
+      }
+      if (value.getAsDouble() == nullptr) {
+        std::abort();
+      }
+      return "c_" + std::to_string(*value.getAsDouble());
+    }
+
+    return {};
+  }
+
+  if (constant == ir::spv::OpConstantTrue) {
+    return "true";
+  }
+
+  if (constant == ir::spv::OpConstantFalse) {
+    return "false";
+  }
+
+  if (constant == ir::spv::OpConstantNull) {
+    return "null_" + getTypeName(constant.getOperand(0).getAsValue());
+  }
+
+  return {};
+}
+
+static std::string getTypeName(ir::Value type) {
+  if (type == ir::spv::OpTypeInt) {
+    if (type.getOperand(1) != 0) {
+      return "s" + std::to_string(*type.getOperand(0).getAsInt32());
+    }
+    return "u" + std::to_string(*type.getOperand(0).getAsInt32());
+  }
+
+  if (type == ir::spv::OpTypeFloat) {
+    return "f" + std::to_string(*type.getOperand(0).getAsInt32());
+  }
+
+  if (type == ir::spv::OpTypeBool) {
+    return "bool";
+  }
+
+  if (type == ir::spv::OpTypeVoid) {
+    return "void";
+  }
+
+  if (type == ir::spv::OpTypeSampler) {
+    return "sampler";
+  }
+
+  if (type == ir::spv::OpTypeVector) {
+    return getTypeName(type.getOperand(0).getAsValue()) + 'x' +
+           std::to_string(*type.getOperand(1).getAsInt32());
+  }
+
+  if (type == ir::spv::OpTypeArray) {
+    auto count = type.getOperand(1).getAsValue();
+    if (count == ir::spv::OpConstant) {
+      if (auto n = count.getOperand(1).getAsInt32()) {
+        return getTypeName(type.getOperand(0).getAsValue()) + '[' +
+               std::to_string(*n) + ']';
+      }
+    }
+
+    return getTypeName(type.getOperand(0).getAsValue()) + "[N]";
+  }
+
+  if (type == ir::spv::OpTypeRuntimeArray) {
+    return getTypeName(type.getOperand(0).getAsValue()) + "[]";
+  }
+
+  if (type == ir::spv::OpTypeStruct) {
+    std::string result = "struct{";
+    for (bool first = true; auto &op : type.getOperands()) {
+      if (!first) {
+        result += ", ";
+      } else {
+        first = false;
+      }
+      result += getTypeName(op.getAsValue());
+    }
+
+    result += "}";
+    return result;
+  }
+
+  if (type == ir::spv::OpTypePointer) {
+    return getTypeName(type.getOperand(1).getAsValue()) + "*";
+  }
+
+  return {};
+}
+
+spv::Context::Context() {
+  localVariables = create<ir::Region>(getUnknownLocation());
+  epilogue = createRegionWithLabel(getUnknownLocation()).getParent();
+}
+
+ir::Node spv::Import::getOrCloneImpl(ir::Context &context, ir::Node node,
+                                     bool isOperand) {
+  auto inst = node.cast<ir::Instruction>();
+
+  if (inst == nullptr) {
+    return CloneMap::getOrCloneImpl(context, node, isOperand);
+  }
+
+  auto &spvContext = static_cast<spv::Context &>(context);
+
+  auto redefine = [&](ir::Node newNode) {
+    setOverride(node, newNode);
+    return newNode;
+  };
+
+  auto cloneDecorationsAndDebugs = [&](ir::Node inst = nullptr) {
+    if (inst == nullptr) {
+      inst = node;
+    }
+
+    auto annotations = spvContext.layout.getOrCreateAnnotations(context);
+    auto debugs = spvContext.layout.getOrCreateDebugs(context);
+    auto value = inst.cast<ir::Value>();
+    if (value == nullptr) {
+      return;
+    }
+
+    for (auto &use : value.getUseList()) {
+      if (use.user == ir::spv::OpDecorate ||
+          use.user == ir::spv::OpMemberDecorate ||
+          use.user == ir::spv::OpDecorationGroup ||
+          use.user == ir::spv::OpGroupDecorate ||
+          use.user == ir::spv::OpGroupMemberDecorate ||
+          use.user == ir::spv::OpDecorateId) {
+
+        annotations.addChild(ir::clone(use.user, context, *this));
+      }
+
+      if (use.user == ir::spv::OpName || use.user == ir::spv::OpMemberName) {
+        auto cloned = ir::clone(use.user, context, *this);
+        debugs.addChild(cloned);
+        if (use.user == ir::spv::OpName) {
+          auto demangled =
+              std::string_view(*cloned.getOperand(1).getAsString());
+          if (auto pos = demangled.find('('); pos != std::string::npos) {
+            demangled = demangled.substr(0, pos);
+          }
+          spvContext.setName(cloned.getOperand(0).getAsValue(),
+                             std::string(demangled));
+        }
+      }
+    }
+  };
+
+  auto hasDecoration = [&] {
+    for (auto use : node.staticCast<ir::Value>().getUseList()) {
+      if (use.user == ir::spv::OpDecorate ||
+          use.user == ir::spv::OpMemberDecorate) {
+        return true;
+      }
+    }
+
+    return false;
+  };
+
+  if (inst.getKind() == ir::Kind::Spv) {
+    if (inst.getOp() == ir::spv::OpExtInstImport) {
+      auto extensions = spvContext.layout.getOrCreateExtInstImports(context);
+      auto result = CloneMap::getOrCloneImpl(context, node, isOperand);
+      extensions.addChild(result.staticCast<ir::Value>());
+
+      return redefine(result);
+    }
+
+    if (ir::spv::isTypeOp(inst.getOp())) {
+      std::vector<ir::Operand> operands;
+
+      for (auto &op : inst.getOperands()) {
+        operands.push_back(op.clone(context, *this));
+      }
+
+      auto typeOp = static_cast<ir::spv::Op>(inst.getOp());
+
+      if ((inst != ir::spv::OpTypeArray || !hasDecoration()) &&
+          inst != ir::spv::OpTypeRuntimeArray &&
+          inst != ir::spv::OpTypeStruct) {
+        if (inst != ir::spv::OpTypePointer ||
+            inst.getOperand(0) == ir::spv::StorageClass::Function) {
+          if (auto result = spvContext.findGlobal(typeOp, operands)) {
+            return redefine(result);
+          }
+        }
+      }
+
+      auto result = spvContext.createGlobal(
+          static_cast<ir::spv::Op>(inst.getOp()), operands);
+      redefine(result);
+      cloneDecorationsAndDebugs();
+      return result;
+    }
+  }
+
+  if (inst == ir::spv::OpConstant || inst == ir::spv::OpConstantComposite ||
+      inst == ir::spv::OpConstantTrue || inst == ir::spv::OpConstantFalse ||
+      inst == ir::spv::OpConstantNull || inst == ir::spv::OpConstantSampler ||
+      inst == ir::spv::OpSpecConstantTrue ||
+      inst == ir::spv::OpSpecConstantFalse || inst == ir::spv::OpSpecConstant ||
+      inst == ir::spv::OpSpecConstantComposite) {
+    std::vector<ir::Operand> operands;
+
+    for (auto &op : inst.getOperands()) {
+      operands.push_back(op.clone(context, *this));
+    }
+
+    auto result = spvContext.getOrCreateGlobal(
+        static_cast<ir::spv::Op>(inst.getOp()), operands);
+    return redefine(result);
+  }
+
+  if (isOperand && inst == ir::spv::OpVariable) {
+    if (inst == ir::spv::OpVariable) {
+      auto storage = inst.getOperand(1).getAsInt32();
+      if (*storage == int(ir::spv::StorageClass::Function)) {
+        return CloneMap::getOrCloneImpl(context, node, isOperand);
+      }
+    }
+
+    auto globals = spvContext.layout.getOrCreateGlobals(context);
+    auto result = CloneMap::getOrCloneImpl(context, node, isOperand);
+    globals.addChild(result.staticCast<ir::Instruction>());
+    cloneDecorationsAndDebugs();
+    return result;
+  }
+
+  if (inst == ir::spv::OpConstant) {
+    auto type = inst.getOperand(0).clone(context, *this);
+    return redefine(
+        spvContext.getOrCreateConstant(type.getAsValue(), inst.getOperand(1)));
+  }
+
+  if (inst == ir::spv::OpFunction) {
+    auto functions = spvContext.layout.getOrCreateFunctions(context);
+
+    auto result = CloneMap::getOrCloneImpl(context, node, isOperand)
+                      .staticCast<ir::Value>();
+    functions.insertAfter(nullptr, result);
+    redefine(result);
+    cloneDecorationsAndDebugs();
+
+    ir::Instruction insertPoint = result;
+
+    for (auto child : ir::range(inst.getNext())) {
+      auto cloned = ir::clone(child, context, *this);
+      functions.insertAfter(insertPoint, cloned);
+      insertPoint = cloned;
+      cloneDecorationsAndDebugs(child);
+
+      if (child == ir::spv::OpFunctionEnd) {
+        break;
+      }
+    }
+
+    return result;
+  }
+
+  return CloneMap::getOrCloneImpl(context, node, isOperand);
+}
+
+ir::Value spv::Context::createRegionWithLabel(ir::Location loc) {
+  return Builder::createAppend(*this, create<ir::Region>(loc))
+      .createSpvLabel(loc);
+}
+
+void spv::Context::setName(ir::spv::IdRef inst, std::string name) {
+  ns.setNameOf(inst, name);
+  auto debugs = Builder::createAppend(*this, layout.getOrCreateDebugs(*this));
+  debugs.createSpvName(getUnknownLocation(), inst, std::move(name));
+}
+
+void spv::Context::setConstantName(ir::Value constant) {
+  auto name = getConstantName(constant);
+  if (!name.empty()) {
+    ns.setNameOf(constant, std::move(name));
+  }
+}
+
+ir::Value spv::Context::getOrCreateConstant(ir::Value typeValue,
+                                                     const ir::Operand &value) {
+  if (typeValue == getTypeBool()) {
+    return *value.getAsBool() ? getTrue() : getFalse();
+  }
+  return getOrCreateGlobal(ir::spv::OpConstant, {{typeValue, value}});
+}
+
+ir::Value spv::Context::getType(ir::spv::Op baseType, int width,
+                                         bool isSigned) {
+  switch (baseType) {
+  case ir::spv::OpTypeInt:
+    return getTypeInt(width, isSigned);
+  case ir::spv::OpTypeFloat:
+    return getTypeFloat(width);
+  case ir::spv::OpTypeBool:
+    return getTypeBool();
+  case ir::spv::OpTypeVoid:
+    return getTypeVoid();
+
+  default:
+    std::abort();
+  }
+}
+
+ir::Value spv::Context::getType(const TypeInfo &info) {
+  switch (info.baseType) {
+  case ir::spv::OpTypeInt:
+  case ir::spv::OpTypeFloat:
+  case ir::spv::OpTypeBool:
+  case ir::spv::OpTypeVoid:
+    return getType(info.baseType, info.componentWidth, info.isSigned);
+
+  case ir::spv::OpTypeVector:
+    return getTypeVector(
+        getType(info.componentType, info.componentWidth, info.isSigned),
+        info.componentsCount);
+
+  case ir::spv::OpTypeArray:
+    return getTypeArray(
+        getType(info.componentType, info.componentWidth, info.isSigned),
+        imm32(info.componentsCount));
+
+  default:
+    std::abort();
+  }
+}
+
+void spv::Context::setTypeName(ir::Value type) {
+  auto name = getTypeName(type);
+  if (!name.empty()) {
+    ns.setNameOf(type, std::move(name));
+  }
+}
+
+ir::Value
+spv::Context::findGlobal(ir::spv::Op op,
+                                  std::span<const ir::Operand> operands) const {
+  auto it = globals.find(ir::getInstructionId(ir::Kind::Spv, op));
+
+  if (it == globals.end()) {
+    return nullptr;
+  }
+
+  auto &types = it->second;
+
+  for (auto type : types) {
+    if (type.getOperandCount() != operands.size()) {
+      continue;
+    }
+
+    bool matches = true;
+    for (std::size_t i = 0; auto &operand : type.getOperands()) {
+      if (operands[i++] != operand) {
+        matches = false;
+        break;
+      }
+    }
+
+    if (matches) {
+      return type;
+    }
+  }
+
+  return nullptr;
+}
+
+ir::Value
+spv::Context::createGlobal(ir::spv::Op op,
+                                    std::span<const ir::Operand> operands) {
+  auto builder = Builder::createAppend(*this, layout.getOrCreateGlobals(*this));
+  auto result =
+      builder.createValue(getUnknownLocation(), ir::Kind::Spv, op, operands);
+
+  globals[ir::getInstructionId(op)].push_back(result);
+  if (ir::spv::isTypeOp(op)) {
+    setTypeName(result);
+  } else {
+    setConstantName(result);
+  }
+  return result;
+}
+
+ir::Value spv::Context::getOrCreateGlobal(
+    ir::spv::Op op, std::span<const ir::Operand> operands) {
+  if (auto result = findGlobal(op, operands)) {
+    return result;
+  }
+
+  return createGlobal(op, operands);
+}
+
+ir::Value spv::Context::getOperandValue(const ir::Operand &op,
+                                                 ir::Value type) {
+  if (auto result = op.getAsValue()) {
+    return result;
+  }
+
+  auto createConstant = [&](auto value, ir::Value expType) {
+    return getOrCreateConstant(type ? type : expType, value);
+  };
+
+  if (auto result = op.getAsInt32()) {
+    return createConstant(*result, getTypeSInt32());
+  }
+
+  if (auto result = op.getAsInt64()) {
+    return createConstant(*result, getTypeSInt64());
+  }
+
+  if (auto result = op.getAsFloat()) {
+    return createConstant(*result, getTypeFloat32());
+  }
+
+  if (auto result = op.getAsDouble()) {
+    return createConstant(*result, getTypeFloat64());
+  }
+
+  if (auto result = op.getAsBool()) {
+    return createConstant(*result, getTypeBool());
+  }
+
+  std::abort();
+}
+
+void spv::Context::createPerVertex() {
+  if (perVertex != nullptr) {
+    return;
+  }
+
+  auto loc = rootLocation;
+
+  auto float32 = getTypeFloat32();
+  auto arr1Float = getTypeArray(float32, getIndex(1));
+  auto float32x4 = getTypeVector(float32, 4);
+
+  auto gl_PerVertexStructT =
+      getTypeStruct(float32x4, float32, arr1Float, arr1Float);
+  auto gl_PerVertexPtrT =
+      getTypePointer(ir::spv::StorageClass::Output, gl_PerVertexStructT);
+  auto annotations =
+      Builder::createAppend(*this, layout.getOrCreateAnnotations(*this));
+
+  annotations.createSpvDecorate(loc, gl_PerVertexStructT,
+                                ir::spv::Decoration::Block());
+  annotations.createSpvMemberDecorate(
+      loc, gl_PerVertexStructT, 0,
+      ir::spv::Decoration::BuiltIn(ir::spv::BuiltIn::Position));
+  annotations.createSpvMemberDecorate(
+      loc, gl_PerVertexStructT, 1,
+      ir::spv::Decoration::BuiltIn(ir::spv::BuiltIn::PointSize));
+  annotations.createSpvMemberDecorate(
+      loc, gl_PerVertexStructT, 2,
+      ir::spv::Decoration::BuiltIn(ir::spv::BuiltIn::ClipDistance));
+  annotations.createSpvMemberDecorate(
+      loc, gl_PerVertexStructT, 3,
+      ir::spv::Decoration::BuiltIn(ir::spv::BuiltIn::CullDistance));
+
+  auto globals = Builder::createAppend(*this, layout.getOrCreateGlobals(*this));
+
+  perVertex = globals.createSpvVariable(loc, gl_PerVertexPtrT,
+                                        ir::spv::StorageClass::Output);
+}
+
+ir::Value spv::Context::createUniformBuffer(int descriptorSet,
+                                                     int binding,
+                                                     ir::Value structType) {
+  auto globals = Builder::createAppend(*this, layout.getOrCreateGlobals(*this));
+  auto annotations =
+      Builder::createAppend(*this, layout.getOrCreateAnnotations(*this));
+  auto loc = getUnknownLocation();
+
+  auto storageClass = ir::spv::StorageClass::StorageBuffer;
+  auto blockType = globals.createSpvTypePointer(loc, storageClass, structType);
+
+  auto blockVariable = globals.createSpvVariable(loc, blockType, storageClass);
+
+  annotations.createSpvDecorate(
+      loc, blockVariable, ir::spv::Decoration::DescriptorSet(descriptorSet));
+  annotations.createSpvDecorate(loc, blockVariable,
+                                ir::spv::Decoration::Binding(binding));
+  annotations.createSpvDecorate(loc, blockVariable,
+                                ir::spv::Decoration::Uniform());
+  return blockVariable;
+}
+
+ir::Value spv::Context::createRuntimeArrayUniformBuffer(
+    int descriptorSet, int binding, ir::Value elementType) {
+  auto globals = Builder::createAppend(*this, layout.getOrCreateGlobals(*this));
+  auto annotations =
+      Builder::createAppend(*this, layout.getOrCreateAnnotations(*this));
+  auto loc = getUnknownLocation();
+
+  auto element = globals.createSpvTypeRuntimeArray(loc, elementType);
+  annotations.createSpvDecorate(
+      loc, element,
+      ir::spv::Decoration::ArrayStride(
+          shader::spv::getTypeInfo(elementType).width() / 8));
+
+  auto blockStruct = globals.createSpvTypeStruct(loc, {{element}});
+  annotations.createSpvDecorate(loc, blockStruct, ir::spv::Decoration::Block());
+  annotations.createSpvMemberDecorate(loc, blockStruct, 0,
+                                      ir::spv::Decoration::Offset(0));
+  return createUniformBuffer(descriptorSet, binding, blockStruct);
+}
+
+ir::Value spv::Context::createOutput(ir::Location loc, int index) {
+  auto &result = outputs[index];
+
+  if (result == nullptr) {
+    auto floatType = getTypeFloat32();
+    auto float32x4Type = getTypeVector(floatType, 4);
+    auto variableType =
+        getTypePointer(ir::spv::StorageClass::Output, float32x4Type);
+
+    auto globals =
+        Builder::createAppend(*this, layout.getOrCreateGlobals(*this));
+    auto annotations =
+        Builder::createAppend(*this, layout.getOrCreateAnnotations(*this));
+    auto debugs = Builder::createAppend(*this, layout.getOrCreateDebugs(*this));
+
+    auto variable = globals.createSpvVariable(loc, variableType,
+                                              ir::spv::StorageClass::Output);
+
+    annotations.createSpvDecorate(loc, variable,
+                                  ir::spv::Decoration::Location(index));
+
+    setName(variable, "output" + std::to_string(index));
+    result = variable;
+  }
+
+  return result;
+}
+
+ir::Value spv::Context::createInput(ir::Location loc, int index) {
+  auto &result = inputs[index];
+
+  if (result == nullptr) {
+    auto floatType = getTypeFloat32();
+    auto float32x4Type = getTypeVector(floatType, 4);
+    auto variableType =
+        getTypePointer(ir::spv::StorageClass::Input, float32x4Type);
+
+    auto globals =
+        Builder::createAppend(*this, layout.getOrCreateGlobals(*this));
+    auto annotations =
+        Builder::createAppend(*this, layout.getOrCreateAnnotations(*this));
+    auto debugs = Builder::createAppend(*this, layout.getOrCreateDebugs(*this));
+
+    auto variable = globals.createSpvVariable(loc, variableType,
+                                              ir::spv::StorageClass::Input);
+
+    annotations.createSpvDecorate(loc, variable,
+                                  ir::spv::Decoration::Location(index));
+
+    setName(variable, "input" + std::to_string(index));
+    result = variable;
+  }
+
+  return result;
+}
+
+ir::Value spv::Context::createAttr(ir::Location loc, int attrId,
+                                            bool perVertex, bool flat) {
+  auto &result = inputs[attrId];
+
+  if (result == nullptr) {
+    auto floatType = getTypeFloat32();
+    auto float32x4Type = getTypeVector(floatType, 4);
+
+    auto attrArrayType = getTypeArray(float32x4Type, imm32(3));
+    auto variableType =
+        getTypePointer(ir::spv::StorageClass::Input,
+                       perVertex ? attrArrayType : float32x4Type);
+
+    auto globals =
+        Builder::createAppend(*this, layout.getOrCreateGlobals(*this));
+    auto annotations =
+        Builder::createAppend(*this, layout.getOrCreateAnnotations(*this));
+    auto debugs = Builder::createAppend(*this, layout.getOrCreateDebugs(*this));
+
+    auto variable = globals.createSpvVariable(loc, variableType,
+                                              ir::spv::StorageClass::Input);
+
+    annotations.createSpvDecorate(loc, variable,
+                                  ir::spv::Decoration::Location(attrId));
+
+    if (perVertex) {
+      annotations.createSpvDecorate(loc, variable,
+                                    ir::spv::Decoration::PerVertexKHR());
+    } else if (flat) {
+      annotations.createSpvDecorate(loc, variable, ir::spv::Decoration::Flat());
+    }
+    setName(variable, "attr" + std::to_string(attrId));
+    result = variable;
+  }
+
+  return result;
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/SpvTypeInfo.cpp b/rpcsx-gpu2/lib/gcn-shader/src/SpvTypeInfo.cpp
new file mode 100644
index 00000000..cbcf81a8
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/SpvTypeInfo.cpp
@@ -0,0 +1,71 @@
+#include "SpvTypeInfo.hpp"
+#include "dialect.hpp"
+
+using namespace shader;
+
+shader::spv::TypeInfo shader::spv::getTypeInfo(ir::Value type) {
+  if (type == ir::spv::OpTypeBool) {
+    return {
+        .baseType = ir::spv::OpTypeBool,
+        .componentWidth = 1,
+        .componentsCount = 1,
+    };
+  }
+
+  if (type == ir::spv::OpTypeInt) {
+    return {
+        .baseType = ir::spv::OpTypeInt,
+        .componentWidth = *type.getOperand(0).getAsInt32(),
+        .componentsCount = 1,
+        .isSigned = *type.getOperand(1).getAsInt32() ? true : false,
+    };
+  }
+
+  if (type == ir::spv::OpTypeFloat) {
+    return {
+        .baseType = ir::spv::OpTypeFloat,
+        .componentWidth = *type.getOperand(0).getAsInt32(),
+        .componentsCount = 1,
+    };
+  }
+
+  if (type == ir::spv::OpTypeVector) {
+    auto componentInfo = getTypeInfo(type.getOperand(0).getAsValue());
+
+    return {
+        .baseType = ir::spv::OpTypeVector,
+        .componentType = componentInfo.baseType,
+        .componentWidth = componentInfo.width(),
+        .componentsCount = *type.getOperand(1).getAsInt32(),
+    };
+  }
+
+  if (type == ir::spv::OpTypeArray) {
+    auto elementInfo = getTypeInfo(type.getOperand(0).getAsValue());
+    auto countOfElements = type.getOperand(1).getAsValue();
+
+    return {
+        .baseType = ir::spv::OpTypeArray,
+        .componentType = elementInfo.baseType,
+        .componentWidth = elementInfo.width(),
+        .componentsCount = *countOfElements.getOperand(1).getAsInt32(),
+    };
+  }
+
+  if (type == ir::spv::OpTypeRuntimeArray) {
+    auto elementInfo = getTypeInfo(type.getOperand(0).getAsValue());
+
+    return {
+        .baseType = ir::spv::OpTypeRuntimeArray,
+        .componentType = elementInfo.baseType,
+        .componentWidth = elementInfo.width(),
+        .componentsCount = 1,
+    };
+  }
+
+  return {
+      .baseType = static_cast<ir::spv::Op>(type.getOp()),
+      .componentWidth = 0,
+      .componentsCount = 0,
+  };
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/analyze.cpp b/rpcsx-gpu2/lib/gcn-shader/src/analyze.cpp
new file mode 100644
index 00000000..4080e23c
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/analyze.cpp
@@ -0,0 +1,1230 @@
+#include "analyze.hpp"
+#include "dialect.hpp"
+#include "ir.hpp"
+#include "rx/die.hpp"
+#include "spv.hpp"
+#include <iostream>
+#include <print>
+
+using namespace shader;
+
+static std::unordered_set<ir::InstructionId> g_instsWithoutSideEffects = {
+    ir::getInstructionId(ir::spv::OpAccessChain),
+    ir::getInstructionId(ir::spv::OpInBoundsAccessChain),
+    ir::getInstructionId(ir::spv::OpPtrAccessChain),
+    ir::getInstructionId(ir::spv::OpArrayLength),
+    ir::getInstructionId(ir::spv::OpInBoundsPtrAccessChain),
+    ir::getInstructionId(ir::spv::OpVectorExtractDynamic),
+    ir::getInstructionId(ir::spv::OpVectorInsertDynamic),
+    ir::getInstructionId(ir::spv::OpVectorShuffle),
+    ir::getInstructionId(ir::spv::OpCompositeConstruct),
+    ir::getInstructionId(ir::spv::OpCompositeExtract),
+    ir::getInstructionId(ir::spv::OpCompositeInsert),
+    ir::getInstructionId(ir::spv::OpTranspose),
+    ir::getInstructionId(ir::spv::OpConvertFToU),
+    ir::getInstructionId(ir::spv::OpConvertFToS),
+    ir::getInstructionId(ir::spv::OpConvertSToF),
+    ir::getInstructionId(ir::spv::OpConvertUToF),
+    ir::getInstructionId(ir::spv::OpUConvert),
+    ir::getInstructionId(ir::spv::OpSConvert),
+    ir::getInstructionId(ir::spv::OpFConvert),
+    ir::getInstructionId(ir::spv::OpQuantizeToF16),
+    ir::getInstructionId(ir::spv::OpConvertPtrToU),
+    ir::getInstructionId(ir::spv::OpSatConvertSToU),
+    ir::getInstructionId(ir::spv::OpSatConvertUToS),
+    ir::getInstructionId(ir::spv::OpConvertUToPtr),
+    ir::getInstructionId(ir::spv::OpPtrCastToGeneric),
+    ir::getInstructionId(ir::spv::OpGenericCastToPtr),
+    ir::getInstructionId(ir::spv::OpGenericCastToPtrExplicit),
+    ir::getInstructionId(ir::spv::OpBitcast),
+    ir::getInstructionId(ir::spv::OpSNegate),
+    ir::getInstructionId(ir::spv::OpFNegate),
+    ir::getInstructionId(ir::spv::OpIAdd),
+    ir::getInstructionId(ir::spv::OpFAdd),
+    ir::getInstructionId(ir::spv::OpISub),
+    ir::getInstructionId(ir::spv::OpFSub),
+    ir::getInstructionId(ir::spv::OpIMul),
+    ir::getInstructionId(ir::spv::OpFMul),
+    ir::getInstructionId(ir::spv::OpUDiv),
+    ir::getInstructionId(ir::spv::OpSDiv),
+    ir::getInstructionId(ir::spv::OpFDiv),
+    ir::getInstructionId(ir::spv::OpUMod),
+    ir::getInstructionId(ir::spv::OpSRem),
+    ir::getInstructionId(ir::spv::OpSMod),
+    ir::getInstructionId(ir::spv::OpFRem),
+    ir::getInstructionId(ir::spv::OpFMod),
+    ir::getInstructionId(ir::spv::OpVectorTimesScalar),
+    ir::getInstructionId(ir::spv::OpMatrixTimesScalar),
+    ir::getInstructionId(ir::spv::OpVectorTimesMatrix),
+    ir::getInstructionId(ir::spv::OpMatrixTimesVector),
+    ir::getInstructionId(ir::spv::OpMatrixTimesMatrix),
+    ir::getInstructionId(ir::spv::OpOuterProduct),
+    ir::getInstructionId(ir::spv::OpDot),
+    ir::getInstructionId(ir::spv::OpIAddCarry),
+    ir::getInstructionId(ir::spv::OpISubBorrow),
+    ir::getInstructionId(ir::spv::OpUMulExtended),
+    ir::getInstructionId(ir::spv::OpSMulExtended),
+    ir::getInstructionId(ir::spv::OpAny),
+    ir::getInstructionId(ir::spv::OpAll),
+    ir::getInstructionId(ir::spv::OpIsNan),
+    ir::getInstructionId(ir::spv::OpIsInf),
+    ir::getInstructionId(ir::spv::OpIsFinite),
+    ir::getInstructionId(ir::spv::OpIsNormal),
+    ir::getInstructionId(ir::spv::OpSignBitSet),
+    ir::getInstructionId(ir::spv::OpLessOrGreater),
+    ir::getInstructionId(ir::spv::OpOrdered),
+    ir::getInstructionId(ir::spv::OpUnordered),
+    ir::getInstructionId(ir::spv::OpLogicalEqual),
+    ir::getInstructionId(ir::spv::OpLogicalNotEqual),
+    ir::getInstructionId(ir::spv::OpLogicalOr),
+    ir::getInstructionId(ir::spv::OpLogicalAnd),
+    ir::getInstructionId(ir::spv::OpLogicalNot),
+    ir::getInstructionId(ir::spv::OpSelect),
+    ir::getInstructionId(ir::spv::OpIEqual),
+    ir::getInstructionId(ir::spv::OpINotEqual),
+    ir::getInstructionId(ir::spv::OpUGreaterThan),
+    ir::getInstructionId(ir::spv::OpSGreaterThan),
+    ir::getInstructionId(ir::spv::OpUGreaterThanEqual),
+    ir::getInstructionId(ir::spv::OpSGreaterThanEqual),
+    ir::getInstructionId(ir::spv::OpULessThan),
+    ir::getInstructionId(ir::spv::OpSLessThan),
+    ir::getInstructionId(ir::spv::OpULessThanEqual),
+    ir::getInstructionId(ir::spv::OpSLessThanEqual),
+    ir::getInstructionId(ir::spv::OpFOrdEqual),
+    ir::getInstructionId(ir::spv::OpFUnordEqual),
+    ir::getInstructionId(ir::spv::OpFOrdNotEqual),
+    ir::getInstructionId(ir::spv::OpFUnordNotEqual),
+    ir::getInstructionId(ir::spv::OpFOrdLessThan),
+    ir::getInstructionId(ir::spv::OpFUnordLessThan),
+    ir::getInstructionId(ir::spv::OpFOrdGreaterThan),
+    ir::getInstructionId(ir::spv::OpFUnordGreaterThan),
+    ir::getInstructionId(ir::spv::OpFOrdLessThanEqual),
+    ir::getInstructionId(ir::spv::OpFUnordLessThanEqual),
+    ir::getInstructionId(ir::spv::OpFOrdGreaterThanEqual),
+    ir::getInstructionId(ir::spv::OpFUnordGreaterThanEqual),
+    ir::getInstructionId(ir::spv::OpShiftRightLogical),
+    ir::getInstructionId(ir::spv::OpShiftRightArithmetic),
+    ir::getInstructionId(ir::spv::OpShiftLeftLogical),
+    ir::getInstructionId(ir::spv::OpBitwiseOr),
+    ir::getInstructionId(ir::spv::OpBitwiseXor),
+    ir::getInstructionId(ir::spv::OpBitwiseAnd),
+    ir::getInstructionId(ir::spv::OpNot),
+    ir::getInstructionId(ir::spv::OpBitFieldInsert),
+    ir::getInstructionId(ir::spv::OpBitFieldSExtract),
+    ir::getInstructionId(ir::spv::OpBitFieldUExtract),
+    ir::getInstructionId(ir::spv::OpBitReverse),
+    ir::getInstructionId(ir::spv::OpBitCount),
+    ir::getInstructionId(ir::spv::OpDPdx),
+    ir::getInstructionId(ir::spv::OpDPdy),
+    ir::getInstructionId(ir::spv::OpFwidth),
+    ir::getInstructionId(ir::spv::OpDPdxFine),
+    ir::getInstructionId(ir::spv::OpDPdyFine),
+    ir::getInstructionId(ir::spv::OpFwidthFine),
+    ir::getInstructionId(ir::spv::OpDPdxCoarse),
+    ir::getInstructionId(ir::spv::OpDPdyCoarse),
+    ir::getInstructionId(ir::spv::OpFwidthCoarse),
+    ir::getInstructionId(ir::spv::OpPhi),
+
+    ir::getInstructionId(ir::amdgpu::IMM),
+    ir::getInstructionId(ir::amdgpu::USER_SGPR),
+    ir::getInstructionId(ir::amdgpu::NEG_ABS),
+    ir::getInstructionId(ir::amdgpu::OMOD),
+    ir::getInstructionId(ir::amdgpu::VBUFFER),
+    ir::getInstructionId(ir::amdgpu::SAMPLER),
+    ir::getInstructionId(ir::amdgpu::TBUFFER),
+    ir::getInstructionId(ir::amdgpu::POINTER),
+    ir::getInstructionId(ir::amdgpu::PS_INPUT_VGPR),
+    ir::getInstructionId(ir::amdgpu::PS_COMP_SWAP),
+};
+
+static bool isGlobal(ir::Instruction inst) {
+  return inst == ir::spv::OpVariable || inst == ir::spv::OpConstantTrue ||
+         inst == ir::spv::OpConstantFalse || inst == ir::spv::OpConstant ||
+         inst == ir::spv::OpConstantComposite ||
+         inst == ir::spv::OpConstantSampler ||
+         inst == ir::spv::OpConstantNull ||
+         inst == ir::spv::OpSpecConstantTrue ||
+         inst == ir::spv::OpSpecConstantFalse ||
+         inst == ir::spv::OpSpecConstant ||
+         inst == ir::spv::OpSpecConstantComposite ||
+         inst == ir::spv::OpSpecConstantOp;
+}
+
+bool shader::isTerminator(ir::Instruction inst) {
+  return spv::isTerminatorInst(inst.getInstId());
+}
+bool shader::isBranch(ir::Instruction inst) {
+  return inst == ir::spv::OpBranch || inst == ir::spv::OpBranchConditional ||
+         inst == ir::spv::OpSwitch;
+}
+bool shader::isWithoutSideEffects(ir::InstructionId id) {
+  return g_instsWithoutSideEffects.contains(id);
+}
+
+ir::Value shader::unwrapPointer(ir::Value pointer) {
+  while (true) {
+    if (pointer == ir::spv::OpAccessChain ||
+        pointer == ir::spv::OpInBoundsAccessChain) {
+      pointer = pointer.getOperand(1).getAsValue();
+      continue;
+    }
+
+    return pointer;
+  }
+}
+
+graph::DomTree<ir::Value> shader::buildDomTree(CFG &cfg, ir::Value root) {
+  if (root == nullptr) {
+    root = cfg.getEntryLabel();
+  }
+
+  return graph::buildDomTree(root, [&](ir::Value region, const auto &cb) {
+    for (auto succ : cfg.getSuccessors(region)) {
+      cb(succ->getLabel());
+    }
+  });
+}
+
+graph::DomTree<ir::Value> shader::buildPostDomTree(CFG &cfg, ir::Value root) {
+  return graph::buildDomTree(root, [&](ir::Value region, const auto &cb) {
+    auto node = cfg.getNode(region);
+    if (node == nullptr) {
+      rx::die("failed to find node of predecessor!");
+      return;
+    }
+
+    for (auto pred : node->getPredecessors()) {
+      cb(pred->getLabel());
+    }
+  });
+}
+
+void CFG::print(std::ostream &os, ir::NameStorage &ns, bool subgraph,
+                std::string_view nameSuffix) {
+  if (subgraph) {
+    os << "subgraph {\n";
+  } else {
+    os << "digraph {\n";
+  }
+  for (auto node : getPreorderNodes()) {
+    for (auto succ : node->getSuccessors()) {
+      os << "  ";
+      os << ns.getNameOf(node->getLabel());
+      os << nameSuffix;
+      os << " -> ";
+      os << ns.getNameOf(succ->getLabel());
+      os << nameSuffix;
+      os << ";\n";
+    }
+  }
+  os << "}\n";
+}
+
+std::string CFG::genTest() {
+  std::string result;
+  result += "ir::Value genCfg(spv::Context &context) {\n";
+  result += "  auto loc = context.getUnknownLocation();\n";
+  result += "  auto boolT = context.getTypeBool();\n";
+  result += "  auto trueV = context.getTrue();\n";
+  result += "  auto builder = Builder::createAppend(context, "
+            "context.layout.getOrCreateFunctions(context));\n";
+  result += "  auto debugs = Builder::createAppend(context, "
+            "context.layout.getOrCreateDebugs(context));\n";
+
+  ir::NameStorage ns;
+
+  for (auto node : getPreorderNodes()) {
+    auto name = ns.getNameOf(node->getLabel());
+    result += "  auto _" + name + " =  builder.createSpvLabel(loc);\n";
+    result += "  context.ns.setNameOf(_" + name + ", \"" + name + "\");\n";
+    result += "  debugs.createSpvName(loc, _" + name + ", \"" + name + "\");\n";
+  }
+
+  for (auto node : getPreorderNodes()) {
+    auto name = ns.getNameOf(node->getLabel());
+    result +=
+        "  builder = Builder::createInsertAfter(context, _" + name + ");\n";
+    if (node->getSuccessorCount() == 1) {
+      result += "  builder.createSpvBranch(loc, _" +
+                ns.getNameOf((*node->getSuccessors().begin())->getLabel()) +
+                ");\n";
+    } else if (node->getSuccessorCount() == 2) {
+      auto firstIt = node->getSuccessors().begin();
+      auto secondIt = std::next(firstIt);
+      result += "  builder.createSpvBranchConditional(loc, trueV, _" +
+                ns.getNameOf((*firstIt)->getLabel()) + ", _" +
+                ns.getNameOf((*secondIt)->getLabel()) + ");\n";
+
+    } else if (node->getSuccessorCount() == 0) {
+      result += "  builder.createSpvReturn(loc);\n";
+      result += "  auto returnBlock = _" + name + ";\n";
+    }
+  }
+
+  result += "  return returnBlock;\n";
+  result += "}\n";
+
+  return result;
+}
+
+static void walkSuccessors(ir::Instruction terminator, auto &&cb) {
+  if (terminator == ir::spv::OpBranch) {
+    cb(terminator.getOperand(0).getAsValue());
+    return;
+  }
+
+  if (terminator == ir::spv::OpBranchConditional) {
+    cb(terminator.getOperand(1).getAsValue());
+    cb(terminator.getOperand(2).getAsValue());
+    return;
+  }
+
+  if (terminator == ir::spv::OpSwitch) {
+    for (std::size_t i = 1, end = terminator.getOperandCount(); i < end;
+         i += 2) {
+      cb(terminator.getOperand(i).getAsValue());
+    }
+    return;
+  }
+}
+
+CFG CFG::buildView(CFG::Node *from, PostDomTree *domTree,
+                   const std::unordered_set<ir::Value> &stopLabels,
+                   ir::Value continueLabel) {
+  struct Item {
+    CFG::Node *node;
+    std::vector<CFG::Node *> successors;
+  };
+
+  std::vector<CFG::Node *> workList;
+  std::unordered_set<ir::Value> visited;
+
+  workList.push_back(from);
+  CFG result;
+  result.mEntryNode = result.getOrCreateNode(from->getLabel());
+  visited.insert(from->getLabel());
+
+  // for (auto pred : from->getPredecessors()) {
+  //   result.getOrCreateNode(pred->getLabel());
+  // }
+
+  auto createResultNode = [&](CFG::Node *node) {
+    auto newNode = result.getOrCreateNode(node->getLabel());
+    newNode->setTerminator(node->getTerminator());
+    return newNode;
+  };
+
+  while (!workList.empty()) {
+    auto item = workList.back();
+    workList.pop_back();
+
+    auto resultItem = createResultNode(item);
+    result.addPreorderNode(resultItem);
+
+    if (item != from) {
+      if (item->getLabel() == continueLabel) {
+        continue;
+      }
+      if (stopLabels.contains(item->getLabel())) {
+        if (domTree == nullptr) {
+          continue;
+        }
+
+        for (auto succ : item->getSuccessors()) {
+          if (!domTree->dominates(item->getLabel(), succ->getLabel())) {
+            continue;
+          }
+
+          auto resultSucc = createResultNode(succ);
+          resultItem->addEdge(resultSucc);
+
+          if (visited.insert(succ->getLabel()).second) {
+            workList.push_back(succ);
+          }
+        }
+
+        continue;
+      }
+    }
+
+    for (auto succ : item->getSuccessors()) {
+      auto resultSucc = createResultNode(succ);
+      resultItem->addEdge(resultSucc);
+
+      if (visited.insert(succ->getLabel()).second) {
+        workList.push_back(succ);
+      }
+    }
+  }
+
+  if (domTree != nullptr) {
+    return result;
+  }
+
+  for (auto exitLabel : stopLabels) {
+    if (exitLabel == nullptr) {
+      continue;
+    }
+
+    // collect internal branches from exitLabel. Need to collect all blocks
+    // first to be able discard edges to not exists in this CFG target blocks
+    if (auto from = result.getNode(exitLabel)) {
+      for (auto succ : getNode(exitLabel)->getSuccessors()) {
+        if (auto to = result.getNode(succ->getLabel())) {
+          from->addEdge(to);
+        }
+      }
+    }
+  }
+
+  return result;
+}
+
+void Construct::invalidateAll() {
+  Construct *root = this;
+  while (root->parent != nullptr) {
+    root = root->parent;
+  }
+
+  std::vector<Construct *> workList;
+  workList.push_back(root);
+
+  while (!workList.empty()) {
+    auto item = workList.back();
+    workList.pop_back();
+    item->analysis.invalidateAll();
+
+    for (auto &child : item->children) {
+      workList.push_back(&child);
+    }
+  }
+}
+
+void Construct::invalidate() {
+  invalidateAll();
+  // Construct *item = this;
+  // while (item != nullptr) {
+  //   item->analysis.invalidateAll();
+  //   item = item->parent;
+  // }
+}
+
+CFG shader::buildCFG(ir::Instruction firstInstruction,
+                     const std::unordered_set<ir::Value> &exitLabels,
+                     ir::Value continueLabel) {
+  struct Item {
+    CFG::Node *node;
+    ir::Instruction iterator;
+    std::vector<CFG::Node *> successors;
+  };
+
+  CFG result;
+
+  std::vector<Item> workList;
+  workList.push_back({.iterator = firstInstruction});
+
+  std::unordered_set<CFG::Node *> visited;
+
+  bool force = true;
+
+  auto addSuccessor = [&](Item &from, ir::Value toLabel) {
+    auto to = result.getOrCreateNode(toLabel);
+    from.node->addEdge(to);
+
+    if (!force && (exitLabels.contains(from.node->getLabel()) ||
+                   from.node->getLabel() == continueLabel)) {
+      return;
+    }
+
+    if (visited.insert(to).second) {
+      result.addPreorderNode(to);
+      from.successors.push_back(to);
+    }
+  };
+
+  while (!workList.empty()) {
+    Item &item = workList.back();
+
+    if (item.iterator == nullptr) {
+      if (!item.successors.empty()) {
+        auto successor = item.successors.back();
+        item.successors.pop_back();
+
+        workList.push_back(
+            {.node = successor, .iterator = successor->getLabel().getNext()});
+        continue;
+      }
+
+      result.addPostorderNode(item.node);
+      workList.pop_back();
+      continue;
+    }
+
+    auto inst = std::exchange(item.iterator, item.iterator.getNext());
+
+    if (inst == ir::spv::OpLabel) {
+      if (result.getEntryNode() == nullptr) {
+        item.node = result.getOrCreateNode(inst.staticCast<ir::Value>());
+        result.addPreorderNode(item.node);
+        result.setEntryNode(item.node);
+        visited.insert(item.node);
+      } else {
+        item.iterator = nullptr;
+        force = false;
+      }
+
+      continue;
+    }
+
+    if (isBranch(inst)) {
+      item.node->setTerminator(inst);
+      item.iterator = nullptr;
+
+      walkSuccessors(inst, [&](ir::Value label) { addSuccessor(item, label); });
+      continue;
+    }
+
+    if (isTerminator(inst)) {
+      item.node->setTerminator(inst);
+      item.iterator = nullptr;
+      continue;
+    }
+  }
+
+  for (auto exitLabel : exitLabels) {
+    if (exitLabel == nullptr) {
+      continue;
+    }
+
+    // collect internal branches from exitLabel. Need to collect all blocks
+    // first to be able discard edges to not exists in this CFG target blocks
+    if (auto from = result.getNode(exitLabel)) {
+      walkSuccessors(from->getTerminator(), [&](ir::Value toLabel) {
+        if (auto to = result.getNode(toLabel)) {
+          from->addEdge(to);
+        }
+      });
+    }
+  }
+
+  return result;
+}
+
+enum class VarSearchType { Root, Closest, Exact };
+
+static ir::memssa::Var getVarFromVariableImpl(ir::Value variable,
+                                              std::span<const ir::Operand> path,
+                                              VarSearchType searchType,
+                                              auto &&getVarFn) {
+  auto result = getVarFn(variable);
+
+  if (searchType == VarSearchType::Root) {
+    return result;
+  }
+
+  if (result == nullptr) {
+    return nullptr;
+  }
+
+  for (auto &op : path) {
+    auto indexOp = op.getAsValue();
+    if (indexOp != ir::spv::OpConstant) {
+      if (searchType == VarSearchType::Exact) {
+        return {};
+      }
+
+      break;
+    }
+
+    auto pIndex = indexOp.getOperand(1).getAsInt32();
+
+    if (pIndex == nullptr) {
+      if (searchType == VarSearchType::Exact) {
+        return {};
+      }
+
+      break;
+    }
+
+    auto index = *pIndex;
+
+    if (index >= result.getOperandCount()) {
+      if (searchType == VarSearchType::Exact) {
+        return {};
+      }
+
+      break;
+    }
+
+    result = result.getOperand(index)
+                 .getAsValue()
+                 .template staticCast<ir::memssa::Var>();
+  }
+
+  return result;
+}
+
+template <typename GetVarFnT>
+static ir::memssa::Var getVarFromPointerImpl(ir::Value pointer,
+                                             VarSearchType searchType,
+                                             GetVarFnT &&getVarFn) {
+  std::vector<std::span<const ir::Operand>> pathStack;
+
+  while (pointer != ir::spv::OpVariable) {
+    if (pointer == ir::spv::OpAccessChain ||
+        pointer == ir::spv::OpInBoundsAccessChain) {
+      pathStack.push_back(pointer.getOperands().subspan(2));
+      pointer = pointer.getOperand(1).getAsValue();
+    } else {
+      ir::NameStorage ns;
+      pointer.print(std::cerr, ns);
+      rx::die("memssa: failed to unwrap pointer to variable");
+    }
+  }
+
+  if (pathStack.empty()) {
+    return getVarFromVariableImpl(pointer, {}, searchType,
+                                  std::forward<GetVarFnT>(getVarFn));
+  }
+
+  if (pathStack.size() == 1) {
+    return getVarFromVariableImpl(pointer, pathStack.back(), searchType,
+                                  std::forward<GetVarFnT>(getVarFn));
+  }
+
+  std::vector<ir::Operand> mergedPath;
+
+  while (!pathStack.empty()) {
+    auto span = pathStack.back();
+    pathStack.pop_back();
+    mergedPath.reserve(mergedPath.size() + span.size());
+
+    for (auto &elem : span) {
+      mergedPath.push_back(elem);
+    }
+  }
+
+  return getVarFromVariableImpl(pointer, mergedPath, searchType,
+                                std::forward<GetVarFnT>(getVarFn));
+}
+
+ir::memssa::Var MemorySSA::getVar(ir::Value variable,
+                                  std::span<const ir::Operand> path) {
+  return getVarFromVariableImpl(
+      variable, path, VarSearchType::Exact,
+      [this](ir::Value variable) { return getVarImpl(variable); });
+}
+
+ir::memssa::Var MemorySSA::getVar(ir::Value pointer) {
+  return getVarFromPointerImpl(
+      pointer, VarSearchType::Exact,
+      [this](ir::Value variable) { return getVarImpl(variable); });
+}
+
+ir::memssa::Var MemorySSA::getVarImpl(ir::Value variable) {
+  rx::dieIf(variable != ir::spv::OpVariable,
+            "memssa: getVar: unexpected variable type");
+
+  if (auto it = variableToVar.find(variable); it != variableToVar.end()) {
+    return it->second;
+  }
+
+  return nullptr;
+}
+
+class MemorySSABuilder {
+public:
+  using IRBuilder = ir::Builder<ir::builtin::Builder, ir::memssa::Builder>;
+
+private:
+  MemorySSA memSSA;
+
+  ir::memssa::Var getOrCreateVarImpl(ir::Value variable) {
+    rx::dieIf(variable != ir::spv::OpVariable,
+              "memssa-builder: getVar: unexpected variable type");
+
+    auto &result = memSSA.variableToVar[variable];
+
+    if (result == nullptr) {
+      result = createVarWithLayout(variable);
+    }
+
+    return result;
+  }
+
+  ir::memssa::Var createVarWithLayout(ir::Value variable, ir::Value type) {
+    auto builder = IRBuilder::createPrepend(memSSA.context, memSSA.region);
+
+    if (type == ir::spv::OpTypeVector) {
+      auto elementType = type.getOperand(0).getAsValue();
+      auto count = *type.getOperand(1).getAsInt32();
+
+      auto result = builder.createVar(variable);
+
+      for (int i = 0; i < count; ++i) {
+        result.addOperand(createVarWithLayout(variable, elementType));
+      }
+
+      return result;
+    }
+
+    if (type == ir::spv::OpTypeArray) {
+      auto elementType = type.getOperand(0).getAsValue();
+      auto count = *type.getOperand(1).getAsValue().getOperand(1).getAsInt32();
+
+      auto result = builder.createVar(variable);
+
+      for (int i = 0; i < count; ++i) {
+        result.addOperand(createVarWithLayout(variable, elementType));
+      }
+
+      return result;
+    }
+
+    if (type == ir::spv::OpTypeStruct) {
+      auto result = builder.createVar(variable);
+      for (std::size_t i = 0; auto &op : type.getOperands()) {
+        result.addOperand(createVarWithLayout(variable, op.getAsValue()));
+      }
+      return result;
+    }
+
+    return builder.createVar(variable);
+  }
+
+  ir::memssa::Var createVarWithLayout(ir::Value variable) {
+    auto type = variable.getOperand(0).getAsValue().getOperand(1).getAsValue();
+    return createVarWithLayout(variable, type);
+  }
+
+public:
+  ir::Context &getContext() { return memSSA.context; }
+  ir::RegionLike getRegion() { return memSSA.region; }
+
+  ir::memssa::Var getOrCreateVar(ir::Value variable,
+                                 std::span<const ir::Operand> path,
+                                 VarSearchType searchType) {
+    return getVarFromVariableImpl(
+        variable, path, searchType,
+        [this](ir::Value variable) { return getOrCreateVarImpl(variable); });
+  }
+
+  ir::memssa::Var getOrCreateVar(ir::Value pointer, VarSearchType searchType) {
+    return getVarFromPointerImpl(
+        pointer, searchType,
+        [this](ir::Value variable) { return getOrCreateVarImpl(variable); });
+  }
+
+  ir::memssa::Def getOrCreatePointerDef(ir::memssa::Scope scope,
+                                        ir::Value pointer,
+                                        VarSearchType searchType) {
+    rx::dieIf(searchType == VarSearchType::Root,
+              "memssa-builder: getPointerDef: unexpected searchType");
+
+    auto var = getOrCreateVar(pointer, searchType);
+
+    if (auto varDef = scope.findVarDef(var)) {
+      return varDef;
+    }
+
+    return IRBuilder::createPrepend(memSSA.context, scope).createPhi(var);
+  }
+
+  std::pair<ir::memssa::Def, bool> getOrCreateVarDef(ir::memssa::Scope scope,
+                                                     ir::memssa::Var var) {
+    if (auto varDef = scope.findVarDef(var)) {
+      return {varDef, false};
+    }
+
+    return {IRBuilder::createPrepend(memSSA.context, scope).createPhi(var),
+            true};
+  }
+
+  void createVarAccess(ir::Instruction inst, ir::memssa::Scope scope,
+                       ir::memssa::Var var, Access access) {
+    if ((access & Access::Read) == Access::Read) {
+      auto [def, inserted] = getOrCreateVarDef(scope, var);
+      IRBuilder::createAppend(getContext(), scope).createUse(inst, def);
+    }
+
+    if ((access & Access::Write) == Access::Write) {
+      IRBuilder::createAppend(getContext(), scope).createDef(inst, var);
+    }
+  }
+
+  void createPointerAccess(ir::Instruction inst, ir::memssa::Scope scope,
+                           ir::Value pointer, VarSearchType searchType,
+                           Access access) {
+    if (access == Access::None) {
+      return;
+    }
+
+    createVarAccess(inst, scope, getOrCreateVar(pointer, searchType), access);
+  }
+
+  MemorySSA build(CFG &cfg, auto &&handleInst);
+};
+
+MemorySSA MemorySSABuilder::build(CFG &cfg, auto &&handleInst) {
+  memSSA.region =
+      IRBuilder(memSSA.context).createRegion(cfg.getEntryLabel().getLocation());
+
+  std::map<ir::Value, ir::memssa::Scope> labelToScope;
+  ir::memssa::Scope entryScope;
+  std::vector<ir::memssa::Barrier> barriers;
+
+  for (auto node : cfg.getPreorderNodes()) {
+    auto scope = IRBuilder::createAppend(memSSA.context, memSSA.region)
+                     .createScope(node->getLabel());
+
+    labelToScope[node->getLabel()] = scope;
+
+    if (entryScope == nullptr) {
+      entryScope = scope;
+    }
+
+    for (auto inst : node->rangeWithoutLabelAndTerminator()) {
+      if (inst.getKind() == ir::Kind::Spv) {
+        if (inst.getOp() == ir::spv::OpStore) {
+          createPointerAccess(inst, scope, inst.getOperand(0).getAsValue(),
+                              VarSearchType::Closest, Access::Write);
+          continue;
+        }
+
+        if (inst.getOp() == ir::spv::OpLoad) {
+          createPointerAccess(inst, scope, inst.getOperand(1).getAsValue(),
+                              VarSearchType::Closest, Access::Read);
+          continue;
+        }
+      }
+
+      if (handleInst(*this, scope, inst)) {
+        continue;
+      }
+
+      // if (isWithoutSideEffects(inst.getInstId())) {
+      //   continue;
+      // }
+
+      if (inst == ir::amdgpu::BRANCH || (inst.getKind() != ir::Kind::Spv &&
+                                         inst.getKind() != ir::Kind::AmdGpu)) {
+        auto barrier =
+            IRBuilder::createAppend(memSSA.context, scope).createBarrier(inst);
+        barriers.push_back(barrier);
+      }
+    }
+  }
+
+  std::vector<ir::memssa::Scope> workList;
+  for (auto [label, scope] : labelToScope) {
+    auto successors = cfg.getSuccessors(label);
+
+    auto builder = IRBuilder::createAppend(memSSA.context, scope);
+    if (successors.empty()) {
+      builder.createExit(label.getLocation());
+    } else {
+      auto jump = builder.createJump(label.getLocation());
+
+      for (auto succLabel : successors) {
+        auto succ = labelToScope.at(succLabel->getLabel());
+        jump.addOperand(succ);
+
+        for (auto child : succ.children()) {
+          if (child != ir::memssa::OpPhi) {
+            break;
+          }
+
+          auto phi = child.staticCast<ir::memssa::Phi>();
+          auto [varDef, inserted] = getOrCreateVarDef(scope, phi.getVar());
+          phi.addValue(scope, varDef);
+
+          if (inserted) {
+            workList.push_back(scope);
+          }
+        }
+      }
+    }
+  }
+
+  while (!workList.empty()) {
+    auto scope = workList.back();
+    workList.pop_back();
+
+    for (auto pred : scope.getPredecessors()) {
+      bool predChanges = false;
+
+      for (auto child : scope.children()) {
+        if (child != ir::memssa::OpPhi) {
+          break;
+        }
+
+        auto phi = child.staticCast<ir::memssa::Phi>();
+        auto [varDef, inserted] = getOrCreateVarDef(pred, phi.getVar());
+
+        phi.setValue(pred, varDef);
+
+        if (inserted) {
+          predChanges = true;
+        }
+      }
+
+      if (predChanges) {
+        workList.push_back(pred);
+      }
+    }
+  }
+
+  for (auto scope : ir::range<ir::memssa::Scope>(entryScope)) {
+    workList.push_back(scope);
+  }
+
+  while (!workList.empty()) {
+    auto scope = workList.back();
+    workList.pop_back();
+    bool changes = false;
+
+    for (auto child : scope.children()) {
+      if (child != ir::memssa::OpPhi) {
+        break;
+      }
+
+      auto phi = child.staticCast<ir::memssa::Phi>();
+      auto uniqDef = phi.getUniqDef();
+
+      if (uniqDef == nullptr) {
+        continue;
+      }
+
+      phi.replaceAllUsesWith(uniqDef);
+      phi.remove();
+      changes = true;
+    }
+
+    auto succ = scope.getSingleSuccessor();
+    if (succ && succ.getSinglePredecessor() == scope) {
+      for (auto child : succ.children()) {
+        if (child != ir::memssa::OpPhi) {
+          break;
+        }
+
+        auto phi = child.staticCast<ir::memssa::Phi>();
+        phi.replaceAllUsesWith(phi.getDef(scope));
+        phi.remove();
+      }
+
+      // remove terminator from imm predecessor
+      scope.getLast().remove();
+
+      // merge regions and update phis
+      scope.appendRegion(succ);
+      succ.replaceAllUsesWith(scope);
+      succ.remove();
+      changes = true;
+    }
+
+    if (changes) {
+      for (auto &succ : scope.getSuccessors()) {
+        workList.push_back(succ);
+      }
+    }
+  }
+
+  // auto domTree = graph::DomTreeBuilder<ir::memssa::Scope>{}.build(
+  //     entryScope, [&](ir::memssa::Scope scope, const auto &cb) {
+  //       for (auto succ : scope.getSuccessors()) {
+  //         cb(succ);
+  //       }
+  //     });
+
+  for (auto scope : ir::range<ir::memssa::Scope>(entryScope)) {
+    for (auto use : scope.children<ir::memssa::Use>()) {
+      auto &user = memSSA.userDefs[use.getLinkedInst()];
+
+      for (auto &op : use.getOperands()) {
+        auto def = op.getAsValue().staticCast<ir::memssa::Def>();
+
+        if (def == ir::memssa::OpPhi) {
+          user[def.getRootVar()] = def;
+          continue;
+        }
+
+        if (def == ir::memssa::OpBarrier) {
+          user[nullptr] = def;
+          continue;
+        }
+
+        for (auto &var : def.getOperands()) {
+          user[var.getAsValue().staticCast<ir::memssa::Var>()] = def;
+        }
+      }
+    }
+  }
+
+  return std::move(memSSA);
+}
+
+MemorySSA
+shader::buildMemorySSA(CFG &cfg, const SemanticInfo &instructionSemantic,
+                       std::function<ir::Value(int)> getRegisterVarCb) {
+  return MemorySSABuilder{}.build(cfg, [&](MemorySSABuilder &builder,
+                                           ir::memssa::Scope scope,
+                                           ir::Instruction inst) {
+    using IRBuilder = MemorySSABuilder::IRBuilder;
+    auto semantic = instructionSemantic.findSemantic(inst.getInstId());
+    if (semantic == nullptr) {
+      return false;
+    }
+
+    for (auto [regId, access] : semantic->registerAccesses) {
+      if (access == Access::None) {
+        continue;
+      }
+
+      auto reg = getRegisterVarCb(regId);
+      if (!reg) {
+        continue;
+      }
+
+      builder.createPointerAccess(inst, scope, reg, VarSearchType::Root,
+                                  access);
+    }
+
+    auto args = inst.getOperands();
+    args = args.subspan(args.size() - semantic->parameters.size());
+
+    for (std::size_t i = 0; i < args.size(); ++i) {
+      auto arg = args[i].getAsValue();
+      auto param = semantic->parameters[i];
+
+      if (param.access == Access::None) {
+        continue;
+      }
+
+      builder.createPointerAccess(inst, scope, arg, VarSearchType::Root,
+                                  param.access);
+    }
+
+    return true;
+  });
+}
+
+MemorySSA shader::buildMemorySSA(CFG &cfg, ModuleInfo *moduleInfo) {
+  return MemorySSABuilder{}.build(cfg, [&](MemorySSABuilder &builder,
+                                           ir::memssa::Scope scope,
+                                           ir::Instruction inst) {
+    using IRBuilder = MemorySSABuilder::IRBuilder;
+
+    if (moduleInfo == nullptr) {
+      return false;
+    }
+
+    if (inst != ir::spv::OpFunctionCall) {
+      return false;
+    }
+
+    auto callee = inst.getOperand(1).getAsValue();
+    auto it = moduleInfo->functions.find(callee);
+    auto fnInfo = it == moduleInfo->functions.end() ? nullptr : &it->second;
+
+    if (fnInfo == nullptr) {
+      return false;
+    }
+
+    for (auto [variable, access] : fnInfo->variables) {
+      builder.createPointerAccess(inst, scope, variable, VarSearchType::Root,
+                                  access);
+    }
+
+    auto args = inst.getOperands();
+    args = args.subspan(args.size() - fnInfo->parameters.size());
+
+    for (std::size_t i = 0; i < args.size(); ++i) {
+      auto arg = args[i].getAsValue();
+      auto param = fnInfo->parameters[i];
+
+      if (param.access == Access::None) {
+        continue;
+      }
+
+      builder.createPointerAccess(inst, scope, arg, VarSearchType::Root,
+                                  param.access);
+    }
+
+    return true;
+  });
+}
+
+void MemorySSA::print(std::ostream &os, ir::Region irRegion,
+                      ir::NameStorage &ns) {
+  std::map<ir::Instruction, std::vector<ir::memssa::Def>> instDefs;
+  std::map<ir::Instruction, std::vector<ir::memssa::Phi>> phis;
+
+  for (auto scope : region.children<ir::memssa::Scope>()) {
+    for (auto def : scope.children<ir::memssa::Def>()) {
+      if (auto linked = def.getLinkedInst()) {
+        instDefs[linked].push_back(def);
+      } else if (auto phi = def.cast<ir::memssa::Phi>()) {
+        phis[phi.getParent().staticCast<ir::memssa::Scope>().getLinkedInst()]
+            .push_back(phi);
+      }
+    }
+  }
+
+  for (auto child : irRegion.children()) {
+    child.print(os, ns);
+
+    if (auto it = instDefs.find(child); it != instDefs.end()) {
+      for (auto def : it->second) {
+        os << " def(@" << ns.getNameOf(def) << ")";
+      }
+    }
+
+    if (auto it = phis.find(child); it != phis.end()) {
+      for (auto phi : it->second) {
+        os << " phi(@" << ns.getNameOf(phi);
+
+        for (std::size_t i = 2; i < phi.getOperandCount(); i += 2) {
+          os << ", use(@" << ns.getNameOf(phi.getOperand(i).getAsValue())
+             << ")";
+        }
+
+        os << ")";
+      }
+    }
+
+    if (auto it = userDefs.find(child); it != userDefs.end()) {
+      for (auto [var, def] : it->second) {
+        os << " use(@" << ns.getNameOf(def) << ", ";
+        if (var == nullptr) {
+          os << "barrier ";
+        }
+
+        if (auto link = def.getLinkedInst()) {
+          link.print(os, ns);
+        } else {
+          os << "phi";
+        }
+
+        os << ")";
+      }
+    }
+
+    os << '\n';
+  }
+}
+void MemorySSA::print(std::ostream &os, ir::NameStorage &ns) {
+  region.print(os, ns);
+}
+
+void MemorySSA::dump() {
+  ir::NameStorage ns;
+  print(std::cerr, ns);
+}
+
+bool shader::dominates(ir::Instruction a, ir::Instruction b, bool isPostDom,
+                       graph::DomTree<ir::Value> &domTree) {
+  if (a == b) {
+    return true;
+  }
+
+  if (isGlobal(a)) {
+    return true;
+  }
+
+  if (isGlobal(b)) {
+    return false;
+  }
+
+  auto origA = a;
+
+  while (a != ir::spv::OpLabel) {
+    if (a == b) {
+      return isPostDom;
+    }
+
+    a = a.getPrev();
+  }
+
+  while (b != ir::spv::OpLabel) {
+    if (b == origA) {
+      return !isPostDom;
+    }
+
+    b = b.getPrev();
+  }
+
+  return domTree.dominates(a.staticCast<ir::Value>(),
+                           b.staticCast<ir::Value>());
+}
+
+ir::Value
+shader::findNearestCommonDominator(ir::Instruction a, ir::Instruction b,
+                                   graph::DomTree<ir::Value> &domTree) {
+  if (a == nullptr || b == nullptr || isGlobal(a) || isGlobal(b)) {
+    std::abort();
+  }
+
+  while (a != ir::spv::OpLabel) {
+    a = a.getPrev();
+  }
+
+  while (b != ir::spv::OpLabel) {
+    b = b.getPrev();
+  }
+
+  return domTree.findNearestCommonDominator(a.staticCast<ir::Value>(),
+                                            b.staticCast<ir::Value>());
+}
+
+BackEdgeStorage::BackEdgeStorage(CFG &cfg) {
+  struct Entry {
+    ir::Value bb;
+    CFG::Node::Iterator successorsIt;
+    CFG::Node::Iterator successorsEnd;
+  };
+
+  std::vector<Entry> workList;
+  std::unordered_set<ir::Value> inWorkList;
+  // std::unordered_set<ir::Value> viewed;
+  workList.reserve(cfg.getPostorderNodes().size());
+  inWorkList.reserve(cfg.getPostorderNodes().size());
+
+  auto addToWorkList = [&](CFG::Node *node) {
+    if (inWorkList.insert(node->getLabel()).second) {
+      workList.push_back({
+          .bb = node->getLabel(),
+          .successorsIt = node->getSuccessors().begin(),
+          .successorsEnd = node->getSuccessors().end(),
+      });
+      return true;
+    }
+
+    return false;
+  };
+
+  addToWorkList(cfg.getEntryNode());
+
+  while (!workList.empty()) {
+    auto &entry = workList.back();
+
+    if (entry.successorsIt == entry.successorsEnd) {
+      // viewed.insert(inWorkList.extract(entry.bb));
+      workList.pop_back();
+      continue;
+    }
+
+    auto label = entry.bb;
+    auto it = entry.successorsIt;
+    ++entry.successorsIt;
+
+    auto successor = *it;
+
+    // if (viewed.contains(successor->getLabel())) {
+    //   continue;
+    // }
+
+    if (!addToWorkList(successor)) {
+      backEdges[successor->getLabel()].insert(label);
+    }
+  }
+}
\ No newline at end of file
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/eval.cpp b/rpcsx-gpu2/lib/gcn-shader/src/eval.cpp
new file mode 100644
index 00000000..f748f23f
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/eval.cpp
@@ -0,0 +1,688 @@
+#include "eval.hpp"
+#include "dialect.hpp"
+#include "ir.hpp"
+#include <cmath>
+#include <concepts>
+
+using namespace shader;
+
+template <typename Cond, typename... Args> consteval bool testVisitCond() {
+  if constexpr (std::is_same_v<Cond, void>) {
+    return true;
+  } else {
+    return Cond{}(std::remove_cvref_t<Args>{}...);
+  }
+};
+
+template <typename Cond, std::size_t U> consteval bool testVisitCond() {
+  if constexpr (U >= eval::Value::StorageSize) {
+    return false;
+  } else if constexpr (std::is_same_v<Cond, void>) {
+    return true;
+  } else {
+    return Cond{}(std::variant_alternative_t<U, eval::Value::Storage>{});
+  }
+};
+
+template <typename Cond = void, size_t I = 0>
+constexpr eval::Value visitImpl(const eval::Value &variant, auto &&fn) {
+
+#define DEFINE_CASE(N)                                                         \
+  case I + N:                                                                  \
+    if constexpr (testVisitCond<Cond, I + N>()) {                              \
+      return std::forward<decltype(fn)>(fn)(std::get<I + N>(variant.storage)); \
+    } else {                                                                   \
+      return {};                                                               \
+    }
+
+  switch (variant.storage.index()) {
+    DEFINE_CASE(0);
+    DEFINE_CASE(1);
+    DEFINE_CASE(2);
+    DEFINE_CASE(3);
+    DEFINE_CASE(4);
+    DEFINE_CASE(5);
+    DEFINE_CASE(6);
+    DEFINE_CASE(7);
+    DEFINE_CASE(8);
+    DEFINE_CASE(9);
+    DEFINE_CASE(10);
+    DEFINE_CASE(11);
+    DEFINE_CASE(12);
+    DEFINE_CASE(13);
+    DEFINE_CASE(14);
+    DEFINE_CASE(15);
+    DEFINE_CASE(16);
+    DEFINE_CASE(17);
+    DEFINE_CASE(18);
+    DEFINE_CASE(19);
+    DEFINE_CASE(20);
+    DEFINE_CASE(21);
+    DEFINE_CASE(22);
+    DEFINE_CASE(23);
+    DEFINE_CASE(24);
+    DEFINE_CASE(25);
+    DEFINE_CASE(26);
+    DEFINE_CASE(27);
+    DEFINE_CASE(28);
+    DEFINE_CASE(29);
+    DEFINE_CASE(30);
+    DEFINE_CASE(31);
+    DEFINE_CASE(32);
+    DEFINE_CASE(33);
+    DEFINE_CASE(34);
+    DEFINE_CASE(35);
+    DEFINE_CASE(36);
+    DEFINE_CASE(37);
+    DEFINE_CASE(38);
+    DEFINE_CASE(39);
+    DEFINE_CASE(40);
+    DEFINE_CASE(41);
+    DEFINE_CASE(42);
+    DEFINE_CASE(43);
+    DEFINE_CASE(44);
+    DEFINE_CASE(45);
+    DEFINE_CASE(46);
+    DEFINE_CASE(47);
+    DEFINE_CASE(48);
+    DEFINE_CASE(49);
+    DEFINE_CASE(50);
+    DEFINE_CASE(51);
+    DEFINE_CASE(52);
+    DEFINE_CASE(53);
+    DEFINE_CASE(54);
+    DEFINE_CASE(55);
+    DEFINE_CASE(56);
+    DEFINE_CASE(57);
+    DEFINE_CASE(58);
+    DEFINE_CASE(59);
+    DEFINE_CASE(60);
+    DEFINE_CASE(61);
+    DEFINE_CASE(62);
+    DEFINE_CASE(63);
+  }
+#undef DEFINE_CASE
+
+  constexpr auto NextIndex = I + 64;
+
+  if constexpr (NextIndex < eval::Value::StorageSize) {
+    return visitImpl<Cond, NextIndex>(std::forward<decltype(fn)>(fn),
+                                      std::forward<decltype(variant)>(variant));
+  }
+
+  return {};
+}
+
+template <typename Cond = void, typename Cb>
+constexpr eval::Value visitScalarType(ir::Value type, Cb &&cb)
+  requires requires {
+    { std::forward<Cb>(cb)(int{}) } -> std::same_as<eval::Value>;
+  }
+{
+  auto invoke = [&](auto type) -> eval::Value {
+    if constexpr (testVisitCond<Cond, std::remove_cvref_t<decltype(type)>>()) {
+      return std::forward<Cb>(cb)(type);
+    }
+    return {};
+  };
+
+  if (type == ir::spv::OpTypeBool) {
+    return invoke(bool{});
+  }
+
+  if (type == ir::spv::OpTypeInt) {
+    auto isSigned = *type.getOperand(1).getAsInt32();
+
+    switch (*type.getOperand(0).getAsInt32()) {
+    case 8:
+      if (isSigned) {
+        return invoke(std::int8_t{});
+      }
+      return invoke(std::uint8_t{});
+
+    case 16:
+      if (isSigned) {
+        return invoke(std::int16_t{});
+      }
+      return invoke(std::uint16_t{});
+
+    case 32:
+      if (isSigned) {
+        return invoke(std::int32_t{});
+      }
+      return invoke(std::uint32_t{});
+
+    case 64:
+      if (isSigned) {
+        return invoke(std::int64_t{});
+      }
+      return invoke(std::uint64_t{});
+    }
+
+    return {};
+  }
+
+  if (type == ir::spv::OpTypeFloat) {
+    switch (*type.getOperand(0).getAsInt32()) {
+    case 16:
+      return invoke(shader::float16_t{});
+
+    case 32:
+      return invoke(shader::float32_t{});
+
+    case 64:
+      return invoke(shader::float64_t{});
+    }
+
+    return {};
+  }
+
+  return {};
+}
+
+template <typename Cond = void, typename Cb>
+constexpr eval::Value visitType(ir::Value type, Cb &&cb)
+  requires requires {
+    { std::forward<Cb>(cb)(int{}) } -> std::same_as<eval::Value>;
+  }
+{
+  if (type == ir::spv::OpTypeInt || type == ir::spv::OpTypeFloat ||
+      type == ir::spv::OpTypeBool) {
+    return visitScalarType<Cond>(type, cb);
+  }
+
+  auto invoke = [&](auto type) -> eval::Value {
+    if constexpr (testVisitCond<Cond, std::remove_cvref_t<decltype(type)>>()) {
+      return std::forward<Cb>(cb)(type);
+    } else {
+      return {};
+    }
+  };
+
+  if (type == ir::spv::OpTypeVector) {
+    switch (*type.getOperand(1).getAsInt32()) {
+    case 2:
+      return visitScalarType(
+          type.getOperand(0).getAsValue(),
+          [&]<typename T>(T) { return invoke(shader::Vector<T, 2>{}); });
+
+    case 3:
+      return visitScalarType(
+          type.getOperand(0).getAsValue(),
+          [&]<typename T>(T) { return invoke(shader::Vector<T, 3>{}); });
+
+    case 4:
+      return visitScalarType(
+          type.getOperand(0).getAsValue(),
+          [&]<typename T>(T) { return invoke(shader::Vector<T, 4>{}); });
+    }
+
+    return {};
+  }
+
+  return {};
+}
+
+template <typename Cond = void, typename Cb>
+eval::Value visit(const eval::Value &value, Cb &&cb) {
+  using VisitCond = decltype([](auto &&storage) {
+    using T = std::remove_cvref_t<decltype(storage)>;
+    if constexpr (std::is_same_v<T, std::nullptr_t>) {
+      return false;
+    } else {
+      return testVisitCond<Cond, T>();
+    }
+  });
+
+  return visitImpl<VisitCond>(value, std::forward<Cb>(cb));
+}
+
+template <typename Cb>
+eval::Value visit2(auto &&cond, const eval::Value &value, Cb &&cb) {
+  if constexpr (cond()) {
+    return visitImpl(value, std::forward<Cb>(cb));
+  } else {
+    return {};
+  }
+}
+
+template <typename ValueCond = void, typename TypeVisitCond = void,
+          typename TypeValueVisitCond = void, typename Cb>
+eval::Value visitWithType(const eval::Value &value, ir::Value type, Cb &&cb) {
+  using ValueVisitCond = decltype([](auto storage) {
+    if constexpr (std::is_same_v<decltype(storage), std::nullptr_t>) {
+      return false;
+    } else {
+      return testVisitCond<ValueCond, decltype(storage)>();
+    }
+  });
+
+  return visitImpl<ValueVisitCond>(value, [&](auto &&value) -> eval::Value {
+    return visitType<TypeVisitCond>(type, [&](auto type) -> eval::Value {
+      if constexpr (testVisitCond<TypeValueVisitCond, decltype(type),
+                                  decltype(value)>()) {
+        return std::forward<Cb>(cb)(type, value);
+      } else {
+        return {};
+      }
+    });
+  });
+}
+
+namespace {
+template <typename T> struct ComponentTypeImpl {
+  using type = T;
+};
+
+template <typename T, std::size_t N> struct ComponentTypeImpl<Vector<T, N>> {
+  using type = T;
+};
+
+template <typename T, std::size_t N>
+struct ComponentTypeImpl<std::array<T, N>> {
+  using type = T;
+};
+
+template <typename T> struct MakeSignedImpl {
+  using type = std::make_signed_t<T>;
+};
+
+template <typename T, std::size_t N> struct MakeSignedImpl<Vector<T, N>> {
+  using type = Vector<std::make_signed_t<T>, N>;
+};
+template <typename T> struct MakeUnsignedImpl {
+  using type = std::make_unsigned_t<T>;
+};
+
+template <typename T, std::size_t N> struct MakeUnsignedImpl<Vector<T, N>> {
+  using type = Vector<std::make_unsigned_t<T>, N>;
+};
+} // namespace
+
+template <typename T> using ComponentType = typename ComponentTypeImpl<T>::type;
+template <typename T> using MakeSigned = typename MakeSignedImpl<T>::type;
+template <typename T> using MakeUnsigned = typename MakeUnsignedImpl<T>::type;
+
+template <typename> constexpr std::size_t Components = 1;
+template <typename T, std::size_t N>
+constexpr std::size_t Components<Vector<T, N>> = N;
+template <typename T, std::size_t N>
+constexpr std::size_t Components<std::array<T, N>> = N;
+
+template <typename> constexpr bool IsArray = false;
+template <typename T, std::size_t N>
+constexpr bool IsArray<std::array<T, N>> = true;
+
+eval::Value
+eval::Value::compositeConstruct(ir::Value type,
+                                std::span<const eval::Value> constituents) {
+  using Cond =
+      decltype([](auto type) { return Components<decltype(type)> > 1; });
+
+  return visitType<Cond>(type, [&](auto type) -> Value {
+    constexpr std::size_t N = Components<decltype(type)>;
+    if (N != constituents.size()) {
+      return {};
+    }
+
+    decltype(type) result;
+
+    for (std::size_t i = 0; i < N; ++i) {
+      if (auto value = constituents[i].as<ComponentType<decltype(type)>>()) {
+        result[i] = *value;
+      } else {
+        return {};
+      }
+    }
+
+    return result;
+  });
+}
+
+eval::Value eval::Value::compositeExtract(const Value &index) const {
+  using Cond =
+      decltype([](auto type) { return Components<decltype(type)> > 1; });
+
+  auto optIndexInt = index.zExtScalar();
+  if (!optIndexInt) {
+    return {};
+  }
+
+  auto indexInt = *optIndexInt;
+
+  return visit<Cond>(*this, [&](auto &&value) -> Value {
+    using ValueType = std::remove_cvref_t<decltype(value)>;
+    constexpr std::size_t N = Components<ValueType>;
+
+    if (indexInt >= N) {
+      return {};
+    }
+
+    return value[indexInt];
+  });
+}
+
+eval::Value eval::Value::isNan() const {
+  using Cond = decltype([](auto type) {
+    return std::is_floating_point_v<ComponentType<decltype(type)>> && !IsArray<decltype(type)>;
+  });
+
+  return visit<Cond>(*this, [](auto &&value) -> Value {
+    constexpr std::size_t N = Components<std::remove_cvref_t<decltype(value)>>;
+
+    if constexpr (N == 1) {
+      return std::isnan(value);
+    } else {
+      Vector<bool, N> result;
+      for (std::size_t i = 0; i < N; ++i) {
+        result[i] = std::isnan(value[i]);
+      }
+      return result;
+    }
+  });
+}
+
+eval::Value eval::Value::isInf() const {
+  using Cond = decltype([](auto type) {
+    return std::is_floating_point_v<ComponentType<decltype(type)>> && !IsArray<decltype(type)>;
+  });
+
+  return visit<Cond>(*this, [](auto &&value) -> Value {
+    constexpr std::size_t N = Components<std::remove_cvref_t<decltype(value)>>;
+
+    if constexpr (N == 1) {
+      return std::isinf(value);
+    } else {
+      Vector<bool, N> result;
+      for (std::size_t i = 0; i < N; ++i) {
+        result[i] = std::isinf(value[i]);
+      }
+      return result;
+    }
+  });
+}
+
+eval::Value eval::Value::isFinite() const {
+  using Cond = decltype([](auto type) {
+    return std::is_floating_point_v<ComponentType<decltype(type)>>;
+  });
+
+  return visit<Cond>(*this, [](auto &&value) -> Value {
+    constexpr std::size_t N = Components<std::remove_cvref_t<decltype(value)>>;
+
+    if constexpr (N == 1) {
+      return std::isfinite(value);
+    } else {
+      Vector<bool, N> result;
+      for (std::size_t i = 0; i < N; ++i) {
+        result[i] = std::isfinite(value[i]);
+      }
+      return result;
+    }
+  });
+}
+
+eval::Value eval::Value::makeUnsigned() const {
+  using Cond = decltype([](auto type) {
+    return std::is_integral_v<ComponentType<decltype(type)>> &&
+           !std::is_same_v<ComponentType<decltype(type)>, bool> &&
+           !IsArray<decltype(type)>;
+  });
+
+  return visit<Cond>(*this, [](auto &&value) -> Value {
+    constexpr std::size_t N = Components<std::remove_cvref_t<decltype(value)>>;
+    using T = std::make_unsigned_t<
+        ComponentType<std::remove_cvref_t<decltype(value)>>>;
+
+    if constexpr (N == 1) {
+      return static_cast<T>(value);
+    } else {
+      Vector<T, N> result;
+      for (std::size_t i = 0; i < N; ++i) {
+        result[i] = static_cast<T>(value[i]);
+      }
+      return result;
+    }
+  });
+}
+eval::Value eval::Value::makeSigned() const {
+  using Cond = decltype([](auto type) {
+    return std::is_integral_v<ComponentType<decltype(type)>> &&
+           !std::is_same_v<ComponentType<decltype(type)>, bool> &&
+           !IsArray<decltype(type)>;
+  });
+
+  return visit<Cond>(*this, [](auto &&value) -> Value {
+    constexpr std::size_t N = Components<std::remove_cvref_t<decltype(value)>>;
+    using T =
+        std::make_signed_t<ComponentType<std::remove_cvref_t<decltype(value)>>>;
+
+    if constexpr (N == 1) {
+      return static_cast<T>(value);
+    } else {
+      Vector<T, N> result;
+      for (std::size_t i = 0; i < N; ++i) {
+        result[i] = static_cast<T>(value[i]);
+      }
+      return result;
+    }
+  });
+}
+
+eval::Value eval::Value::all() const {
+  using Cond = decltype([](auto type) {
+    return std::is_same_v<ComponentType<decltype(type)>, bool> &&
+           (Components<decltype(type)> > 1)  && !IsArray<decltype(type)>;
+  });
+
+  return visit<Cond>(*this, [](auto &&value) {
+    constexpr std::size_t N = Components<std::remove_cvref_t<decltype(value)>>;
+    for (std::size_t i = 0; i < N; ++i) {
+      if (!value[i]) {
+        return false;
+      }
+    }
+    return true;
+  });
+}
+
+eval::Value eval::Value::any() const {
+  using Cond = decltype([](auto type) {
+    return std::is_same_v<ComponentType<decltype(type)>, bool> &&
+           (Components<decltype(type)> > 1) && !IsArray<decltype(type)>;
+  });
+
+  return visit<Cond>(*this, [](auto &&value) {
+    constexpr std::size_t N = Components<std::remove_cvref_t<decltype(value)>>;
+    for (std::size_t i = 0; i < N; ++i) {
+      if (value[i]) {
+        return true;
+      }
+    }
+    return false;
+  });
+}
+
+eval::Value eval::Value::select(const Value &trueValue,
+                                const Value &falseValue) const {
+  using Cond = decltype([](auto type) consteval {
+    return std::is_same_v<ComponentType<decltype(type)>, bool> && !IsArray<decltype(type)>;
+  });
+
+  return visit<Cond>(*this, [&](auto &&cond) -> Value {
+    using CondType = std::remove_cvref_t<decltype(cond)>;
+    using TrueCond = decltype([](auto type) consteval {
+      return Components<decltype(type)> == Components<CondType>;
+    });
+
+    return visit<TrueCond>(trueValue, [&](auto &&trueValue) {
+      using TrueValue = std::remove_cvref_t<decltype(trueValue)>;
+      using FalseCond = decltype([](auto type) {
+        return std::is_same_v<TrueValue, std::remove_cvref_t<decltype(type)>>;
+      });
+
+      return visit(falseValue, [&](auto &&falseValue) -> Value {
+        if constexpr (std::is_same_v<TrueValue, std::remove_cvref_t<
+                                                    decltype(falseValue)>>) {
+          constexpr std::size_t N = Components<CondType>;
+
+          if constexpr (N == 1) {
+            return cond ? trueValue : falseValue;
+          } else {
+            Vector<bool, N> result;
+            for (std::size_t i = 0; i < N; ++i) {
+              result[i] = cond[i] ? trueValue[i] : falseValue[i];
+            }
+            return result;
+          }
+        } else {
+          return {};
+        }
+      });
+    });
+  });
+}
+
+eval::Value eval::Value::iConvert(ir::Value type, bool isSigned) const {
+  using Cond = decltype([](auto type) {
+    using Type = std::remove_cvref_t<decltype(type)>;
+
+    return std::is_integral_v<ComponentType<Type>> &&
+           !std::is_same_v<bool, ComponentType<Type>> && !IsArray<decltype(type)>;
+  });
+
+  using PairCond = decltype([](auto lhs, auto rhs) {
+    using Lhs = decltype(lhs);
+    using Rhs = decltype(rhs);
+
+    return !std::is_same_v<Lhs, Rhs> && Components<Lhs> == Components<Rhs>;
+  });
+
+  return visitWithType<Cond, Cond, PairCond>(
+      *this, type, [&](auto type, auto &&value) -> Value {
+        using Type = std::remove_cvref_t<decltype(type)>;
+        using ValueType = std::remove_cvref_t<decltype(value)>;
+        if (isSigned) {
+          return static_cast<Type>(static_cast<MakeSigned<ValueType>>(value));
+        } else {
+          return static_cast<Type>(static_cast<MakeUnsigned<ValueType>>(value));
+        }
+      });
+}
+eval::Value eval::Value::fConvert(ir::Value type) const {
+  using Cond = decltype([](auto type) {
+    return std::is_floating_point_v<ComponentType<decltype(type)>> && !IsArray<decltype(type)>;
+  });
+
+  using PairCond = decltype([](auto lhs, auto rhs) {
+    using Lhs = decltype(lhs);
+    using Rhs = decltype(rhs);
+
+    return !std::is_same_v<Lhs, Rhs> && Components<Lhs> == Components<Rhs>;
+  });
+
+  return visitWithType<void, void, PairCond>(
+      *this, type, [&](auto type, auto &&value) -> Value {
+        using Type = std::remove_cvref_t<decltype(type)>;
+        return static_cast<Type>(value);
+      });
+}
+
+eval::Value eval::Value::bitcast(ir::Value type) const {
+  using Cond = decltype([](auto type, auto value) {
+    using Type = std::remove_cvref_t<decltype(type)>;
+
+    return sizeof(type) == sizeof(value);
+  });
+
+  return visitWithType<void, void, Cond>(
+      *this, type, [](auto type, auto &&value) -> Value {
+        return std::bit_cast<decltype(type)>(value);
+      });
+}
+
+std::optional<std::uint64_t> eval::Value::zExtScalar() const {
+  using Cond = decltype([](auto type) {
+    return std::is_integral_v<ComponentType<decltype(type)>> &&
+           !std::is_same_v<ComponentType<decltype(type)>, bool> &&
+           Components<decltype(type)> == 1 && !IsArray<decltype(type)>;
+  });
+
+  auto result = visit<Cond>(*this, [&](auto value) -> Value {
+    return static_cast<std::uint64_t>(
+        static_cast<MakeUnsigned<decltype(value)>>(value));
+  });
+
+  if (result) {
+    return result.as<std::uint64_t>();
+  }
+
+  return {};
+}
+
+std::optional<std::int64_t> eval::Value::sExtScalar() const {
+  using Cond = decltype([](auto type) {
+    return std::is_integral_v<ComponentType<decltype(type)>> &&
+           !std::is_same_v<ComponentType<decltype(type)>, bool> &&
+           Components<decltype(type)> == 1 && !IsArray<decltype(type)>;
+  });
+
+  auto result = visit<Cond>(*this, [&](auto value) -> Value {
+    return static_cast<std::int64_t>(
+        static_cast<MakeSigned<decltype(value)>>(value));
+  });
+
+  if (result) {
+    return result.as<std::int64_t>();
+  }
+
+  return {};
+}
+
+#define DEFINE_BINARY_OP(OP)                                                   \
+  eval::Value eval::Value::operator OP(const Value & rhs) const {              \
+    using LhsCond = decltype([](auto &&lhs) {                                  \
+      return requires { static_cast<Value>(lhs OP rhs); };                     \
+    });                                                                        \
+    return visit<LhsCond>(*this, [&]<typename Lhs>(Lhs &&lhs) -> Value {       \
+      using RhsCond = decltype([](auto &&rhs) {                                \
+        return requires(Lhs lhs) { static_cast<Value>(lhs OP rhs); };          \
+      });                                                                      \
+      return visit<RhsCond>(rhs, [&](auto &&rhs) -> Value {                    \
+        return static_cast<Value>(lhs OP rhs);                                 \
+      });                                                                      \
+    });                                                                        \
+  }
+
+#define DEFINE_UNARY_OP(OP)                                                    \
+  eval::Value eval::Value::operator OP() const {                               \
+    using Cond = decltype([](auto rhs) {                                       \
+      return requires { static_cast<Value>(OP rhs); };                         \
+    });                                                                        \
+    return visit<Cond>(*this, [&](auto &&rhs) -> Value {                       \
+      return static_cast<Value>(OP rhs);                                       \
+    });                                                                        \
+  }
+
+DEFINE_BINARY_OP(+);
+DEFINE_BINARY_OP(-);
+DEFINE_BINARY_OP(*);
+DEFINE_BINARY_OP(/);
+DEFINE_BINARY_OP(%);
+DEFINE_BINARY_OP(&);
+DEFINE_BINARY_OP(|);
+DEFINE_BINARY_OP(^);
+DEFINE_BINARY_OP(>>);
+DEFINE_BINARY_OP(<<);
+DEFINE_BINARY_OP(&&);
+DEFINE_BINARY_OP(||);
+DEFINE_BINARY_OP(<);
+DEFINE_BINARY_OP(>);
+DEFINE_BINARY_OP(<=);
+DEFINE_BINARY_OP(>=);
+DEFINE_BINARY_OP(==);
+DEFINE_BINARY_OP(!=);
+
+DEFINE_UNARY_OP(-);
+DEFINE_UNARY_OP(~);
+DEFINE_UNARY_OP(!);
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/gcn.cpp b/rpcsx-gpu2/lib/gcn-shader/src/gcn.cpp
new file mode 100644
index 00000000..ad05c672
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/gcn.cpp
@@ -0,0 +1,1800 @@
+#include "gcn.hpp"
+
+#include "Evaluator.hpp"
+#include "SemanticInfo.hpp"
+#include "SpvConverter.hpp"
+#include "analyze.hpp"
+#include "ir.hpp"
+
+#include <bit>
+#include <functional>
+#include <iostream>
+
+#include "GcnInstruction.hpp"
+#include "dialect.hpp"
+#include "ir/Region.hpp"
+#include "ir/Value.hpp"
+
+#include "spv.hpp"
+#include "transform.hpp"
+#include <glslang/Include/ResourceLimits.h>
+#include <glslang/Public/ShaderLang.h>
+#include <glslang/SPIRV/GlslangToSpv.h>
+#include <map>
+#include <optional>
+#include <print>
+#include <spirv-tools/libspirv.h>
+#include <type_traits>
+#include <unordered_map>
+#include <vector>
+
+using namespace shader;
+using namespace shader::spv;
+
+void dump(auto... objects) {
+  ir::NameStorage ns;
+  ((objects.print(std::cerr, ns), std::cerr << "\n"), ...);
+}
+
+inline shader::spv::TypeInfo getRegisterInfo(unsigned id) {
+  switch (gcn::RegId(id)) {
+  case gcn::RegId::Sgpr:
+    return {
+        .baseType = ir::spv::OpTypeArray,
+        .componentType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 256,
+    };
+  case gcn::RegId::Vgpr:
+    return {
+        .baseType = ir::spv::OpTypeArray,
+        .componentType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 512,
+    };
+  case gcn::RegId::M0:
+    return {
+        .baseType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 1,
+    };
+  case gcn::RegId::Scc:
+    return {
+        .baseType = ir::spv::OpTypeBool,
+        .componentWidth = 1,
+        .componentsCount = 1,
+    };
+  case gcn::RegId::Vcc:
+    return {
+        .baseType = ir::spv::OpTypeVector,
+        .componentType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 2,
+    };
+  case gcn::RegId::Exec:
+    return {
+        .baseType = ir::spv::OpTypeVector,
+        .componentType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 2,
+    };
+  case gcn::RegId::VccZ:
+    return {
+        .baseType = ir::spv::OpTypeBool,
+        .componentWidth = 1,
+        .componentsCount = 1,
+    };
+  case gcn::RegId::ExecZ:
+    return {
+        .baseType = ir::spv::OpTypeBool,
+        .componentWidth = 1,
+        .componentsCount = 1,
+    };
+  case gcn::RegId::LdsDirect:
+    return {
+        .baseType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 1,
+    };
+  case gcn::RegId::SgprCount:
+    return {
+        .baseType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 1,
+    };
+  case gcn::RegId::VgprCount:
+    return {
+        .baseType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 1,
+    };
+  case gcn::RegId::ThreadId:
+    return {
+        .baseType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 1,
+    };
+
+  case gcn::RegId::MemoryTable:
+    return {
+        .baseType = ir::spv::OpTypeVector,
+        .componentType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 2,
+    };
+
+  case gcn::RegId::Gds:
+    return {
+        .baseType = ir::spv::OpTypeVector,
+        .componentType = ir::spv::OpTypeInt,
+        .componentWidth = 32,
+        .componentsCount = 2,
+    };
+  }
+
+  std::abort();
+}
+
+inline const char *getRegisterName(unsigned id) {
+  switch (gcn::RegId(id)) {
+  case gcn::RegId::Sgpr:
+    return "sgpr";
+  case gcn::RegId::Vgpr:
+    return "vgpr";
+  case gcn::RegId::M0:
+    return "M0";
+  case gcn::RegId::Scc:
+    return "scc";
+  case gcn::RegId::Vcc:
+    return "vcc";
+  case gcn::RegId::Exec:
+    return "exec";
+  case gcn::RegId::ExecZ:
+    return "execz";
+  case gcn::RegId::VccZ:
+    return "vccz";
+  case gcn::RegId::LdsDirect:
+    return "lds_direct";
+  case gcn::RegId::SgprCount:
+    return "sgpr_count";
+  case gcn::RegId::VgprCount:
+    return "vgpr_count";
+  case gcn::RegId::ThreadId:
+    return "thread_id";
+  case gcn::MemoryTable:
+    return "memory_table";
+  case gcn::Gds:
+    return "gds";
+  }
+  std::abort();
+}
+
+static std::optional<gcn::RegId> getRegIdByName(std::string_view variableName) {
+  if (variableName == "sgpr")
+    return gcn::RegId::Sgpr;
+  if (variableName == "vgpr")
+    return gcn::RegId::Vgpr;
+  if (variableName == "m0")
+    return gcn::RegId::M0;
+  if (variableName == "scc")
+    return gcn::RegId::Scc;
+  if (variableName == "vcc")
+    return gcn::RegId::Vcc;
+  if (variableName == "exec")
+    return gcn::RegId::Exec;
+  if (variableName == "lds_direct")
+    return gcn::RegId::LdsDirect;
+  if (variableName == "sgpr_count")
+    return gcn::RegId::SgprCount;
+  if (variableName == "vgpr_count")
+    return gcn::RegId::VgprCount;
+  if (variableName == "thread_id")
+    return gcn::RegId::ThreadId;
+  if (variableName == "memory_table")
+    return gcn::RegId::MemoryTable;
+  if (variableName == "gds")
+    return gcn::RegId::Gds;
+
+  return {};
+}
+
+struct AddressLocationBuilder {
+  ir::Context *context = nullptr;
+
+  ir::Location getLocation(std::uint64_t ptr) {
+    return context->getMemoryLocation(ptr, 4);
+  }
+};
+
+void gcn::collectSemanticModuleInfo(SemanticModuleInfo &moduleInfo,
+                                    const spv::BinaryLayout &layout) {
+  shader::collectSemanticModuleInfo(moduleInfo, layout);
+
+  auto debugs = layout.regions[spv::BinaryLayout::kDebugs];
+  if (debugs == nullptr) {
+    return;
+  }
+
+  for (auto inst : debugs.children()) {
+    if (inst != ir::spv::OpName) {
+      continue;
+    }
+
+    auto namedNode = inst.getOperand(0).getAsValue();
+    auto name = inst.getOperand(1).getAsString();
+
+    if (namedNode != ir::spv::OpVariable || name == nullptr) {
+      continue;
+    }
+
+    if (auto storage = namedNode.getOperand(1).getAsInt32();
+        storage == nullptr ||
+        *storage == int(ir::spv::StorageClass::Function)) {
+      continue;
+    }
+
+    if (auto regId = getRegIdByName(*name)) {
+      if (shader::spv::getTypeInfo(
+              namedNode.getOperand(0).getAsValue().getOperand(1).getAsValue())
+              .width() != getRegisterInfo(*regId).width()) {
+        std::fprintf(stderr,
+                     "unexpected type width for register variable "
+                     "'%s', expected %u\n",
+                     name->c_str(), getRegisterInfo(*regId).width());
+        std::abort();
+      }
+
+      moduleInfo.registerVariables[*regId] = namedNode;
+    }
+  }
+}
+
+std::pair<ir::Value, bool>
+gcn::Context::getOrCreateLabel(ir::Location loc, ir::Region body,
+                               std::uint64_t address) {
+  auto it = instructions.lower_bound(address);
+
+  bool exists = false;
+  if (it != instructions.end() && it->first == address) {
+    if (it->second == ir::spv::OpLabel) {
+      return {it->second.staticCast<ir::Value>(), false};
+    }
+
+    auto injectedLabel =
+        Builder::createInsertBefore(*this, it->second).createSpvLabel(loc);
+    it->second = injectedLabel;
+    return {injectedLabel, false};
+  }
+
+  ir::Value newLabel;
+  if (it == instructions.end()) {
+    newLabel = Builder::createAppend(*this, body).createSpvLabel(loc);
+  } else {
+    newLabel =
+        Builder::createInsertBefore(*this, it->second).createSpvLabel(loc);
+  }
+
+  instructions.emplace_hint(it, address, newLabel);
+  return {newLabel, true};
+}
+
+gcn::Builder gcn::Context::createBuilder(gcn::InstructionRegion &region,
+                                         ir::Region bodyRegion,
+                                         std::uint64_t address) {
+  auto it = instructions.lower_bound(address);
+
+  if (it != instructions.end() && it->first == address) {
+    if (it->second == nullptr) {
+      region.base = bodyRegion;
+      region.firstInstruction = &it->second;
+
+      auto result = Builder::createAppend(*this, &region);
+      result.setInsertionPoint(it->second.getPrev());
+      return result;
+    }
+
+    ++it;
+
+    if (it == instructions.end()) {
+      return Builder::createAppend(*this, bodyRegion);
+    }
+
+    return Builder::createInsertBefore(*this, it->second);
+  }
+
+  auto newNodeIt = instructions.emplace_hint(it, address, ir::Instruction{});
+  region.base = bodyRegion;
+  region.firstInstruction = &newNodeIt->second;
+
+  if (it != instructions.end()) {
+    auto result = Builder::createAppend(*this, &region);
+    result.setInsertionPoint(it->second.getPrev());
+    return result;
+  }
+
+  auto result = Builder::createAppend(*this, &region);
+  result.setInsertionPoint(bodyRegion.getLast());
+  return result;
+}
+
+ir::Value gcn::Context::createCast(ir::Location loc, Builder &builder,
+                                   ir::Value targetType, ir::Value value) {
+  auto valueType = value.getOperand(0).getAsValue();
+  if (targetType == valueType) {
+    return value;
+  }
+
+  if (targetType == ir::spv::OpTypeArray ||
+      targetType == ir::spv::OpTypeRuntimeArray ||
+      valueType == ir::spv::OpTypeArray ||
+      valueType == ir::spv::OpTypeRuntimeArray) {
+    std::abort();
+  }
+
+  auto targetTypeInfo = shader::spv::getTypeInfo(targetType);
+  auto valueTypeInfo =
+      shader::spv::getTypeInfo(value.getOperand(0).getAsValue());
+
+  if (targetTypeInfo.width() == valueTypeInfo.width()) {
+    return builder.createSpvBitcast(loc, targetType, value);
+  }
+
+  if (targetTypeInfo.baseType == valueTypeInfo.baseType) {
+    if (targetTypeInfo.width() == valueTypeInfo.width()) {
+      std::abort();
+    }
+
+    if (targetTypeInfo.baseType == ir::spv::OpTypeInt) {
+      auto sign = *targetType.getOperand(2).getAsInt32();
+      if (sign == 0) {
+        return builder.createSpvUConvert(loc, targetType, value);
+      }
+
+      return builder.createSpvSConvert(loc, targetType, value);
+    }
+
+    if (targetTypeInfo.baseType == ir::spv::OpTypeFloat) {
+      return builder.createSpvFConvert(loc, targetType, value);
+    }
+  }
+
+  // TODO
+
+  dump(targetType);
+  dump(value.getOperand(0).getAsValue());
+  dump(value);
+  std::abort();
+}
+
+ir::Value gcn::Context::getOrCreateRegisterVariable(gcn::RegId id) {
+  auto &entity = registerVariables[id];
+
+  if (entity != nullptr) {
+    return entity;
+  }
+
+  auto location = rootLocation;
+
+  ir::Value regT;
+  auto regInfo = getRegisterInfo(id);
+
+  switch (regInfo.baseType) {
+  case ir::spv::OpTypeBool:
+    regT = getTypeBool();
+    break;
+
+  case ir::spv::OpTypeInt:
+    regT = getTypeInt(regInfo.componentWidth, regInfo.isSigned);
+    break;
+
+  case ir::spv::OpTypeFloat:
+    regT = getTypeFloat(regInfo.componentWidth);
+    break;
+
+  case ir::spv::OpTypeArray: {
+    auto cLen = getIndex(regInfo.componentsCount);
+    regT = getTypeArray(getTypeUInt32(), cLen);
+    break;
+  }
+
+  case ir::spv::OpTypeVector:
+    regT = getTypeVector(getTypeInt(regInfo.componentWidth, 0),
+                         regInfo.componentsCount);
+    break;
+
+  default:
+    std::abort();
+  }
+
+  auto storageClass = ir::spv::StorageClass::Private;
+  auto pRegTxN = getTypePointer(storageClass, regT);
+
+  auto globals = Builder::createAppend(*this, layout.getOrCreateGlobals(*this));
+  auto debugs = Builder::createAppend(*this, layout.getOrCreateDebugs(*this));
+
+  entity = globals.createSpvVariable(location, pRegTxN, storageClass);
+  setName(entity, getRegisterName(id));
+  return entity;
+}
+
+ir::Value gcn::Context::getRegisterRef(ir::Location loc, Builder &builder,
+                                       RegId id, const ir::Operand &index,
+                                       ir::Value lane) {
+  auto variable = getOrCreateRegisterVariable(id);
+
+  if (id == RegId::Vgpr && lane == nullptr) {
+    lane = readReg(loc, builder, getTypeUInt32(), RegId::ThreadId, 0);
+  }
+
+  auto result = createRegisterAccess(builder, loc, variable, index, lane);
+
+  if (result == variable) {
+    setName(result, "&" + std::string(getRegisterName(id)));
+  } else if (result == ir::spv::OpAccessChain) {
+    if (auto i = index.getAsInt32()) {
+      setName(result, std::string(getRegisterName(id)) + "[" +
+                          std::to_string(*i) + "]");
+    } else {
+      setName(result, std::string(getRegisterName(id)) + "[n]");
+    }
+  }
+
+  return result;
+}
+
+ir::Value gcn::Context::readReg(ir::Location loc, Builder &builder,
+                                ir::Value typeValue, gcn::RegId id,
+                                const ir::Operand &index, ir::Value lane) {
+  auto regInfo = getRegisterInfo(id);
+  auto valInfo = shader::spv::getTypeInfo(typeValue);
+
+  int valWidth = valInfo.width();
+  int regWidth = regInfo.componentWidth;
+
+  if (regWidth == 1) {
+    auto ref = getRegisterRef(loc, builder, id, index, lane);
+    auto result = builder.createSpvLoad(loc, getTypeBool(), ref);
+
+    if (valInfo.baseType == ir::spv::OpTypeInt) {
+      if (valWidth == 32) {
+        return builder.createSpvSelect(
+            loc, typeValue, result,
+            getOrCreateConstant(typeValue, static_cast<std::uint32_t>(1)),
+            getOrCreateConstant(typeValue, static_cast<std::uint32_t>(0)));
+      }
+
+      if (valWidth == 64) {
+        return builder.createSpvSelect(
+            loc, typeValue, result,
+            getOrCreateConstant(typeValue, static_cast<std::uint64_t>(1)),
+            getOrCreateConstant(typeValue, static_cast<std::uint64_t>(0)));
+      }
+    }
+
+    std::abort();
+  }
+
+  if (valWidth == regWidth) {
+    auto ref = getRegisterRef(loc, builder, id, index, lane);
+    auto regType = ref.getOperand(0).getAsValue().getOperand(1).getAsValue();
+
+    auto result = builder.createSpvLoad(loc, regType, ref);
+    if (regType == typeValue) {
+      return result;
+    }
+
+    return builder.createSpvBitcast(loc, typeValue, result);
+  }
+
+  if (valWidth < regWidth || (valWidth % regWidth) != 0) {
+    std::abort();
+  }
+
+  int regCount = valWidth / regWidth;
+  auto sint32 = getTypeSInt32();
+  auto channelType = getTypeInt(regWidth, false);
+  auto splittedType = regCount > 4 ? getTypeArray(channelType, imm32(regCount))
+                                   : getTypeVector(channelType, regCount);
+
+  std::vector<ir::spv::IdRef> compositeValues;
+
+  for (int i = 0; i < regCount; ++i) {
+    ir::Value ref;
+    auto channel = getIndex(i);
+
+    if (i == 0) {
+      ref = getRegisterRef(loc, builder, id, index, lane);
+    } else {
+      if (auto constIndex = index.getAsInt32()) {
+        ref = getRegisterRef(loc, builder, id, *constIndex + i, lane);
+      } else {
+        auto indexValue = index.getAsValue();
+        auto indexType = indexValue.getOperand(0).getAsValue();
+        auto channelIndex =
+            builder.createSpvIAdd(loc, indexType, channel, indexValue);
+
+        ref = getRegisterRef(loc, builder, id, channelIndex, lane);
+      }
+    }
+
+    auto regType = ref.getOperand(0).getAsValue().getOperand(1).getAsValue();
+
+    if (regType != channelType) {
+      dump(regType, channelType);
+      std::abort();
+    }
+
+    auto regValue = builder.createSpvLoad(loc, regType, ref);
+    compositeValues.push_back(regValue);
+  }
+
+  auto result =
+      builder.createSpvCompositeConstruct(loc, splittedType, compositeValues);
+  if (splittedType == typeValue) {
+    return result;
+  }
+  return builder.createSpvBitcast(loc, typeValue, result);
+}
+
+void gcn::Context::writeReg(ir::Location loc, Builder &builder, gcn::RegId id,
+                            const ir::Operand &index, ir::Value value,
+                            ir::Value lane) {
+  auto regInfo = getRegisterInfo(id);
+  auto valInfo = shader::spv::getTypeInfo(value.getOperand(0).getAsValue());
+
+  int valWidth = valInfo.width();
+  int regWidth = regInfo.componentWidth;
+
+  if (valWidth == regWidth) {
+    auto ref = getRegisterRef(loc, builder, id, index, lane);
+    auto regType = ref.getOperand(0).getAsValue().getOperand(1).getAsValue();
+
+    if (regType != value.getOperand(0)) {
+      value = builder.createSpvBitcast(loc, regType, value);
+    }
+
+    builder.createSpvStore(loc, ref, value);
+    return;
+  }
+
+  if (valWidth < regWidth || (valWidth % regWidth) != 0) {
+    std::abort();
+  }
+
+  if (valInfo.baseType == ir::spv::OpTypeArray) {
+    if (valInfo.componentWidth != regWidth) {
+      std::abort();
+    }
+
+    auto elementType =
+        value.getOperand(0).getAsValue().getOperand(0).getAsValue();
+
+    for (int i = 0; i < valInfo.componentsCount; ++i) {
+      ir::Value ref;
+
+      if (i == 0) {
+        ref = getRegisterRef(loc, builder, id, index, lane);
+      } else {
+        if (auto constIndex = index.getAsInt32()) {
+          ref = getRegisterRef(loc, builder, id, *constIndex + i, lane);
+        } else {
+          auto indexValue = index.getAsValue();
+          auto indexType = indexValue.getOperand(0).getAsValue();
+          auto channelIndex =
+              builder.createSpvIAdd(loc, indexType, getIndex(i), indexValue);
+
+          ref = getRegisterRef(loc, builder, id, channelIndex, lane);
+        }
+      }
+
+      auto regType = ref.getOperand(0).getAsValue().getOperand(1).getAsValue();
+
+      auto element =
+          builder.createSpvCompositeExtract(loc, elementType, value, {{i}});
+
+      if (regType != elementType) {
+        element = builder.createSpvBitcast(loc, regType, element);
+      }
+
+      builder.createSpvStore(loc, ref, element);
+    }
+
+    return;
+  }
+
+  int regCount = valWidth / regWidth;
+
+  auto sint32 = getTypeSInt32();
+  auto channelType = getTypeInt(regWidth, false);
+  auto splittedType = regCount > 4 ? getTypeArray(channelType, imm32(regCount))
+                                   : getTypeVector(channelType, regCount);
+  auto splittedValue = builder.createSpvBitcast(loc, splittedType, value);
+
+  for (int i = 0; i < regCount; ++i) {
+    ir::Value ref;
+
+    if (i == 0) {
+      ref = getRegisterRef(loc, builder, id, index, lane);
+    } else {
+      if (auto constIndex = index.getAsInt32()) {
+        ref = getRegisterRef(loc, builder, id, *constIndex + i, lane);
+      } else {
+        auto indexValue = index.getAsValue();
+        auto indexType = indexValue.getOperand(0).getAsValue();
+        auto channel = getIndex(i);
+        auto channelIndex =
+            builder.createSpvIAdd(loc, indexType, channel, indexValue);
+
+        ref = getRegisterRef(loc, builder, id, channelIndex, lane);
+      }
+    }
+
+    auto channelValue = builder.createSpvCompositeExtract(loc, channelType,
+                                                          splittedValue, {{i}});
+    builder.createSpvStore(loc, ref, channelValue);
+  }
+}
+
+ir::Value gcn::Context::createRegisterAccess(Builder &builder, ir::Location loc,
+                                             ir::Value reg,
+                                             const ir::Operand &index,
+                                             ir::Value lane) {
+  auto regPointerType = reg.getOperand(0).getAsValue();
+  if (regPointerType != ir::spv::OpTypePointer) {
+    std::abort();
+  }
+
+  auto pointerStorageClass = static_cast<ir::spv::StorageClass>(
+      *regPointerType.getOperand(0).getAsInt32());
+  auto regPointeeType = regPointerType.getOperand(1).getAsValue();
+
+  if (regPointeeType == nullptr) {
+    std::abort();
+  }
+
+  if (lane != nullptr) {
+    regPointeeType = regPointeeType.getOperand(0).getAsValue();
+
+    if (regPointeeType == nullptr) {
+      std::abort();
+    }
+  }
+
+  auto regTypeInfo = shader::spv::getTypeInfo(regPointeeType);
+
+  switch (regTypeInfo.baseType) {
+  case ir::spv::OpTypeBool:
+  case ir::spv::OpTypeInt:
+  case ir::spv::OpTypeFloat:
+    if (index != 0) {
+      dump(index);
+      std::abort();
+    }
+
+    return reg;
+
+  case ir::spv::OpTypeVector:
+  case ir::spv::OpTypeArray: {
+    auto elementType = getType({
+        .baseType = regTypeInfo.componentType,
+        .componentWidth = regTypeInfo.componentWidth,
+        .isSigned = regTypeInfo.isSigned,
+    });
+    auto indexValue = getOperandValue(index);
+    auto pointeeType = getTypePointer(pointerStorageClass, elementType);
+
+    if (lane == nullptr) {
+      return builder.createSpvAccessChain(loc, pointeeType, reg,
+                                          {{indexValue}});
+    }
+
+    return builder.createSpvAccessChain(loc, pointeeType, reg,
+                                        {{lane, indexValue}});
+  }
+
+  default:
+    std::abort();
+  }
+}
+
+static ir::Value deserializeGcnRegion(
+    gcn::Context &converter, const gcn::Environment &environment,
+    const SemanticInfo &semInfo, std::uint64_t address,
+    const std::function<std::uint32_t(std::uint64_t)> &readMemory,
+    std::vector<ir::Instruction> &branchesToUnknown,
+    std::unordered_set<std::uint64_t> &processed) {
+  BinaryLayout &resultLayout = converter.layout;
+  AddressLocationBuilder locBuilder{&converter};
+
+  ir::Value boolTV = converter.getTypeBool();
+  ir::Value float64TV = converter.getTypeFloat64();
+  ir::Value float32TV = converter.getTypeFloat32();
+  ir::Value uint16TV = converter.getTypeUInt16();
+  ir::Value sint16TV = converter.getTypeSInt16();
+  ir::Value uint32TV = converter.getTypeUInt32();
+  ir::Value sint32TV = converter.getTypeSInt32();
+  ir::Value uint64TV = converter.getTypeUInt64();
+  ir::Value sint64TV = converter.getTypeSInt64();
+
+  unsigned currentOp = 0;
+
+  auto createOperandReadImpl = [&](ir::Location loc, gcn::Builder &builder,
+                                   ir::Value type,
+                                   const GcnOperand &op) -> ir::Value {
+    switch (op.kind) {
+    case GcnOperand::Kind::Constant: {
+      auto createConstant = [&](auto value) {
+        return converter.getOrCreateConstant(type, value);
+        // return value;
+      };
+
+      if (type == float32TV) {
+        return createConstant(std::bit_cast<float>(op.value));
+      }
+
+      if (type == sint64TV) {
+        return createConstant(
+            static_cast<std::uint64_t>(std::bit_cast<std::int32_t>(op.value)));
+      }
+
+      if (type == uint64TV) {
+        return createConstant(
+            static_cast<std::uint64_t>(std::bit_cast<std::uint32_t>(op.value)));
+      }
+
+      if (type == sint32TV) {
+        return createConstant(std::bit_cast<std::int32_t>(op.value));
+      }
+
+      if (type == uint32TV) {
+        return createConstant(std::bit_cast<std::uint32_t>(op.value));
+      }
+
+      if (type == sint16TV) {
+        return createConstant(
+            static_cast<std::int32_t>(static_cast<std::int16_t>(op.value)));
+      }
+
+      if (type == uint16TV) {
+        return createConstant(
+            static_cast<std::uint32_t>(static_cast<std::uint16_t>(op.value)));
+      }
+      if (type == boolTV) {
+        return createConstant(op.value ? true : false);
+      }
+      break;
+    }
+
+    case GcnOperand::Kind::Immediate: {
+      auto loc = locBuilder.getLocation(op.address);
+      return builder.createValue(loc, ir::amdgpu::IMM, type, op.address);
+    }
+    case GcnOperand::Kind::VccLo:
+      return converter.readReg(loc, builder, type, gcn::RegId::Vcc, 0);
+    case GcnOperand::Kind::VccHi:
+      return converter.readReg(loc, builder, type, gcn::RegId::Vcc, 1);
+    case GcnOperand::Kind::M0:
+      return converter.readReg(loc, builder, type, gcn::RegId::M0, 0);
+    case GcnOperand::Kind::ExecLo:
+      return converter.readReg(loc, builder, type, gcn::RegId::Exec, 0);
+    case GcnOperand::Kind::ExecHi:
+      return converter.readReg(loc, builder, type, gcn::RegId::Exec, 1);
+    case GcnOperand::Kind::Scc:
+      return converter.readReg(loc, builder, type, gcn::RegId::Scc, 0);
+    case GcnOperand::Kind::VccZ:
+      return converter.readReg(loc, builder, type, gcn::RegId::VccZ, 0);
+    case GcnOperand::Kind::ExecZ:
+      return converter.readReg(loc, builder, type, gcn::RegId::ExecZ, 0);
+    case GcnOperand::Kind::LdsDirect:
+      return converter.readReg(loc, builder, type, gcn::RegId::LdsDirect, 0);
+    case GcnOperand::Kind::Vgpr:
+      return converter.readReg(loc, builder, type, gcn::RegId::Vgpr, op.value);
+    case GcnOperand::Kind::Sgpr:
+      return converter.readReg(loc, builder, type, gcn::RegId::Sgpr, op.value);
+    case GcnOperand::Kind::Attr: {
+      auto f32 = converter.getTypeFloat32();
+      auto attrChannelPtrType =
+          converter.getTypePointer(ir::spv::StorageClass::Input, f32);
+      auto resultType = converter.getTypeArray(f32, converter.simm32(3));
+
+      auto attr =
+          converter.createAttr(loc, op.attrId, environment.supportsBarycentric,
+                               currentOp == ir::vintrp::MOV_F32);
+
+      if (environment.supportsBarycentric) {
+        ir::spv::IdRef compositeValues[3];
+        for (int vertex = 0; vertex < 3; ++vertex) {
+          auto ptr = builder.createSpvAccessChain(
+              loc, attrChannelPtrType, attr,
+              {{converter.imm32(vertex), converter.imm32(op.attrChannel)}});
+
+          compositeValues[vertex] = builder.createSpvLoad(loc, f32, ptr);
+        }
+
+        return builder.createSpvCompositeConstruct(loc, type, compositeValues);
+      } else {
+        auto attrValue = builder.createSpvLoad(
+            loc, converter.getTypeVector(float32TV, 4), attr);
+        auto result = builder.createSpvCompositeExtract(
+            loc, float32TV, attrValue, {{op.attrChannel}});
+
+        return builder.createSpvCompositeConstruct(loc, type,
+                                                   {{result, result, result}});
+      }
+    }
+    case GcnOperand::Kind::Invalid:
+      break;
+    case GcnOperand::Kind::Buffer:
+    case GcnOperand::Kind::Texture128:
+    case GcnOperand::Kind::Texture256:
+    case GcnOperand::Kind::Sampler:
+    case GcnOperand::Kind::Pointer:
+      break;
+    }
+
+    dump(type);
+    std::abort();
+  };
+
+  auto createOperandRead = [&](ir::Location loc, gcn::Builder &builder,
+                               ir::Value type,
+                               const GcnOperand &op) -> ir::Value {
+    switch (op.kind) {
+    case GcnOperand::Kind::Buffer:
+      return builder.createValue(
+          loc, ir::amdgpu::VBUFFER, type, op.access,
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(0)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(1)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(2)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(3)));
+
+    case GcnOperand::Kind::Texture128:
+      return builder.createValue(
+          loc, ir::amdgpu::TBUFFER, type, op.access,
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(0)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(1)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(2)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(3)));
+
+    case GcnOperand::Kind::Texture256:
+      return builder.createValue(
+          loc, ir::amdgpu::TBUFFER, type, op.access,
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(0)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(1)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(2)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(3)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(4)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(5)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(6)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(7)));
+
+    case GcnOperand::Kind::Sampler:
+      return builder.createValue(
+          loc, ir::amdgpu::SAMPLER, type,
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(0)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(1)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(2)),
+          createOperandReadImpl(loc, builder, uint32TV,
+                                op.getUnderlyingOperand(3)),
+          op.samplerUnorm);
+
+    case GcnOperand::Kind::Pointer:
+      return builder.createValue(
+          loc, ir::amdgpu::POINTER, type, op.pointeeSize,
+          createOperandReadImpl(loc, builder, uint64TV,
+                                op.getUnderlyingOperand()),
+          createOperandReadImpl(loc, builder, sint32TV,
+                                op.getPointerOffsetOperand()));
+
+    default: {
+      auto result = createOperandReadImpl(loc, builder, type, op);
+      if (!op.abs && !op.neg) {
+        return result;
+      }
+
+      return builder.createValue(loc, ir::amdgpu::NEG_ABS, type, op.neg, op.abs,
+                                 result);
+    }
+    }
+  };
+
+  auto createOperandWrite = [&](ir::Location loc, gcn::Builder &builder,
+                                const GcnOperand &op, ir::Value value,
+                                ir::Value lane = nullptr) {
+    if (op.clamp || op.omod != 0) {
+      value = builder.createValue(loc, ir::amdgpu::OMOD, value.getOperand(0),
+                                  op.clamp, op.omod, value);
+    }
+
+    switch (op.kind) {
+    case GcnOperand::Kind::Constant:
+    case GcnOperand::Kind::Immediate:
+      break;
+    case GcnOperand::Kind::VccLo:
+      return converter.writeReg(loc, builder, gcn::RegId::Vcc, 0, value);
+    case GcnOperand::Kind::VccHi:
+      return converter.writeReg(loc, builder, gcn::RegId::Vcc, 1, value);
+    case GcnOperand::Kind::M0:
+      return converter.writeReg(loc, builder, gcn::RegId::M0, 0, value);
+    case GcnOperand::Kind::ExecLo:
+      return converter.writeReg(loc, builder, gcn::RegId::Exec, 0, value);
+    case GcnOperand::Kind::ExecHi:
+      return converter.writeReg(loc, builder, gcn::RegId::Exec, 1, value);
+    case GcnOperand::Kind::Scc:
+      return converter.writeReg(loc, builder, gcn::RegId::Scc, 0, value);
+    case GcnOperand::Kind::VccZ:
+    case GcnOperand::Kind::ExecZ:
+      break;
+    case GcnOperand::Kind::LdsDirect:
+      return converter.writeReg(loc, builder, gcn::RegId::LdsDirect, 0, value);
+    case GcnOperand::Kind::Vgpr:
+      return converter.writeReg(loc, builder, gcn::RegId::Vgpr, op.value,
+                                value);
+    case GcnOperand::Kind::Sgpr:
+      return converter.writeReg(loc, builder, gcn::RegId::Sgpr, op.value,
+                                value);
+
+    case GcnOperand::Kind::Attr:
+    case GcnOperand::Kind::Buffer:
+    case GcnOperand::Kind::Texture128:
+    case GcnOperand::Kind::Texture256:
+    case GcnOperand::Kind::Sampler:
+    case GcnOperand::Kind::Pointer:
+    case GcnOperand::Kind::Invalid:
+      break;
+    }
+
+    std::abort();
+  };
+
+  if (converter.body == nullptr) {
+    converter.body =
+        converter.create<ir::Region>(locBuilder.getLocation(address));
+  }
+  auto bodyRegion = converter.body;
+  gcn::InstructionRegion instRegion;
+
+  auto regionEntry = converter
+                         .getOrCreateLabel(locBuilder.getLocation(address),
+                                           bodyRegion, address)
+                         .first;
+
+  auto execTestSem =
+      semInfo.findSemantic(ir::getInstructionId(ir::amdgpu::EXEC_TEST));
+
+  if (execTestSem == nullptr) {
+    std::fprintf(stderr, "Failed to find semantic of EXEC_TEST\n");
+    std::abort();
+  }
+
+  auto injectExecTest = [&](ir::Location loc, gcn::Builder &builder,
+                            ir::Instruction point) {
+    return;
+    auto mergeBlock = builder.createSpvLabel(loc);
+    gcn::Builder::createInsertBefore(converter, mergeBlock)
+        .createSpvBranch(loc, mergeBlock);
+
+    auto instBlock =
+        gcn::Builder::createInsertAfter(converter, point).createSpvLabel(loc);
+    auto prependInstBuilder =
+        gcn::Builder::createInsertBefore(converter, instBlock);
+
+    auto exec = prependInstBuilder.createValue(
+        loc, ir::amdgpu::EXEC_TEST, converter.getType(execTestSem->returnType));
+
+    prependInstBuilder.createSpvSelectionMerge(loc, mergeBlock,
+                                               ir::spv::SelectionControl::None);
+    prependInstBuilder.createSpvBranchConditional(loc, exec, instBlock,
+                                                  mergeBlock);
+  };
+
+  std::vector<std::uint64_t> workList;
+  workList.push_back(address);
+
+  while (!workList.empty()) {
+    auto instAddress = workList.back();
+    workList.pop_back();
+    if (!processed.insert(instAddress).second) {
+      continue;
+    }
+
+    auto instStart = instAddress;
+    auto loc = locBuilder.getLocation(instAddress);
+    shader::GcnInstruction isaInst;
+    readGcnInst(isaInst, instAddress, readMemory);
+    isaInst.dump();
+    currentOp = isaInst.op;
+
+    if (isaInst == ir::sopp::ENDPGM) {
+      auto builder = converter.createBuilder(instRegion, bodyRegion, instStart);
+
+      builder.createSpvBranch(loc,
+                              converter.epilogue.getFirst().cast<ir::Value>());
+      continue;
+    }
+
+    bool isBranch = isaInst == ir::sopp::BRANCH ||
+                    isaInst == ir::sop1::SETPC_B64 ||
+                    isaInst == ir::sop1::SWAPPC_B64;
+
+    // isaInst == ir::sopk::CBRANCH_I_FORK ||
+    // isaInst == ir::sop2::CBRANCH_G_FORK
+
+    if (!isBranch) {
+      workList.push_back(instAddress);
+    }
+
+    if (isaInst == ir::sopp::WAITCNT) {
+      continue;
+    }
+
+    auto builder = converter.createBuilder(instRegion, bodyRegion, instStart);
+    auto instrBegin = builder.getInsertionPoint();
+
+    auto variablesBuilder =
+        gcn::Builder::createAppend(converter, converter.localVariables);
+
+    auto operands = isaInst.getOperands();
+    auto instSem =
+        semInfo.findSemantic(ir::getInstructionId(isaInst.kind, isaInst.op));
+
+    if (instSem == nullptr) {
+      if (isaInst == ir::sopp::BRANCH) {
+        auto target =
+            instAddress +
+            static_cast<std::int32_t>(isaInst.getOperand(0).value) / 4;
+        workList.push_back(target);
+        auto [label, inserted] =
+            converter.getOrCreateLabel(loc, bodyRegion, target);
+
+        if (inserted) {
+          workList.push_back(target);
+        }
+
+        builder.createSpvBranch(loc, label);
+        continue;
+      }
+
+      if (isaInst == ir::sop1::SETPC_B64) {
+        auto target =
+            createOperandRead(loc, builder, uint64TV, isaInst.getOperand(1));
+        branchesToUnknown.push_back(builder.createInstruction(
+            loc, ir::Kind::AmdGpu, ir::amdgpu::BRANCH, target));
+        continue;
+      }
+
+      if (isaInst == ir::sop1::SWAPPC_B64) {
+        auto target =
+            createOperandRead(loc, builder, uint64TV, isaInst.getOperand(1));
+        createOperandWrite(loc, builder, isaInst.getOperand(0),
+                           converter.imm64(instAddress));
+        branchesToUnknown.push_back(builder.createInstruction(
+            loc, ir::Kind::AmdGpu, ir::amdgpu::BRANCH, target));
+        continue;
+      }
+
+      if (isaInst == ir::sop1::GETPC_B64) {
+        createOperandWrite(loc, builder, isaInst.getOperand(0),
+                           converter.imm64(instAddress));
+        continue;
+      }
+
+      if (isaInst == ir::vop1::MOVRELD_B32 ||
+          isaInst == ir::vop3::MOVRELD_B32 ||
+          isaInst == ir::sop1::MOVRELD_B32 ||
+          isaInst == ir::sop1::MOVRELD_B64) {
+        auto m0 = converter.readReg(loc, builder, uint32TV, gcn::RegId::M0, 0);
+        auto gprCount = converter.readReg(loc, builder, uint32TV,
+                                          (isaInst.kind == ir::Kind::Sop1
+                                               ? gcn::RegId::SgprCount
+                                               : gcn::RegId::VgprCount),
+                                          0);
+
+        auto dstIndex = converter.imm32(isaInst.getOperand(0).value);
+        dstIndex = builder.createSpvIAdd(loc, uint32TV, dstIndex, m0);
+
+        auto dstInBounds =
+            builder.createSpvSLessThan(loc, boolTV, dstIndex, gprCount);
+
+        auto moveBodyBlock = builder.createSpvLabel(loc);
+        auto mergeBlock = builder.createSpvLabel(loc);
+
+        {
+          builder = gcn::Builder::createInsertBefore(converter, moveBodyBlock);
+          builder.createSpvSelectionMerge(loc, mergeBlock,
+                                          ir::spv::SelectionControl::None);
+          builder.createSpvBranchConditional(loc, dstInBounds, moveBodyBlock,
+                                             mergeBlock);
+        }
+
+        {
+          builder = gcn::Builder::createInsertAfter(converter, moveBodyBlock);
+          converter.writeReg(
+              loc, builder,
+              (isaInst.kind == ir::Kind::Sop1 ? gcn::RegId::Sgpr
+                                              : gcn::RegId::Vgpr),
+              dstIndex,
+              createOperandRead(
+                  loc, builder,
+                  (isaInst == ir::sop1::MOVRELD_B64 ? uint64TV : uint32TV),
+                  isaInst.getOperand(1)));
+
+          builder.createSpvBranch(loc, mergeBlock);
+        }
+
+        builder = gcn::Builder::createInsertAfter(converter, mergeBlock);
+        continue;
+      }
+
+      if (isaInst == ir::vop1::MOVRELS_B32 ||
+          isaInst == ir::vop3::MOVRELS_B32 ||
+          isaInst == ir::sop1::MOVRELS_B32 ||
+          isaInst == ir::sop1::MOVRELS_B64) {
+        auto srcIndex = converter.imm32(isaInst.getOperand(1).value);
+        srcIndex = builder.createSpvIAdd(
+            loc, uint32TV, srcIndex,
+            converter.readReg(loc, builder, uint32TV, gcn::RegId::M0, 0));
+        auto srcInBounds = builder.createSpvSLessThan(
+            loc, uint32TV, srcIndex,
+            converter.readReg(loc, builder, boolTV,
+                              (isaInst.kind == ir::Kind::Sop1
+                                   ? gcn::RegId::SgprCount
+                                   : gcn::RegId::VgprCount),
+                              0));
+
+        srcIndex = builder.createSpvSelect(loc, uint32TV, srcInBounds, srcIndex,
+                                           converter.imm32(0));
+        createOperandWrite(
+            loc, builder, isaInst.getOperand(0),
+            converter.readReg(
+                loc, builder,
+                (isaInst == ir::sop1::MOVRELS_B64 ? uint64TV : uint32TV),
+                (isaInst.kind == ir::Kind::Sop1 ? gcn::RegId::Sgpr
+                                                : gcn::RegId::Vgpr),
+                srcIndex));
+        continue;
+      }
+
+      if (isaInst == ir::vop1::MOVRELSD_B32 ||
+          isaInst == ir::vop3::MOVRELSD_B32) {
+        auto m0 = converter.readReg(loc, builder, uint32TV, gcn::RegId::M0, 0);
+        auto vgprCount =
+            converter.readReg(loc, builder, uint32TV, gcn::RegId::VgprCount, 0);
+
+        auto dstIndex = converter.imm32(isaInst.getOperand(0).value);
+        dstIndex = builder.createSpvIAdd(loc, uint32TV, dstIndex, m0);
+
+        auto dstInBounds =
+            builder.createSpvSLessThan(loc, boolTV, dstIndex, vgprCount);
+
+        auto moveBodyBlock = builder.createSpvLabel(loc);
+        auto mergeBlock = builder.createSpvLabel(loc);
+
+        {
+          builder = gcn::Builder::createInsertBefore(converter, moveBodyBlock);
+          builder.createSpvSelectionMerge(loc, mergeBlock,
+                                          ir::spv::SelectionControl::None);
+          builder.createSpvBranchConditional(loc, dstInBounds, moveBodyBlock,
+                                             mergeBlock);
+        }
+
+        {
+          builder = gcn::Builder::createInsertAfter(converter, moveBodyBlock);
+          auto srcIndex = converter.imm32(isaInst.getOperand(1).value);
+          srcIndex = builder.createSpvIAdd(loc, uint32TV, srcIndex, m0);
+          auto srcInBounds =
+              builder.createSpvSLessThan(loc, uint32TV, srcIndex, vgprCount);
+
+          srcIndex = builder.createSpvSelect(loc, uint32TV, srcInBounds,
+                                             srcIndex, converter.imm32(0));
+
+          converter.writeReg(loc, builder, gcn::RegId::Vgpr, dstIndex,
+                             converter.readReg(loc, builder, uint32TV,
+                                               gcn::RegId::Vgpr, srcIndex));
+          builder.createSpvBranch(loc, mergeBlock);
+        }
+
+        builder = gcn::Builder::createInsertAfter(converter, mergeBlock);
+      }
+
+      if (isaInst == ir::vop1::MOV_B32 || isaInst == ir::vop3::MOV_B32 ||
+          isaInst == ir::sop1::MOV_B32 || isaInst == ir::sop1::MOV_B64 ||
+          isaInst == ir::sopk::MOVK_I32) {
+        if (operands.size() == 2) {
+          bool is64Bit = isaInst == ir::sop1::MOV_B64;
+          auto regTypeValue = is64Bit ? uint64TV : uint32TV;
+          auto value =
+              createOperandRead(loc, builder, regTypeValue, operands[1]);
+          createOperandWrite(loc, builder, operands[0], value);
+
+          if (isaInst.kind == ir::Kind::Vop1 ||
+              isaInst.kind == ir::Kind::Vop3) {
+            injectExecTest(loc, builder, instrBegin);
+          }
+          continue;
+        }
+
+        std::fprintf(stderr,
+                     "Unexpected operand count for move instruction %s: %zu\n",
+                     ir::getInstructionName(isaInst.kind, isaInst.op).c_str(),
+                     operands.size());
+      } else if (isaInst != ir::exp::EXP) {
+        std::fprintf(stderr, "failed to find semantic of %s\n",
+                     ir::getInstructionName(isaInst.kind, isaInst.op).c_str());
+      }
+
+      auto inst = builder.createInstruction(loc, isaInst.kind, isaInst.op);
+      auto paramBuilder = gcn::Builder::createInsertBefore(converter, inst);
+
+      for (std::size_t index = 0; auto &op : operands) {
+        inst.addOperand(createOperandRead(loc, paramBuilder, uint32TV, op));
+      }
+
+      injectExecTest(loc, builder, instrBegin);
+      continue;
+    }
+
+    if (isaInst == ir::sopp::CBRANCH_SCC0 ||
+        isaInst == ir::sopp::CBRANCH_SCC1 ||
+        isaInst == ir::sopp::CBRANCH_VCCZ ||
+        isaInst == ir::sopp::CBRANCH_VCCNZ ||
+        isaInst == ir::sopp::CBRANCH_EXECZ ||
+        isaInst == ir::sopp::CBRANCH_EXECNZ) {
+      if (!instSem->parameters.empty()) {
+        std::fprintf(
+            stderr,
+            "Unexpected count of parameters for branch instruction %s: %zu\n",
+            ir::getInstructionName(isaInst.kind, isaInst.op).c_str(),
+            instSem->parameters.size());
+        continue;
+      }
+
+      auto inst = builder.createValue(loc, isaInst.kind, isaInst.op,
+                                      converter.getTypeBool());
+
+      if (isaInst.getOperand(0).kind != GcnOperand::Kind::Constant) {
+        std::abort();
+      }
+
+      auto target =
+          instAddress + static_cast<std::int32_t>(isaInst.operands[0].value);
+      workList.push_back(target);
+      auto [ifTrueLabel, ifTrueInserted] =
+          converter.getOrCreateLabel(loc, bodyRegion, target);
+      auto [ifFalseLabel, _] =
+          converter.getOrCreateLabel(loc, bodyRegion, instAddress);
+
+      if (ifTrueInserted) {
+        workList.push_back(target);
+      }
+
+      builder.createSpvBranchConditional(loc, inst, ifTrueLabel, ifFalseLabel);
+      continue;
+    }
+
+    if (isaInst == ir::vintrp::MOV_F32) {
+      if (!environment.supportsBarycentric) {
+        auto rawValue = builder.createSpvLoad(
+            loc, float32TV,
+            createOperandRead(loc, builder, float32TV, isaInst.getOperand(2)));
+
+        createOperandWrite(loc, builder, isaInst.getOperand(0), rawValue);
+      }
+
+      continue;
+    }
+
+    auto params = std::span(instSem->parameters);
+
+    const GcnOperand *resultOperand = nullptr;
+
+    if (instSem->returnType.baseType != ir::spv::OpTypeVoid) {
+      if (!operands.empty()) {
+        resultOperand = &operands[0];
+        operands = operands.subspan(1);
+      } else {
+        std::fprintf(stderr, "unexpected return type of %s: expected void\n",
+                     ir::getInstructionName(isaInst.kind, isaInst.op).c_str());
+        continue;
+      }
+    }
+
+    if (operands.size() != params.size()) {
+      std::fprintf(stderr,
+                   "count of arguments mismatch %s: expected %zu, got %zu\n",
+                   ir::getInstructionName(isaInst.kind, isaInst.op).c_str(),
+                   operands.size(), params.size());
+      std::abort();
+      continue;
+    }
+
+    if (resultOperand && (~resultOperand->access & GcnOperand::W)) {
+      std::fprintf(stderr, "%s: missed write access for destination register\n",
+                   ir::getInstructionName(isaInst.kind, isaInst.op).c_str());
+      std::abort();
+    }
+
+    std::vector<ir::spv::IdRef> callArgs;
+
+    for (std::size_t index = 0; auto &op : operands) {
+      auto &paramInfo = params[index++];
+      auto paramType = converter.getType(paramInfo.type);
+
+      auto arg = variablesBuilder.createSpvVariable(
+          loc,
+          converter.getTypePointer(ir::spv::StorageClass::Function, paramType),
+          ir::spv::StorageClass::Function);
+
+      if ((paramInfo.access & Access::Read) == Access::Read) {
+        auto result = createOperandRead(loc, builder, paramType, op);
+        builder.createSpvStore(loc, arg, result);
+      }
+
+      callArgs.push_back(arg);
+    }
+
+    auto inst = builder.createValue(loc, isaInst.kind, isaInst.op);
+    inst.addOperand(converter.getType(instSem->returnType));
+    for (auto arg : callArgs) {
+      inst.addOperand(arg);
+    }
+
+    if (resultOperand) {
+      createOperandWrite(loc, builder, *resultOperand, inst);
+    }
+
+    for (std::size_t index = 0; auto &op : operands) {
+      auto opIndex = index++;
+
+      if ((op.access & GcnOperand::W) != GcnOperand::W) {
+        continue;
+      }
+
+      auto arg = callArgs[opIndex];
+      auto paramType = converter.getType(params[opIndex].type);
+
+      auto value = builder.createSpvLoad(loc, paramType, arg);
+      createOperandWrite(loc, builder, op, value);
+    }
+
+    if (isaInst.kind == ir::Kind::Sop2 || isaInst.kind == ir::Kind::Sopk ||
+        isaInst.kind == ir::Kind::Smrd || isaInst.kind == ir::Kind::Sop1 ||
+        isaInst.kind == ir::Kind::Sopc || isaInst.kind == ir::Kind::Sopp) {
+      continue;
+    }
+
+    if (isaInst == ir::vop1::READFIRSTLANE_B32 ||
+        isaInst == ir::vop2::READLANE_B32 ||
+        isaInst == ir::vop2::WRITELANE_B32 ||
+        isaInst == ir::vop3::READFIRSTLANE_B32 ||
+        isaInst == ir::vop3::READLANE_B32 ||
+        isaInst == ir::vop3::WRITELANE_B32) {
+      continue;
+    }
+
+    injectExecTest(loc, builder, instrBegin);
+  }
+
+  converter.analysis.invalidateAll();
+
+  return regionEntry;
+}
+
+static void canonicalizeRegisterVariableType(ir::Context &context,
+                                             const BinaryLayout &layout,
+                                             gcn::RegId regId,
+                                             ir::Value variable) {
+  auto varPointerType = variable.getOperand(0).getAsValue();
+  auto varType = varPointerType.getOperand(1).getAsValue();
+
+  auto varInfo = shader::spv::getTypeInfo(varType);
+  auto regInfo = getRegisterInfo(regId);
+
+  if (varInfo == regInfo) {
+    return;
+  }
+
+  if (varInfo.width() != regInfo.width()) {
+    std::cerr << "Unexpected width of register " << getRegisterName(regId)
+              << ". expected " << regInfo.width() << ", actual "
+              << varInfo.width() << "\n";
+    std::abort();
+  }
+
+  auto globals = gcn::Builder::createInsertBefore(context, variable);
+
+  ir::Value regType;
+  switch (regInfo.baseType) {
+  case ir::spv::OpTypeVector:
+    regType = globals.createSpvTypeVector(
+        variable.getLocation(),
+        globals.createSpvTypeInt(variable.getLocation(), regInfo.componentWidth,
+                                 0),
+        regInfo.componentsCount);
+    break;
+
+  default:
+    std::abort();
+  }
+
+  auto regPointerType = globals.createSpvTypePointer(
+      variable.getLocation(),
+      static_cast<ir::spv::StorageClass>(
+          *varPointerType.getOperand(0).getAsInt32()),
+      regType);
+  variable.replaceOperand(0, regPointerType);
+
+  for (auto user : variable.getUserList()) {
+    auto instUser = user.cast<ir::Instruction>();
+    if (instUser == nullptr) {
+      continue;
+    }
+
+    if (instUser == ir::spv::OpName) {
+      continue;
+    }
+
+    if (instUser == ir::spv::OpLoad) {
+      auto builder = gcn::Builder::createInsertAfter(context, instUser);
+      auto tmpInst =
+          builder.createSpvUndef(context.getUnknownLocation(), varType);
+      instUser.staticCast<ir::Value>().replaceAllUsesWith(tmpInst);
+
+      instUser.replaceOperand(0, regType);
+      auto castedLoadValue = builder.createSpvBitcast(
+          instUser.getLocation(), varType, instUser.staticCast<ir::Value>());
+
+      tmpInst.replaceAllUsesWith(castedLoadValue);
+      tmpInst.remove();
+      continue;
+    }
+
+    if (instUser == ir::spv::OpStore) {
+      auto builder = gcn::Builder::createInsertBefore(context, instUser);
+      auto value = instUser.getOperand(1).getAsValue();
+      auto castedValue =
+          builder.createSpvBitcast(instUser.getLocation(), regType, value);
+
+      instUser.replaceOperand(1, castedValue);
+      continue;
+    }
+
+    std::cerr << "Unexpected register user: ";
+    dump(user);
+    std::abort();
+  }
+}
+
+void gcn::canonicalizeSemantic(ir::Context &context,
+                               const BinaryLayout &layout) {
+  auto debugs = layout.regions[BinaryLayout::kDebugs];
+  if (debugs == nullptr) {
+    return;
+  }
+
+  for (auto entry : debugs.children<ir::Instruction>()) {
+    if (entry != ir::spv::OpName) {
+      continue;
+    }
+
+    auto node = entry.getOperand(0).getAsValue();
+    if (node != ir::spv::OpVariable) {
+      continue;
+    }
+
+    auto &name = *entry.getOperand(1).getAsString();
+
+    if (auto regId = getRegIdByName(name)) {
+      canonicalizeRegisterVariableType(context, layout, *regId, node);
+    }
+  }
+}
+
+const char *accessToString(Access access) {
+  switch (access) {
+  case Access::Read:
+    return "read";
+  case Access::Write:
+    return "write";
+  case Access::Write | Access::Read:
+    return "read/write";
+  default:
+    std::abort();
+  }
+}
+
+SemanticInfo
+gcn::collectSemanticInfo(const gcn::SemanticModuleInfo &moduleInfo) {
+  std::map<ir::Value, int> registerToId;
+
+  for (auto [regId, variable] : moduleInfo.registerVariables) {
+    registerToId[variable] = regId;
+  }
+
+  std::map<ir::Value, ModuleInfo::Function> functions;
+  SemanticInfo result;
+
+  for (auto [instId, semFn] : moduleInfo.semantics) {
+    auto &modInfo = moduleInfo.functions.at(semFn);
+    auto &semInfo = result.semantics[instId];
+    for (auto param : modInfo.parameters) {
+      auto typeInfo =
+          shader::spv::getTypeInfo(param.type.getOperand(1).getAsValue());
+      semInfo.parameters.push_back({
+          .type = typeInfo,
+          .access = param.access,
+      });
+    }
+
+    for (auto [pointer, access] : modInfo.variables) {
+      auto storagePtr = pointer.getOperand(1).getAsInt32();
+      if (!storagePtr) {
+        continue;
+      }
+
+      auto storage = ir::spv::StorageClass(*storagePtr);
+
+      if (storage == ir::spv::StorageClass::StorageBuffer) {
+        semInfo.bufferAccess |= access;
+        continue;
+      }
+
+      if (auto it = registerToId.find(pointer); it != registerToId.end()) {
+        semInfo.registerAccesses[it->second] = access;
+        continue;
+      }
+    }
+
+    semInfo.returnType = shader::spv::getTypeInfo(modInfo.returnType);
+  }
+
+  return result;
+}
+
+ir::Node gcn::Import::getOrCloneImpl(ir::Context &context, ir::Node node,
+                                     bool isOperand) {
+  auto inst = node.cast<ir::Instruction>();
+
+  if (inst == nullptr) {
+    return CloneMap::getOrCloneImpl(context, node, isOperand);
+  }
+
+  auto &gcnContext = static_cast<Context &>(context);
+
+  auto redefine = [&](ir::Node newNode) {
+    setOverride(node, newNode);
+    return newNode;
+  };
+
+  if (inst == ir::spv::OpVariable) {
+    if (auto storage = inst.getOperand(1).getAsInt32();
+        !storage || *storage == int(ir::spv::StorageClass::Function)) {
+      return spv::Import::getOrCloneImpl(context, node, isOperand);
+    }
+
+    for (auto use : inst.staticCast<ir::Value>().getUseList()) {
+      if (use.user != ir::spv::OpName) {
+        continue;
+      }
+
+      auto name = use.user.getOperand(1).getAsString();
+
+      if (name == nullptr) {
+        continue;
+      }
+
+      if (auto regId = getRegIdByName(*name)) {
+        if (shader::spv::getTypeInfo(
+                inst.getOperand(0).getAsValue().getOperand(1).getAsValue()) !=
+            getRegisterInfo(*regId)) {
+          std::fprintf(stderr,
+                       "unexpected type for register variable "
+                       "'%s', expected %u\n",
+                       name->c_str(), getRegisterInfo(*regId).width());
+          std::abort();
+        }
+
+        return redefine(gcnContext.getOrCreateRegisterVariable(*regId));
+      }
+
+      break;
+    }
+  }
+
+  return spv::Import::getOrCloneImpl(context, node, isOperand);
+}
+
+struct GcnEvaluator : eval::Evaluator {
+  std::span<const std::uint32_t> userSGprs;
+  std::function<std::uint32_t(std::uint64_t)> readMemory;
+  gcn::Context &context;
+  const SemanticInfo &semanticInfo;
+  ir::Region region;
+  std::uint32_t usedUserSgprs = 0;
+
+  GcnEvaluator(gcn::Context &context, const SemanticInfo &semanticInfo,
+               ir::Region region)
+      : context(context), semanticInfo(semanticInfo), region(region) {}
+
+  using eval::Evaluator::eval;
+
+  eval::Value eval(ir::Value op) override {
+    if (op == ir::spv::OpLoad) {
+      auto &cfg = context.analysis.get<CFG>(
+          [this] { return buildCFG(region.getFirst()); });
+
+      auto &memorySSA = context.analysis.get<MemorySSA>([&, this] {
+        return buildMemorySSA(cfg, semanticInfo, [this](int regId) {
+          return context.getOrCreateRegisterVariable(
+              static_cast<gcn::RegId>(regId));
+        });
+      });
+
+      auto ptr = op.getOperand(1).getAsValue();
+      if (auto defInst = memorySSA.getDefInst(op, ptr)) {
+        if (defInst == ir::spv::OpStore) {
+          return eval(defInst.getOperand(1).getAsValue());
+        }
+
+        if (auto defVal = defInst.cast<ir::Value>()) {
+          return eval(defVal);
+        }
+      }
+    }
+
+    return Evaluator::eval(op);
+  }
+
+  eval::Value eval(ir::InstructionId instId,
+                   std::span<const ir::Operand> operands) override {
+    if (instId == ir::amdgpu::USER_SGPR) {
+      if (auto optIndex = eval(operands[1]).zExtScalar()) {
+        auto index = *optIndex;
+        if (index < userSGprs.size()) {
+          usedUserSgprs |= static_cast<std::uint32_t>(1) << index;
+          return userSGprs[index];
+        }
+      }
+
+      return {};
+    }
+
+    if (instId == ir::amdgpu::IMM) {
+      if (!readMemory) {
+        return {};
+      }
+
+      if (auto optAddress = eval(operands[1]).zExtScalar()) {
+        auto address = *optAddress;
+        return readMemory(address);
+      }
+
+      return {};
+    }
+
+    return eval::Evaluator::eval(instId, operands);
+  }
+};
+
+ir::Region
+gcn::deserialize(gcn::Context &context, const gcn::Environment &environment,
+                 const SemanticInfo &semanticInfo, std::uint64_t base,
+                 std::function<std::uint32_t(std::uint64_t)> readMemory) {
+  readMemory = [&context,
+                readMemory = std::move(readMemory)](std::uint64_t address) {
+    context.memoryMap.map(address, address + sizeof(std::uint32_t));
+    return readMemory(address);
+  };
+
+  {
+    auto vgprType = context.getTypePointer(
+        ir::spv::StorageClass::Private,
+        context.getTypeArray(
+            context.getTypeArray(context.getTypeUInt32(),
+                                 context.imm32(environment.vgprCount)),
+            context.imm32(64)));
+    auto sgprType = context.getTypePointer(
+        ir::spv::StorageClass::Private,
+        context.getTypeArray(context.getTypeUInt32(),
+                             context.imm32(environment.sgprCount)));
+
+    auto globals = Builder::createAppend(
+        context, context.layout.getOrCreateGlobals(context));
+    auto debugs = Builder::createAppend(
+        context, context.layout.getOrCreateDebugs(context));
+
+    auto vgpr = globals.createSpvVariable(
+        context.getUnknownLocation(), vgprType, ir::spv::StorageClass::Private);
+    auto sgpr = globals.createSpvVariable(
+        context.getUnknownLocation(), sgprType, ir::spv::StorageClass::Private);
+    debugs.createSpvName(context.getUnknownLocation(), vgpr, "vgpr");
+    debugs.createSpvName(context.getUnknownLocation(), sgpr, "sgpr");
+    context.setRegisterVariable(gcn::RegId::Vgpr, vgpr);
+    context.setRegisterVariable(gcn::RegId::Sgpr, sgpr);
+  }
+
+  std::unordered_set<std::uint64_t> processed;
+  std::vector<ir::Instruction> branchesToUnknown;
+  auto mainEntry =
+      deserializeGcnRegion(context, environment, semanticInfo, base, readMemory,
+                           branchesToUnknown, processed);
+  auto builder = gcn::Builder::createPrepend(context, context.body);
+
+  {
+    auto loc = context.getUnknownLocation();
+    context.entryPoint = builder.createSpvLabel(loc);
+
+    for (int i = 0; i < environment.userSgprs.size(); ++i) {
+      auto value =
+          builder.createValue(loc, ir::Kind::AmdGpu, ir::amdgpu::USER_SGPR,
+                              context.getTypeUInt32(), i);
+      context.writeReg(loc, builder, gcn::RegId::Sgpr, i, value);
+    }
+
+    context.writeReg(loc, builder, gcn::RegId::SgprCount, 0,
+                     context.imm32(environment.sgprCount));
+    context.writeReg(loc, builder, gcn::RegId::VgprCount, 0,
+                     context.imm32(environment.vgprCount));
+    builder.createSpvBranch(loc, mainEntry);
+  }
+
+  while (!branchesToUnknown.empty()) {
+    auto child = branchesToUnknown.back();
+    branchesToUnknown.pop_back();
+
+    GcnEvaluator evaluator(context, semanticInfo, context.body);
+    evaluator.userSGprs = environment.userSgprs;
+    evaluator.readMemory = readMemory;
+
+    if (auto target =
+            evaluator.eval(child.getOperand(0).getAsValue()).zExtScalar()) {
+      auto regionEntry =
+          deserializeGcnRegion(context, environment, semanticInfo, *target,
+                               readMemory, branchesToUnknown, processed);
+      gcn::Builder::createInsertBefore(context, child)
+          .createSpvBranch(child.getLocation(), regionEntry);
+      child.remove();
+    } else {
+      std::fprintf(stderr, "failed to evaluate branch!\n");
+    }
+    context.requiredUserSgprs |= evaluator.usedUserSgprs;
+  }
+
+  for (auto [address, label] : context.instructions) {
+    if (label != ir::spv::OpLabel) {
+      continue;
+    }
+
+    if (auto prev = label.getPrev(); !prev || isTerminator(prev)) {
+      continue;
+    }
+
+    gcn::Builder::createInsertBefore(context, label)
+        .createSpvBranch(label.getLocation(), label.staticCast<ir::Value>());
+  }
+
+  std::print("\n\n{}\n\n", buildCFG(context.entryPoint).genTest());
+
+  structurizeCfg(context, context.body,
+                 context.epilogue.getFirst().cast<ir::Value>());
+  return context.body;
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/glsl.cpp b/rpcsx-gpu2/lib/gcn-shader/src/glsl.cpp
new file mode 100644
index 00000000..e9754008
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/glsl.cpp
@@ -0,0 +1,334 @@
+#include "glsl.hpp"
+#include "SPIRV/GlslangToSpv.h"
+#include "dialect/spv.hpp"
+#include "spv.hpp"
+#include <filesystem>
+#include <fstream>
+#include <glslang/Public/ShaderLang.h>
+#include <spirv_cross_c.h>
+
+static constexpr auto g_glslangLimit = 100;
+
+static constexpr TBuiltInResource g_glslangConfig = {
+    .maxLights = g_glslangLimit,
+    .maxClipPlanes = g_glslangLimit,
+    .maxTextureUnits = g_glslangLimit,
+    .maxTextureCoords = g_glslangLimit,
+    .maxVertexAttribs = g_glslangLimit,
+    .maxVertexUniformComponents = g_glslangLimit,
+    .maxVaryingFloats = g_glslangLimit,
+    .maxVertexTextureImageUnits = g_glslangLimit,
+    .maxCombinedTextureImageUnits = g_glslangLimit,
+    .maxTextureImageUnits = g_glslangLimit,
+    .maxFragmentUniformComponents = g_glslangLimit,
+    .maxDrawBuffers = g_glslangLimit,
+    .maxVertexUniformVectors = g_glslangLimit,
+    .maxVaryingVectors = g_glslangLimit,
+    .maxFragmentUniformVectors = g_glslangLimit,
+    .maxVertexOutputVectors = g_glslangLimit,
+    .maxFragmentInputVectors = g_glslangLimit,
+    .minProgramTexelOffset = g_glslangLimit,
+    .maxProgramTexelOffset = g_glslangLimit,
+    .maxClipDistances = g_glslangLimit,
+    .maxComputeWorkGroupCountX = g_glslangLimit,
+    .maxComputeWorkGroupCountY = g_glslangLimit,
+    .maxComputeWorkGroupCountZ = g_glslangLimit,
+    .maxComputeWorkGroupSizeX = g_glslangLimit,
+    .maxComputeWorkGroupSizeY = g_glslangLimit,
+    .maxComputeWorkGroupSizeZ = g_glslangLimit,
+    .maxComputeUniformComponents = g_glslangLimit,
+    .maxComputeTextureImageUnits = g_glslangLimit,
+    .maxComputeImageUniforms = g_glslangLimit,
+    .maxComputeAtomicCounters = g_glslangLimit,
+    .maxComputeAtomicCounterBuffers = g_glslangLimit,
+    .maxVaryingComponents = g_glslangLimit,
+    .maxVertexOutputComponents = g_glslangLimit,
+    .maxGeometryInputComponents = g_glslangLimit,
+    .maxGeometryOutputComponents = g_glslangLimit,
+    .maxFragmentInputComponents = g_glslangLimit,
+    .maxImageUnits = g_glslangLimit,
+    .maxCombinedImageUnitsAndFragmentOutputs = g_glslangLimit,
+    .maxCombinedShaderOutputResources = g_glslangLimit,
+    .maxImageSamples = g_glslangLimit,
+    .maxVertexImageUniforms = g_glslangLimit,
+    .maxTessControlImageUniforms = g_glslangLimit,
+    .maxTessEvaluationImageUniforms = g_glslangLimit,
+    .maxGeometryImageUniforms = g_glslangLimit,
+    .maxFragmentImageUniforms = g_glslangLimit,
+    .maxCombinedImageUniforms = g_glslangLimit,
+    .maxGeometryTextureImageUnits = g_glslangLimit,
+    .maxGeometryOutputVertices = g_glslangLimit,
+    .maxGeometryTotalOutputComponents = g_glslangLimit,
+    .maxGeometryUniformComponents = g_glslangLimit,
+    .maxGeometryVaryingComponents = g_glslangLimit,
+    .maxTessControlInputComponents = g_glslangLimit,
+    .maxTessControlOutputComponents = g_glslangLimit,
+    .maxTessControlTextureImageUnits = g_glslangLimit,
+    .maxTessControlUniformComponents = g_glslangLimit,
+    .maxTessControlTotalOutputComponents = g_glslangLimit,
+    .maxTessEvaluationInputComponents = g_glslangLimit,
+    .maxTessEvaluationOutputComponents = g_glslangLimit,
+    .maxTessEvaluationTextureImageUnits = g_glslangLimit,
+    .maxTessEvaluationUniformComponents = g_glslangLimit,
+    .maxTessPatchComponents = g_glslangLimit,
+    .maxPatchVertices = g_glslangLimit,
+    .maxTessGenLevel = g_glslangLimit,
+    .maxViewports = g_glslangLimit,
+    .maxVertexAtomicCounters = g_glslangLimit,
+    .maxTessControlAtomicCounters = g_glslangLimit,
+    .maxTessEvaluationAtomicCounters = g_glslangLimit,
+    .maxGeometryAtomicCounters = g_glslangLimit,
+    .maxFragmentAtomicCounters = g_glslangLimit,
+    .maxCombinedAtomicCounters = g_glslangLimit,
+    .maxAtomicCounterBindings = g_glslangLimit,
+    .maxVertexAtomicCounterBuffers = g_glslangLimit,
+    .maxTessControlAtomicCounterBuffers = g_glslangLimit,
+    .maxTessEvaluationAtomicCounterBuffers = g_glslangLimit,
+    .maxGeometryAtomicCounterBuffers = g_glslangLimit,
+    .maxFragmentAtomicCounterBuffers = g_glslangLimit,
+    .maxCombinedAtomicCounterBuffers = g_glslangLimit,
+    .maxAtomicCounterBufferSize = g_glslangLimit,
+    .maxTransformFeedbackBuffers = g_glslangLimit,
+    .maxTransformFeedbackInterleavedComponents = g_glslangLimit,
+    .maxCullDistances = g_glslangLimit,
+    .maxCombinedClipAndCullDistances = g_glslangLimit,
+    .maxSamples = g_glslangLimit,
+    .maxMeshOutputVerticesNV = g_glslangLimit,
+    .maxMeshOutputPrimitivesNV = g_glslangLimit,
+    .maxMeshWorkGroupSizeX_NV = g_glslangLimit,
+    .maxMeshWorkGroupSizeY_NV = g_glslangLimit,
+    .maxMeshWorkGroupSizeZ_NV = g_glslangLimit,
+    .maxTaskWorkGroupSizeX_NV = g_glslangLimit,
+    .maxTaskWorkGroupSizeY_NV = g_glslangLimit,
+    .maxTaskWorkGroupSizeZ_NV = g_glslangLimit,
+    .maxMeshViewCountNV = g_glslangLimit,
+    .maxMeshOutputVerticesEXT = g_glslangLimit,
+    .maxMeshOutputPrimitivesEXT = g_glslangLimit,
+    .maxMeshWorkGroupSizeX_EXT = g_glslangLimit,
+    .maxMeshWorkGroupSizeY_EXT = g_glslangLimit,
+    .maxMeshWorkGroupSizeZ_EXT = g_glslangLimit,
+    .maxTaskWorkGroupSizeX_EXT = g_glslangLimit,
+    .maxTaskWorkGroupSizeY_EXT = g_glslangLimit,
+    .maxTaskWorkGroupSizeZ_EXT = g_glslangLimit,
+    .maxMeshViewCountEXT = g_glslangLimit,
+    .maxDualSourceDrawBuffersEXT = g_glslangLimit,
+
+    .limits = {
+        .nonInductiveForLoops = true,
+        .whileLoops = true,
+        .doWhileLoops = true,
+        .generalUniformIndexing = true,
+        .generalAttributeMatrixVectorIndexing = true,
+        .generalVaryingIndexing = true,
+        .generalSamplerIndexing = true,
+        .generalVariableIndexing = true,
+        .generalConstantMatrixVectorIndexing = true,
+    }};
+
+static std::optional<std::vector<std::byte>>
+readFile(const std::filesystem::path &path) {
+  std::ifstream f(path, std::ios::binary | std::ios::ate);
+
+  if (!f) {
+    return {};
+  }
+
+  std::vector<std::byte> data(f.tellg());
+  f.seekg(0, std::ios::beg);
+  f.read(reinterpret_cast<char *>(data.data()), data.size());
+  return data;
+}
+
+static EShLanguage toGlslangStage(shader::glsl::Stage stage) {
+  using shader::glsl::Stage;
+  switch (stage) {
+  case Stage::Library:
+    return EShLangCompute;
+  case Stage::Vertex:
+    return EShLangVertex;
+  case Stage::TessControl:
+    return EShLangTessControl;
+  case Stage::TessEvaluation:
+    return EShLangTessEvaluation;
+  case Stage::Geometry:
+    return EShLangGeometry;
+  case Stage::Fragment:
+    return EShLangFragment;
+  case Stage::Compute:
+    return EShLangCompute;
+  case Stage::RayGen:
+    return EShLangRayGen;
+  case Stage::Intersect:
+    return EShLangIntersect;
+  case Stage::AnyHit:
+    return EShLangAnyHit;
+  case Stage::ClosestHit:
+    return EShLangClosestHit;
+  case Stage::Miss:
+    return EShLangMiss;
+  case Stage::Callable:
+    return EShLangCallable;
+  case Stage::Task:
+    return EShLangTask;
+  case Stage::Mesh:
+    return EShLangMesh;
+  }
+
+  std::abort();
+}
+
+static std::optional<std::vector<std::uint32_t>>
+compileGlsl(const std::filesystem::path &cwd, std::string_view shaderSource,
+            shader::glsl::Stage stage) {
+  static bool _ = [] {
+    glslang::InitializeProcess();
+    return false;
+  }();
+  static_cast<void>(_);
+
+  auto glslangStage = toGlslangStage(stage);
+
+  glslang::TShader shader(glslangStage);
+  shader.setEnvInput(glslang::EShSourceGlsl, glslangStage,
+                     glslang::EShClientVulkan, 100);
+  shader.setEnvClient(glslang::EShClientVulkan, glslang::EShTargetVulkan_1_2);
+  shader.setEnvTarget(glslang::EShTargetSpv, glslang::EShTargetSpv_1_4);
+
+  auto text = shaderSource.data();
+  int textLength = shaderSource.length();
+  shader.setStringsWithLengths(&text, &textLength, 1);
+
+  auto msg = static_cast<EShMessages>(EShMsgVulkanRules | EShMsgSpvRules);
+
+  struct Includer final : glslang::TShader::Includer {
+    const std::filesystem::path &cwd;
+    std::forward_list<std::vector<std::byte>> texts;
+    std::forward_list<IncludeResult> results;
+    Includer(const std::filesystem::path &cwd) : cwd(cwd) {}
+
+    IncludeResult *includeLocal(const char *headerName,
+                                const char *includerName,
+                                size_t inclusionDepth) override {
+      if (cwd.empty()) {
+        return nullptr;
+      }
+
+      auto data = readFile(cwd / headerName);
+      if (!data) {
+        return nullptr;
+      }
+
+      auto &text = texts.emplace_front(std::move(*data));
+
+      return &results.emplace_front(
+          IncludeResult(headerName, reinterpret_cast<const char *>(text.data()),
+                        text.size(), nullptr));
+    }
+
+    void releaseInclude(IncludeResult *) override {}
+  };
+
+  Includer includer{cwd};
+  if (!shader.parse(&g_glslangConfig, 460, EProfile::ECoreProfile, false, true,
+                    msg, includer)) {
+    std::fprintf(stderr, "%s", shader.getInfoLog());
+    std::fprintf(stderr, "%s", shader.getInfoDebugLog());
+    return {};
+  }
+
+  glslang::SpvOptions options{
+      .disableOptimizer = true,
+      .compileOnly = stage == shader::glsl::Stage::Library,
+  };
+
+  std::vector<std::uint32_t> spirv;
+  glslang::GlslangToSpv(*shader.getIntermediate(), spirv, &options);
+
+  if (stage == shader::glsl::Stage::Library) {
+    spirv.insert(spirv.begin() + 5,
+                 {
+                     (2 << 16) | shader::ir::spv::OpCapability,
+                     (int)shader::ir::spv::Capability::Linkage,
+                 });
+  }
+  return spirv;
+}
+
+std::optional<shader::spv::BinaryLayout>
+shader::glsl::parseFile(ir::Context &context, Stage stage,
+                        const std::filesystem::path &path) {
+  auto optFileContent = readFile(path);
+  if (!optFileContent.has_value()) {
+    return {};
+  }
+
+  auto fileContent = std::move(*optFileContent);
+  auto text = std::string_view{
+      reinterpret_cast<const char *>(fileContent.data()), fileContent.size()};
+
+  auto spv =
+      compileGlsl(std::filesystem::absolute(path).parent_path(), text, stage);
+
+  if (!spv) {
+    return {};
+  }
+
+  return spv::deserialize(context, *spv,
+                          context.getPathLocation(path.string()));
+}
+
+std::optional<shader::spv::BinaryLayout>
+shader::glsl::parseSource(ir::Context &context, Stage stage,
+                          std::string_view source, ir::Location loc) {
+  if (loc == nullptr) {
+    loc = context.getUnknownLocation();
+  }
+
+  auto spv = compileGlsl({}, source, stage);
+
+  if (!spv) {
+    return {};
+  }
+
+  return spv::deserialize(context, *spv, loc);
+}
+
+std::string shader::glsl::decompile(std::span<const std::uint32_t> spv) {
+  spvc_context context = nullptr;
+  spvc_parsed_ir ir = nullptr;
+  spvc_compiler compiler_glsl = nullptr;
+  spvc_compiler_options options = nullptr;
+  const char *result = nullptr;
+
+  spvc_context_create(&context);
+
+  spvc_context_set_error_callback(
+      context,
+      [](void *, const char *message) {
+        std::fprintf(stderr, "%s\n", message);
+      },
+      nullptr);
+
+  spvc_context_parse_spirv(context, spv.data(), spv.size(), &ir);
+  spvc_context_create_compiler(context, SPVC_BACKEND_GLSL, ir,
+                               SPVC_CAPTURE_MODE_TAKE_OWNERSHIP,
+                               &compiler_glsl);
+
+  spvc_compiler_create_compiler_options(compiler_glsl, &options);
+  spvc_compiler_options_set_uint(options, SPVC_COMPILER_OPTION_GLSL_VERSION,
+                                 460);
+  spvc_compiler_options_set_bool(options, SPVC_COMPILER_OPTION_GLSL_ES,
+                                 SPVC_FALSE);
+  spvc_compiler_options_set_bool(
+      options, SPVC_COMPILER_OPTION_GLSL_VULKAN_SEMANTICS, SPVC_TRUE);
+  spvc_compiler_install_compiler_options(compiler_glsl, options);
+
+  if (spvc_compiler_compile(compiler_glsl, &result) != SPVC_SUCCESS) {
+    spvc_context_destroy(context);
+    return {};
+  }
+  std::string resultStr = result;
+  spvc_context_destroy(context);
+
+  return resultStr;
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/opt.cpp b/rpcsx-gpu2/lib/gcn-shader/src/opt.cpp
new file mode 100644
index 00000000..9fcf1151
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/opt.cpp
@@ -0,0 +1,73 @@
+#include "opt.hpp"
+#include "analyze.hpp"
+#include "ir.hpp"
+#include <unordered_map>
+
+using namespace shader;
+
+namespace {
+bool isEqOperands(ir::Instruction a, ir::Instruction b) {
+  auto opCount = a.getOperandCount();
+  if (opCount != b.getOperandCount()) {
+    return false;
+  }
+
+  for (std::size_t i = 0; i < opCount; ++i) {
+    if (a.getOperand(i) != b.getOperand(i)) {
+      return false;
+    }
+  }
+
+  return true;
+}
+} // namespace
+
+static bool combineInstructions(CFG &cfg, ir::Region region) {
+  auto domTree = buildDomTree(cfg);
+
+  std::unordered_map<ir::InstructionId, std::vector<ir::Instruction>>
+      instructions;
+  auto findPrevInst = [&](ir::Instruction inst) -> ir::Instruction {
+    for (auto prevInst : instructions[inst.getInstId()]) {
+      if (!isEqOperands(inst, prevInst)) {
+        continue;
+      }
+
+      if (!dominates(prevInst, inst, false, domTree)) {
+        continue;
+      }
+
+      return prevInst;
+    }
+
+    return nullptr;
+  };
+
+  std::size_t changes = 0;
+
+  for (auto bb : cfg.getPreorderNodes()) {
+    for (auto inst : bb->rangeWithoutLabelAndTerminator()) {
+      if (!shader::isWithoutSideEffects(inst.getInstId())) {
+        continue;
+      }
+
+      if (auto prev = findPrevInst(inst)) {
+        if (auto value = inst.cast<ir::Value>()) {
+          value.replaceAllUsesWith(prev.staticCast<ir::Value>());
+        }
+        inst.remove();
+        changes++;
+      } else {
+        instructions[inst.getInstId()].push_back(inst);
+      }
+    }
+  }
+
+  // std::cerr << "combined instructions: " << changes << "\n";
+  return changes != 0;
+}
+
+bool shader::optimize(ir::Context &context, ir::Region region) {
+  auto cfg = buildCFG(region.getFirst());
+  return combineInstructions(cfg, region);
+}
\ No newline at end of file
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/spv.cpp b/rpcsx-gpu2/lib/gcn-shader/src/spv.cpp
new file mode 100644
index 00000000..11fc1b8e
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/spv.cpp
@@ -0,0 +1,224 @@
+#include "spv.hpp"
+#include "dialect.hpp"
+#include "ir/Kind.hpp"
+#include <iostream>
+
+using namespace shader;
+
+static std::uint32_t generateSpv(std::vector<std::uint32_t> &result,
+                                 shader::ir::Region body) {
+  std::map<shader::ir::Value, std::uint32_t> valueToId;
+  std::uint32_t bounds = 1;
+
+  auto getValueId = [&](shader::ir::Value value) {
+    auto [it, inserted] = valueToId.emplace(value, 0);
+    if (inserted) {
+      it->second = bounds++;
+    }
+    return it->second;
+  };
+
+  for (auto child : body.children()) {
+    auto instruction = child.cast<shader::ir::Instruction>();
+    if (instruction == nullptr) {
+      std::fprintf(stderr, "generate spv: unexpected node\n");
+      std::abort();
+    }
+    if (instruction.getKind() != shader::ir::Kind::Spv) {
+      std::fprintf(
+          stderr, "generate spv: unexpected instruction: %s\n",
+          ir::getInstructionName(instruction.getKind(), instruction.getOp())
+              .c_str());
+      std::abort();
+    }
+
+    std::size_t headerWordIndex = result.size();
+    result.emplace_back() = instruction.getOp();
+
+    auto addWord = [&](std::uint32_t word) { result.emplace_back() = word; };
+    auto addDWord = [&](std::uint64_t dword) {
+      addWord(dword);
+      addWord(dword >> 32);
+    };
+
+    auto addString = [&](std::string_view string) {
+      auto stringOffset = result.size();
+      result.resize(result.size() + string.size() / sizeof(std::uint32_t) + 1);
+      std::memcpy(result.data() + stringOffset, string.data(), string.size());
+    };
+
+    auto operands = child.getOperands();
+
+    if (auto value = instruction.cast<ir::Value>()) {
+      if (!ir::spv::isTypeOp(value.getOp())) {
+        if (!operands.empty()) {
+          if (auto typeOperand = operands[0].getAsValue()) {
+            addWord(getValueId(typeOperand));
+            operands = operands.subspan(1);
+          }
+        }
+      }
+
+      addWord(getValueId(value));
+    }
+
+    for (auto operand : operands) {
+      if (auto value = operand.getAsValue()) {
+        addWord(getValueId(value));
+        continue;
+      }
+
+      if (auto value = operand.getAsString()) {
+        addString(*value);
+        continue;
+      }
+
+      if (auto value = operand.getAsInt32()) {
+        addWord(*value);
+        continue;
+      }
+
+      if (auto value = operand.getAsBool()) {
+        addWord(*value ? 1 : 0);
+        continue;
+      }
+
+      if (auto value = operand.getAsFloat()) {
+        addWord(std::bit_cast<std::uint32_t>(*value));
+        continue;
+      }
+
+      if (auto value = operand.getAsInt64()) {
+        addDWord(*value);
+        continue;
+      }
+
+      if (auto value = operand.getAsDouble()) {
+        addDWord(std::bit_cast<std::uint64_t>(*value));
+        continue;
+      }
+
+      std::fprintf(stderr, "unsupported operand\n");
+      shader::ir::NameStorage ns;
+      operand.print(std::cerr, ns);
+      std::abort();
+    }
+
+    result[headerWordIndex] |= (result.size() - headerWordIndex) << 16;
+  }
+
+  return bounds;
+}
+
+std::optional<shader::spv::BinaryLayout>
+shader::spv::deserialize(ir::Context &context,
+                         std::span<const std::uint32_t> spv, ir::Location loc) {
+  if (loc == nullptr) {
+    loc = context.getUnknownLocation();
+  }
+
+  shader::spv::BinaryLayout layout;
+  if (shader::ir::spv::deserialize(context, loc, layout, spv.subspan(5))) {
+    return layout;
+  }
+
+  return {};
+}
+
+std::vector<std::uint32_t> shader::spv::serialize(ir::Region body) {
+  std::vector<std::uint32_t> result;
+  result.resize(5);
+  result[0] = 0x07230203;
+  result[1] = 0x00010400;
+  result[3] = generateSpv(result, body);
+  return result;
+}
+
+bool spv::isTerminatorInst(ir::InstructionId inst) {
+  return inst == ir::spv::OpReturn || inst == ir::spv::OpReturnValue ||
+         inst == ir::spv::OpKill || inst == ir::spv::OpTerminateInvocation ||
+         inst == ir::spv::OpBranch || inst == ir::spv::OpBranchConditional ||
+         inst == ir::spv::OpSwitch || inst == ir::spv::OpUnreachable;
+}
+
+void shader::spv::dump(std::span<const std::uint32_t> spv, bool pretty) {
+  std::cerr << disassembly(spv, pretty);
+}
+
+std::string shader::spv::disassembly(std::span<const std::uint32_t> spv,
+                                     bool pretty) {
+  spv_target_env target_env = SPV_ENV_VULKAN_1_2;
+  spv_context spvContext = spvContextCreate(target_env);
+  spv_diagnostic diagnostic = nullptr;
+
+  int options = SPV_BINARY_TO_TEXT_OPTION_COMMENT |
+                SPV_BINARY_TO_TEXT_OPTION_INDENT;
+  if (pretty) {
+    options |= SPV_BINARY_TO_TEXT_OPTION_FRIENDLY_NAMES;
+  }
+
+  spv_text text{};
+
+  spv_result_t error = spvBinaryToText(spvContext, spv.data(), spv.size(),
+                                       options, &text, &diagnostic);
+
+  if (error != 0) {
+    spvDiagnosticPrint(diagnostic);
+  }
+
+  std::string result;
+  if (text != nullptr) {
+    result = std::string(text->str, text->length);
+  }
+
+  spvDiagnosticDestroy(diagnostic);
+  spvContextDestroy(spvContext);
+  return result;
+}
+
+bool shader::spv::validate(std::span<const std::uint32_t> spv) {
+  spv_target_env target_env = SPV_ENV_VULKAN_1_3;
+  spv_context spvContext = spvContextCreate(target_env);
+  spv_diagnostic diagnostic = nullptr;
+
+  spv_const_binary_t cBin{
+      .code = spv.data(),
+      .wordCount = spv.size(),
+  };
+
+  auto options = spvValidatorOptionsCreate();
+  spvValidatorOptionsSetScalarBlockLayout(options, true);
+
+  bool success = spvValidateWithOptions(spvContext, options, &cBin,
+                                        &diagnostic) == SPV_SUCCESS;
+  if (!success) {
+    spvDiagnosticPrint(diagnostic);
+  }
+
+  spvValidatorOptionsDestroy(options);
+  spvDiagnosticDestroy(diagnostic);
+  spvContextDestroy(spvContext);
+
+  return success;
+}
+
+std::optional<std::vector<uint32_t>>
+shader::spv::optimize(std::span<const std::uint32_t> spv) {
+  spvtools::Optimizer optimizer(SPV_ENV_VULKAN_1_2);
+  for (int i = 0; i < 100; ++i) {
+    optimizer.RegisterPerformancePasses();
+    optimizer.RegisterSizePasses();
+  }
+
+  std::vector<uint32_t> result;
+  result.reserve(spv.size());
+
+  spvtools::ValidatorOptions options;
+  options.SetSkipBlockLayout(true);
+
+  if (!optimizer.Run(spv.data(), spv.size(), &result, options, true)) {
+    return {};
+  }
+
+  return result;
+}
diff --git a/rpcsx-gpu2/lib/gcn-shader/src/transform.cpp b/rpcsx-gpu2/lib/gcn-shader/src/transform.cpp
new file mode 100644
index 00000000..4d0908f6
--- /dev/null
+++ b/rpcsx-gpu2/lib/gcn-shader/src/transform.cpp
@@ -0,0 +1,858 @@
+#include "transform.hpp"
+#include "SpvConverter.hpp"
+#include "analyze.hpp"
+#include "dialect.hpp"
+#include <rx/die.hpp>
+#include <unordered_set>
+
+using namespace shader;
+
+using Builder = ir::Builder<ir::builtin::Builder, ir::spv::Builder>;
+
+struct InstCloner : ir::CloneMap {
+  ir::Node getOrClone(ir::Context &context, ir::Node node,
+                      bool isOperand) override {
+    if (isOperand) {
+      return node;
+    }
+
+    return ir::CloneMap::getOrClone(context, node, isOperand);
+  }
+
+  template <typename T> T get(T object) {
+    if (auto result = getOverride(object)) {
+      return result.template staticCast<T>();
+    }
+
+    return object;
+  }
+};
+
+static bool replaceTerminatorTarget(ir::Instruction terminator,
+                                    ir::Value oldTarget, ir::Value newTarget) {
+  bool changes = false;
+  for (std::size_t i = 0, end = terminator.getOperandCount(); i < end; ++i) {
+    if (terminator.getOperand(i) == oldTarget) {
+      terminator.replaceOperand(i, newTarget);
+      changes = true;
+    }
+  }
+
+  if (!changes) {
+    return false;
+  }
+
+  auto selection = terminator.getPrev();
+
+  if (selection == ir::spv::OpSelectionMerge ||
+      selection == ir::spv::OpLoopMerge) {
+    for (std::size_t i = 0, end = selection.getOperandCount(); i < end; ++i) {
+      if (selection.getOperand(i) == oldTarget) {
+        selection.replaceOperand(i, newTarget);
+      }
+    }
+  }
+
+  return true;
+}
+
+static void
+cloneBlockRange(spv::Context &context, Construct &construct,
+                CFG::Node *startNode, std::unordered_set<ir::Value> stopLabels,
+                const std::unordered_set<CFG::Node *> &keepPredecessors) {
+  std::unordered_set<CFG::Node *> visited;
+  std::vector<CFG::Node *> workList;
+  workList.push_back(startNode);
+  visited.insert(startNode);
+
+  InstCloner cloner;
+  std::vector<ir::Value> clonedLabels;
+
+  while (!workList.empty()) {
+    auto bb = workList.back();
+    workList.pop_back();
+
+    if (!bb->hasTerminator()) {
+      continue;
+    }
+
+    auto region = bb->getLabel().getParent();
+
+    for (auto inst : bb->rangeWithoutTerminator()) {
+      auto clonedInst = ir::clone(inst, context, cloner);
+      region.addChild(clonedInst);
+
+      if (inst == ir::spv::OpLabel) {
+        clonedLabels.push_back(inst.staticCast<ir::Value>());
+        context.ns.setNameOf(clonedInst, "clone_" + context.ns.getNameOf(inst));
+      }
+    }
+
+    auto terminator = ir::clone(bb->getTerminator(), context, cloner);
+
+    if (terminator != nullptr) {
+      region.addChild(terminator);
+
+      for (std::size_t i = 0, end = terminator.getOperandCount(); i < end;
+           ++i) {
+        auto target = terminator.getOperand(i).getAsValue();
+        if (target != ir::spv::OpLabel || stopLabels.contains(target)) {
+          continue;
+        }
+
+        terminator.replaceOperand(i, ir::clone(target, context, cloner));
+      }
+
+      auto selection = terminator.getPrev();
+
+      if (selection == ir::spv::OpSelectionMerge ||
+          selection == ir::spv::OpLoopMerge) {
+        for (std::size_t i = 0, end = selection.getOperandCount(); i < end;
+             ++i) {
+          auto target = selection.getOperand(i).getAsValue();
+          if (target != ir::spv::OpLabel || stopLabels.contains(target)) {
+            continue;
+          }
+
+          selection.replaceOperand(i, ir::clone(target, context, cloner));
+        }
+      }
+    }
+
+    for (auto succ : bb->getSuccessors()) {
+      if (stopLabels.contains(succ->getLabel())) {
+        continue;
+      }
+
+      if (visited.insert(succ).second) {
+        workList.push_back(succ);
+      }
+    }
+  }
+
+  for (auto label : clonedLabels) {
+    for (auto inst : ir::range(label.getNext())) {
+      if (inst != ir::spv::OpPhi) {
+        break;
+      }
+
+      if (label == startNode->getLabel()) {
+        auto clonedInst = ir::clone(inst, context, cloner);
+        auto newClonedPhi = Builder::createInsertBefore(context, clonedInst)
+                                .createSpvPhi(inst.getLocation(),
+                                              inst.getOperand(0).getAsValue());
+        clonedInst.staticCast<ir::Value>().replaceAllUsesWith(newClonedPhi);
+        clonedInst.remove();
+
+        for (std::size_t i = 1, end = inst.getOperandCount(); i < end; i += 2) {
+          auto target = inst.getOperand(i).getAsValue();
+          if (target != ir::spv::OpLabel) {
+            continue;
+          }
+
+          if (cloner.getOverride(target) == nullptr) {
+            continue;
+          }
+
+          bool hasPred = false;
+
+          for (auto pred : keepPredecessors) {
+            if (pred->getLabel() == target) {
+              hasPred = true;
+              break;
+            }
+          }
+
+          if (hasPred) {
+            newClonedPhi.addOperand(inst.eraseOperand(i));
+            newClonedPhi.addOperand(inst.eraseOperand(i));
+          } else {
+            inst.replaceOperand(i, ir::clone(target, context, cloner));
+          }
+        }
+      } else {
+        for (std::size_t i = 2, end = inst.getOperandCount(); i < end; i += 2) {
+          auto target = inst.getOperand(i).getAsValue();
+          if (target != ir::spv::OpLabel || stopLabels.contains(target)) {
+            continue;
+          }
+
+          inst.replaceOperand(i, ir::clone(target, context, cloner));
+        }
+      }
+
+      break;
+    }
+  }
+
+  auto clonedStartLabel = cloner.get(startNode->getLabel());
+  auto backEdges = construct.getBackEdges(startNode->getLabel());
+  for (auto pred : keepPredecessors) {
+    if (backEdges && backEdges->contains(pred->getLabel())) {
+      continue;
+    }
+
+    replaceTerminatorTarget(pred->getTerminator(), startNode->getLabel(),
+                            clonedStartLabel);
+  }
+}
+
+static ir::Instruction findTerminator(ir::Instruction label) {
+  while (!isTerminator(label)) {
+    label = label.getNext();
+  }
+
+  return label;
+}
+
+static ir::Value createMergeBlock(
+    spv::Context &context, CFG::Node *originalNode,
+    const std::unordered_multimap<CFG::Node *, CFG::Node *> &edges) {
+  auto loc = originalNode->getLabel().getLocation();
+  auto mergeBlockBuilder =
+      Builder::createInsertAfter(context, originalNode->getTerminator());
+  auto mergeLabel = mergeBlockBuilder.createSpvLabel(loc);
+  auto region = mergeLabel.getParent();
+
+  rx::dieIf(edges.empty(), "createMergeBlock: unexpected edges count");
+  if (edges.size() == 1) {
+    auto [from, to] = *edges.begin();
+    mergeBlockBuilder.createSpvBranch(loc, to->getLabel());
+
+    replaceTerminatorTarget(from->getTerminator(), to->getLabel(), mergeLabel);
+  } else if (edges.size() == 2) {
+    auto blockMergePhi =
+        mergeBlockBuilder.createSpvPhi(loc, context.getTypeBool());
+
+    auto firstEdgeIt = edges.begin();
+    auto secondEdgeIt = std::next(firstEdgeIt);
+
+    mergeBlockBuilder.createSpvBranchConditional(
+        loc, blockMergePhi, secondEdgeIt->second->getLabel(),
+        firstEdgeIt->second->getLabel());
+
+    for (std::uint32_t index = 0; auto [from, to] : edges) {
+      auto terminator = from->getTerminator();
+
+      auto terminateBlockBuilder = Builder::createAppend(context, region);
+      auto terminateBlock = terminateBlockBuilder.createSpvLabel(loc);
+      terminateBlockBuilder.createSpvBranch(loc, mergeLabel);
+      blockMergePhi.addOperand(context.getBool(index++ > 0));
+      blockMergePhi.addOperand(terminateBlock);
+
+      replaceTerminatorTarget(terminator, to->getLabel(), terminateBlock);
+    }
+  } else {
+    auto blockMergePhi =
+        mergeBlockBuilder.createSpvPhi(loc, context.getTypeUInt32());
+
+    auto blockMergeSwitch = mergeBlockBuilder.createSpvSwitch(
+        loc, blockMergePhi, edges.begin()->second->getLabel());
+
+    for (std::uint32_t index = 0; auto [from, to] : edges) {
+      auto terminator = from->getTerminator();
+
+      auto terminateBlockBuilder = Builder::createAppend(context, region);
+      auto terminateBlock = terminateBlockBuilder.createSpvLabel(loc);
+      terminateBlockBuilder.createSpvBranch(loc, mergeLabel);
+
+      auto blockId = context.imm32(index);
+      if (index != 0) {
+        blockMergeSwitch.addOperand(blockId);
+        blockMergeSwitch.addOperand(to->getLabel());
+      }
+
+      ++index;
+
+      blockMergePhi.addOperand(blockId);
+      blockMergePhi.addOperand(terminateBlock);
+
+      replaceTerminatorTarget(terminator, to->getLabel(), terminateBlock);
+    }
+  }
+
+  return mergeLabel;
+}
+
+static std::pair<ir::Value, ir::Instruction>
+createTrampolineBlock(spv::Context &context,
+                      const std::unordered_set<CFG::Node *> &preds,
+                      CFG::Node *to) {
+
+  rx::dieIf(preds.empty(), "createTrampolineBlock: unexpected edges count");
+
+  auto loc = to->getLabel().getLocation();
+
+  auto trampolineBuilder = Builder::createInsertBefore(context, to->getLabel());
+  auto trampolineLabel = trampolineBuilder.createSpvLabel(loc);
+  auto terminator = trampolineBuilder.createSpvBranch(loc, to->getLabel());
+
+  if (preds.size() == to->getPredecessorCount()) {
+    for (auto phi : ir::range(to->getLabel().getNext())) {
+      if (phi != ir::spv::OpPhi) {
+        break;
+      }
+
+      phi.erase();
+      trampolineLabel.getParent().insertAfter(trampolineLabel, phi);
+    }
+  } else if (preds.size() == 1) {
+    for (auto phi : ir::range(to->getLabel().getNext())) {
+      if (phi != ir::spv::OpPhi) {
+        break;
+      }
+
+      for (std::size_t i = 2; i < phi.getOperandCount(); i += 2) {
+        if (phi.getOperand(i) == to->getLabel()) {
+          phi.replaceOperand(i, trampolineLabel);
+        }
+      }
+    }
+  } else {
+    for (auto phi : ir::range(to->getLabel().getNext())) {
+      if (phi != ir::spv::OpPhi) {
+        break;
+      }
+
+      auto newPhi =
+          Builder::createInsertAfter(context, trampolineLabel)
+              .createSpvPhi(phi.getLocation(), phi.getOperand(0).getAsValue());
+
+      for (std::size_t i = 1; i < phi.getOperandCount();) {
+        auto value = phi.getOperand(i).getAsValue();
+        auto label = phi.getOperand(i + 1).getAsValue();
+
+        bool hasPred = false;
+        for (auto pred : preds) {
+          if (pred->getLabel() == label) {
+            hasPred = true;
+            break;
+          }
+        }
+
+        if (hasPred) {
+          newPhi.addOperand(phi.eraseOperand(i));
+          newPhi.addOperand(phi.eraseOperand(i));
+        } else {
+          i += 2;
+        }
+      }
+
+      phi.addOperand(newPhi);
+      phi.addOperand(trampolineLabel);
+    }
+  }
+
+  for (auto pred : preds) {
+    replaceTerminatorTarget(pred->getTerminator(), to->getLabel(),
+                            trampolineLabel);
+  }
+
+  return {trampolineLabel, terminator};
+}
+
+static ir::Value createEntryBlock(
+    spv::Context &context, CFG::Node *originalHeadNode,
+    const std::unordered_map<CFG::Node *, std::unordered_set<CFG::Node *>>
+        &edges) {
+
+  auto loc = originalHeadNode->getLabel().getLocation();
+  auto entryBuilder =
+      Builder::createInsertBefore(context, originalHeadNode->getLabel());
+  auto entryLabel = entryBuilder.createSpvLabel(loc);
+  context.ns.setUniqueNameOf(entryLabel, "head");
+  auto region = originalHeadNode->getLabel().getParent();
+
+  rx::dieIf(edges.empty(), "createEntryBlock: unexpected edges count");
+
+  ir::Value selectorPhi;
+  ir::Value defaultPhiValue;
+
+  if (edges.size() == 1) {
+    selectorPhi = entryBuilder.createSpvPhi(loc, context.getTypeBool());
+    defaultPhiValue = context.getFalse();
+    auto &[to, fromList] = *edges.begin();
+
+    auto [trampoline, terminator] =
+        createTrampolineBlock(context, fromList, to);
+
+    entryBuilder.createSpvBranchConditional(loc, selectorPhi, to->getLabel(),
+                                            originalHeadNode->getLabel());
+    replaceTerminatorTarget(terminator, to->getLabel(), entryLabel);
+    selectorPhi.addOperand(context.getTrue());
+    selectorPhi.addOperand(trampoline);
+  } else {
+    selectorPhi = entryBuilder.createSpvPhi(loc, context.getTypeUInt32());
+    defaultPhiValue = context.imm32(0);
+    auto selectorSwitch = entryBuilder.createSpvSwitch(
+        loc, selectorPhi, originalHeadNode->getLabel());
+
+    for (std::uint32_t index = 1; auto [to, fromList] : edges) {
+      selectorSwitch.addOperand(index);
+      selectorSwitch.addOperand(to->getLabel());
+      auto [trampoline, terminator] =
+          createTrampolineBlock(context, fromList, to);
+      replaceTerminatorTarget(terminator, to->getLabel(), entryLabel);
+      selectorPhi.addOperand(context.imm32(index));
+      selectorPhi.addOperand(trampoline);
+
+      ++index;
+    }
+  }
+
+  for (auto originalPred : originalHeadNode->getPredecessors()) {
+    if (replaceTerminatorTarget(originalPred->getTerminator(),
+                                originalHeadNode->getLabel(), entryLabel)) {
+      selectorPhi.addOperand(defaultPhiValue);
+      selectorPhi.addOperand(originalPred->getLabel());
+    }
+  }
+
+  return entryLabel;
+}
+
+static std::pair<Construct *, bool>
+structurizeConstruct(spv::Context &context, Construct &parentConstruct,
+                     ir::Value entry) {
+  ir::Value mergeLabel;
+  auto &parentCfg = parentConstruct.getCfg();
+
+  bool isLoop = false;
+  ir::Instruction entryTerminator;
+  {
+
+    auto entryNode = parentCfg.getNode(entry);
+    entryTerminator = entryNode->getTerminator();
+
+    auto queryConstruct =
+        parentConstruct.createTemporaryChild(entry, parentConstruct.merge);
+    queryConstruct.loopContinue = parentConstruct.loopContinue;
+    auto &postDomTree = queryConstruct.getPostDomTree();
+
+    for (auto succ : entryNode->getSuccessors()) {
+      if (mergeLabel == nullptr) {
+        mergeLabel = succ->getLabel();
+      } else {
+        if (mergeLabel == succ->getLabel()) {
+          continue;
+        }
+        mergeLabel = postDomTree.findNearestCommonDominator(mergeLabel,
+                                                            succ->getLabel());
+      }
+    }
+
+    if (auto backEdges = queryConstruct.getBackEdgesWithoutContinue(entry)) {
+      isLoop = entry != parentConstruct.loopContinue;
+
+      auto &domTree = queryConstruct.getDomTree();
+
+      for (auto backEdge : *backEdges) {
+        mergeLabel =
+            postDomTree.findNearestCommonDominator(mergeLabel, backEdge);
+
+        if (mergeLabel == parentConstruct.merge) {
+          break;
+        }
+
+        for (auto pred :
+             queryConstruct.getCfg().getNode(backEdge)->getPredecessors()) {
+          mergeLabel = postDomTree.findNearestCommonDominator(mergeLabel,
+                                                              pred->getLabel());
+        }
+
+        if (mergeLabel == parentConstruct.merge) {
+          break;
+        }
+      }
+    }
+
+    if (queryConstruct.merge != mergeLabel) {
+      queryConstruct.merge = mergeLabel;
+      queryConstruct.analysis.invalidateAll();
+    }
+
+    if (isLoop) {
+      isLoop = queryConstruct.getCfg().getNode(entry)->hasPredecessors();
+    }
+
+    while (mergeLabel != parentConstruct.merge) {
+      // if selected merge block has branches to construct nodes, it is invalid
+      // merge block, need to find another one
+      auto &cfg = queryConstruct.getCfg();
+      if (!cfg.getNode(mergeLabel)->hasSuccessors()) {
+        break;
+      }
+
+      auto &postDomTree = parentConstruct.getPostDomTree();
+      for (auto succ : parentCfg.getNode(mergeLabel)->getSuccessors()) {
+        mergeLabel = postDomTree.findNearestCommonDominator(succ->getLabel(),
+                                                            mergeLabel);
+        if (queryConstruct.merge != mergeLabel) {
+          queryConstruct.merge = mergeLabel;
+          queryConstruct.analysis.invalidateAll();
+        }
+
+        if (mergeLabel == parentConstruct.merge) {
+          break;
+        }
+      }
+    }
+
+    // pick latest available merge block
+    while (mergeLabel != parentConstruct.merge) {
+      auto mergeNode = parentConstruct.getCfg().getNode(mergeLabel);
+      if (mergeNode->getSuccessorCount() != 1) {
+        break;
+      }
+
+      auto nextMergeNode = *mergeNode->getSuccessors().begin();
+
+      if (nextMergeNode->getPredecessorCount() != 1) {
+        break;
+      }
+
+      auto nextLabel = nextMergeNode->getLabel();
+
+      if (nextLabel == mergeLabel || nextLabel == parentConstruct.merge) {
+        break;
+      }
+
+      mergeLabel = nextLabel;
+    }
+  }
+
+  auto result = parentConstruct.createChild(entry, mergeLabel);
+  result->loopContinue = parentConstruct.loopContinue;
+
+  std::unordered_multimap<CFG::Node *, CFG::Node *> invalidExitEdges;
+  std::unordered_map<CFG::Node *, std::unordered_set<CFG::Node *>>
+      invalidEnterEdges;
+  std::unordered_map<ir::Value, std::unordered_set<ir::Value>> invalidEdges;
+  bool invalidMerge = result->merge == parentConstruct.merge;
+
+  auto &cfg = result->getCfg();
+  bool changes = false;
+
+  for (auto block : cfg.getPreorderNodes()) {
+    if (block == cfg.getEntryNode()) {
+      continue;
+    }
+
+    auto parentBlock = parentCfg.getNode(block->getLabel());
+
+    for (auto blockPred : parentBlock->getPredecessors()) {
+      if (cfg.getNode(blockPred->getLabel()) != nullptr) {
+        continue;
+      }
+
+      // it is branch to construct node from external block, need to fix it
+
+      if (block->getLabel() == mergeLabel) {
+        // only this construct can have branches to merge block
+        invalidMerge = true;
+        continue;
+      }
+
+      invalidEdges[block->getLabel()].emplace(blockPred->getLabel());
+      invalidEnterEdges[block].emplace(blockPred);
+      continue;
+    }
+
+    if (block->getLabel() == mergeLabel) {
+      continue;
+    }
+
+    for (auto succ : parentBlock->getSuccessors()) {
+      if (cfg.getNode(succ->getLabel()) == nullptr) {
+        // branch to block outside this construct, it should be done from
+        // merge block
+        invalidExitEdges.emplace(block, succ);
+      }
+    }
+  }
+
+  for (auto &[edge, fromList] : invalidEnterEdges) {
+    for (auto pred : edge->getPredecessors()) {
+      fromList.insert(pred);
+    }
+  }
+
+  bool isInvalidLoopHeader =
+      isLoop && cfg.getEntryNode()->getTerminator() != ir::spv::OpBranch;
+  bool isInvalidLoopContinue = false;
+
+  if (isLoop) {
+    auto entryNode = cfg.getEntryNode();
+    if (entryNode->getPredecessorCount() > 1) {
+      isInvalidLoopContinue = true;
+    }
+    if (!isInvalidLoopContinue) {
+      auto predLabel = (*entryNode->getPredecessors().begin())->getLabel();
+      auto continueNode = parentCfg.getNode(predLabel);
+
+      // continue block is not part of construct, it should contain only
+      // branch to header
+      isInvalidLoopContinue = continueNode->getSuccessorCount() > 1;
+    }
+  } else {
+    if (entryTerminator == ir::spv::OpBranch) {
+      return {};
+    }
+  }
+
+  if (isLoop) {
+    if (!isInvalidLoopContinue) {
+      result->loopContinue =
+          (*cfg.getEntryNode()->getPredecessors().begin())->getLabel();
+    }
+    if (!isInvalidLoopHeader) {
+      result->loopBody =
+          (*cfg.getEntryNode()->getSuccessors().begin())->getLabel();
+    }
+  }
+
+  if (isLoop) {
+    if (isInvalidLoopContinue) {
+      result->loopContinue =
+          createTrampolineBlock(context, cfg.getEntryNode()->getPredecessors(),
+                                parentCfg.getNode(result->header))
+              .first;
+      context.ns.setUniqueNameOf(result->loopContinue, "continue");
+      return {nullptr, true};
+    }
+
+    if (isInvalidLoopHeader) {
+      auto prevHeader = parentCfg.getNode(result->header);
+      result->header = createTrampolineBlock(
+                           context, prevHeader->getPredecessors(), prevHeader)
+                           .first;
+      return {nullptr, true};
+    }
+  }
+
+  if (!invalidEdges.empty()) {
+    auto &domTree = parentConstruct.getDomTree();
+    for (auto &[to, fromList] : invalidEdges) {
+      cloneBlockRange(context, *result, parentCfg.getNode(to),
+                      {result->merge, isLoop ? result->header : nullptr},
+                      cfg.getNode(to)->getPredecessors());
+    }
+
+    return {nullptr, true};
+  }
+
+  if (!invalidExitEdges.empty()) {
+    auto mergeNode = parentCfg.getNode(result->merge);
+    result->merge = createMergeBlock(context, mergeNode, invalidExitEdges);
+    return {nullptr, true};
+  }
+
+  if (invalidMerge) {
+    auto mergeNode = parentCfg.getNode(result->merge);
+    result->merge =
+        createTrampolineBlock(
+            context, cfg.getNode(result->merge)->getPredecessors(), mergeNode)
+            .first;
+    return {nullptr, true};
+  }
+
+  if (!isInvalidLoopHeader && !invalidEnterEdges.empty()) {
+    result->header = createEntryBlock(
+        context, parentCfg.getNode(result->header), invalidEnterEdges);
+    return {nullptr, true};
+  }
+
+  return {result, changes};
+}
+
+static bool structurizeCfgImpl(spv::Context &context, ir::RegionLike region,
+                               ir::Value exitLabel) {
+  bool changes = false;
+  std::unordered_map<ir::Value, Construct *> resultConstructs;
+  auto rootConstruct = Construct::createRoot(region, exitLabel);
+
+  struct Entry {
+    ir::Value header;
+    std::vector<ir::Value> successors;
+  };
+  std::vector<Entry> workList;
+
+  auto pushWorkList = [&](CFG::Node *node, ir::Value continueLabel = nullptr) {
+    auto &entry = workList.emplace_back(Entry{node->getLabel()});
+
+    for (auto succ : node->getSuccessors()) {
+      if (continueLabel != succ->getLabel()) {
+        entry.successors.push_back(succ->getLabel());
+      }
+    }
+  };
+
+  std::unordered_set<ir::Value> visited;
+  std::unordered_set<ir::Value> seen;
+  auto entryNode = rootConstruct->getCfg().getEntryNode();
+
+  pushWorkList(entryNode);
+  resultConstructs[entryNode->getLabel()] = rootConstruct.get();
+  auto currentConstruct = rootConstruct.get();
+
+  while (!workList.empty()) {
+    auto &entry = workList.back();
+    if (entry.successors.empty()) {
+      if (currentConstruct->header == entry.header) {
+        currentConstruct = currentConstruct->parent;
+      }
+
+      workList.pop_back();
+      continue;
+    }
+
+    auto label = entry.successors.back();
+    entry.successors.pop_back();
+
+    if (label == currentConstruct->merge) {
+      continue;
+    }
+
+    if (!visited.insert(label).second) {
+      continue;
+    }
+
+    CFG::Node *bb = currentConstruct->getCfg().getNode(label);
+    ir::Value currentHeader = currentConstruct->header;
+
+    if (bb == nullptr) {
+      continue;
+    }
+
+    auto terminator = bb->getTerminator();
+    if (terminator == nullptr) {
+      continue;
+    }
+
+    auto selection = terminator.getPrev();
+
+    if (selection == ir::spv::OpLoopMerge ||
+        selection == ir::spv::OpSelectionMerge) {
+      auto parentContinue = currentConstruct->loopContinue;
+      currentConstruct = currentConstruct->createChild(
+          bb->getLabel(), selection.getOperand(0).getAsValue());
+      currentConstruct->loopContinue = parentContinue;
+
+      seen.insert(bb->getLabel());
+      seen.insert(selection.getOperand(0).getAsValue());
+
+      if (selection == ir::spv::OpLoopMerge) {
+        currentConstruct->loopContinue = selection.getOperand(1).getAsValue();
+
+        seen.insert(selection.getOperand(1).getAsValue());
+      }
+    } else {
+      selection = nullptr;
+    }
+
+    bool requiresSelection = false;
+
+    if (selection == nullptr && isBranch(terminator)) {
+      requiresSelection = true;
+
+      if (terminator == ir::spv::OpBranchConditional) {
+        if (seen.contains(terminator.getOperand(1).getAsValue()) &&
+            seen.contains(terminator.getOperand(2).getAsValue())) {
+          requiresSelection = false;
+        }
+      }
+    }
+
+    if (requiresSelection) {
+      auto [newConstruct, cfgChanges] =
+          structurizeConstruct(context, *currentConstruct, label);
+      if (cfgChanges) {
+        return true;
+      }
+
+      if (newConstruct != nullptr) {
+        seen.insert(newConstruct->header);
+        seen.insert(newConstruct->merge);
+
+        if (newConstruct->loopContinue) {
+          seen.insert(newConstruct->loopContinue);
+        }
+
+        auto structuralBlock =
+            newConstruct->getCfg().getNode(newConstruct->header);
+        auto mergeNode =
+            currentConstruct->getCfg().getNode(newConstruct->merge);
+
+        if (newConstruct->loopContinue == nullptr) {
+          for (auto pred : mergeNode->getPredecessors()) {
+            pushWorkList(pred, newConstruct->loopContinue);
+          }
+        } else {
+          pushWorkList(mergeNode, newConstruct->loopContinue);
+        }
+
+        pushWorkList(structuralBlock);
+
+        if (auto [it, inserted] =
+                resultConstructs.emplace(newConstruct->header, nullptr);
+            inserted) {
+          it->second = newConstruct;
+        }
+
+        currentConstruct = newConstruct;
+        continue;
+      }
+    }
+
+    pushWorkList(bb);
+  }
+
+  auto &cfg = rootConstruct->getCfg();
+  auto &domTree = rootConstruct->getDomTree();
+
+  if (currentConstruct != nullptr) {
+    rx::die("currentConstruct: %s-%s\n",
+            context.ns.getNameOf(currentConstruct->header).c_str(),
+            context.ns.getNameOf(currentConstruct->merge).c_str());
+  }
+
+  std::unordered_set<ir::Value> insertedLoops;
+  std::unordered_set<ir::Value> insertedMerges;
+
+  for (auto &[header, construct] : resultConstructs) {
+    if (construct->loopBody != nullptr) {
+      auto headerNode = cfg.getNode(construct->header);
+      auto terminator = headerNode->getTerminator();
+
+      Builder::createInsertBefore(context, terminator)
+          .createSpvLoopMerge(terminator.getLocation(), construct->merge,
+                              construct->loopContinue,
+                              ir::spv::LoopControl::None());
+      changes = true;
+    } else {
+      auto headerNode = cfg.getNode(construct->header);
+      auto terminator = headerNode->getTerminator();
+
+      if (terminator == ir::spv::OpBranch ||
+          terminator.getPrev() == ir::spv::OpSelectionMerge) {
+        continue;
+      }
+
+      if (!domTree.dominates(construct->header, construct->merge)) {
+        continue;
+      }
+
+      Builder::createInsertBefore(context, terminator)
+          .createSpvSelectionMerge(terminator.getLocation(), construct->merge,
+                                   ir::spv::SelectionControl::None);
+      changes = true;
+    }
+  }
+  return changes;
+}
+
+void shader::structurizeCfg(spv::Context &context, ir::RegionLike region,
+                            ir::Value exitLabel) {
+  while (structurizeCfgImpl(context, region, exitLabel)) {
+  }
+}
diff --git a/rpcsx-gpu2/lib/gnm/CMakeLists.txt b/rpcsx-gpu2/lib/gnm/CMakeLists.txt
new file mode 100644
index 00000000..78bdf8e1
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/CMakeLists.txt
@@ -0,0 +1,4 @@
+add_library(gnm STATIC src/pm4.cpp src/mmio.cpp)
+target_include_directories(gnm PUBLIC include PRIVATE include/gnm)
+
+add_subdirectory(lib)
diff --git a/rpcsx-gpu2/lib/gnm/include/gnm/constants.hpp b/rpcsx-gpu2/lib/gnm/include/gnm/constants.hpp
new file mode 100644
index 00000000..91b1037f
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/include/gnm/constants.hpp
@@ -0,0 +1,289 @@
+#pragma once
+
+#include <cstdint>
+
+namespace gnm {
+enum DataFormat : unsigned {
+  kDataFormatInvalid = 0x00000000,
+  kDataFormat8 = 0x00000001,
+  kDataFormat16 = 0x00000002,
+  kDataFormat8_8 = 0x00000003,
+  kDataFormat32 = 0x00000004,
+  kDataFormat16_16 = 0x00000005,
+  kDataFormat10_11_11 = 0x00000006,
+  kDataFormat11_11_10 = 0x00000007,
+  kDataFormat10_10_10_2 = 0x00000008,
+  kDataFormat2_10_10_10 = 0x00000009,
+  kDataFormat8_8_8_8 = 0x0000000a,
+  kDataFormat32_32 = 0x0000000b,
+  kDataFormat16_16_16_16 = 0x0000000c,
+  kDataFormat32_32_32 = 0x0000000d,
+  kDataFormat32_32_32_32 = 0x0000000e,
+  kDataFormat5_6_5 = 0x00000010,
+  kDataFormat1_5_5_5 = 0x00000011,
+  kDataFormat5_5_5_1 = 0x00000012,
+  kDataFormat4_4_4_4 = 0x00000013,
+  kDataFormat8_24 = 0x00000014,
+  kDataFormat24_8 = 0x00000015,
+  kDataFormatX24_8_32 = 0x00000016,
+  kDataFormatGB_GR = 0x00000020,
+  kDataFormatBG_RG = 0x00000021,
+  kDataFormat5_9_9_9 = 0x00000022,
+  kDataFormatBc1 = 0x00000023,
+  kDataFormatBc2 = 0x00000024,
+  kDataFormatBc3 = 0x00000025,
+  kDataFormatBc4 = 0x00000026,
+  kDataFormatBc5 = 0x00000027,
+  kDataFormatBc6 = 0x00000028,
+  kDataFormatBc7 = 0x00000029,
+  kDataFormatFmask8_S2_F1 = 0x0000002C,
+  kDataFormatFmask8_S4_F1 = 0x0000002D,
+  kDataFormatFmask8_S8_F1 = 0x0000002E,
+  kDataFormatFmask8_S2_F2 = 0x0000002F,
+  kDataFormatFmask8_S4_F2 = 0x00000030,
+  kDataFormatFmask8_S4_F4 = 0x00000031,
+  kDataFormatFmask16_S16_F1 = 0x00000032,
+  kDataFormatFmask16_S8_F2 = 0x00000033,
+  kDataFormatFmask32_S16_F2 = 0x00000034,
+  kDataFormatFmask32_S8_F4 = 0x00000035,
+  kDataFormatFmask32_S8_F8 = 0x00000036,
+  kDataFormatFmask64_S16_F4 = 0x00000037,
+  kDataFormatFmask64_S16_F8 = 0x00000038,
+  kDataFormat4_4 = 0x00000039,
+  kDataFormat6_5_5 = 0x0000003A,
+  kDataFormat1 = 0x0000003B,
+  kDataFormat1Reversed = 0x0000003C,
+};
+
+enum NumericFormat : unsigned {
+  kNumericFormatUNorm = 0x00000000,
+  kNumericFormatSNorm = 0x00000001,
+  kNumericFormatUScaled = 0x00000002,
+  kNumericFormatSScaled = 0x00000003,
+  kNumericFormatUInt = 0x00000004,
+  kNumericFormatSInt = 0x00000005,
+  kNumericFormatSNormNoZero = 0x00000006,
+  kNumericFormatFloat = 0x00000007,
+  kNumericFormatSrgb = 0x00000009,
+  kNumericFormatUBNorm = 0x0000000A,
+  kNumericFormatUBNormNoZero = 0x0000000B,
+  kNumericFormatUBInt = 0x0000000C,
+  kNumericFormatUBScaled = 0x0000000D,
+};
+
+enum ZFormat {
+  kZFormatInvalid = 0,
+  kZFormat16 = 1,
+  kZFormat32Float = 3,
+};
+
+enum StencilFormat {
+  kStencilInvalid = 0,
+  kStencil8 = 1,
+};
+
+enum class TextureType : std::uint8_t {
+  Dim1D = 8,
+  Dim2D,
+  Dim3D,
+  Cube,
+  Array1D,
+  Array2D,
+  Msaa2D,
+  MsaaArray2D,
+};
+
+enum class IndexType : std::uint8_t {
+  Int16,
+  Int32,
+};
+
+enum class PrimitiveType : std::uint8_t {
+  None = 0x00,
+  PointList = 0x01,
+  LineList = 0x02,
+  LineStrip = 0x03,
+  TriList = 0x04,
+  TriFan = 0x05,
+  TriStrip = 0x06,
+  Patch = 0x09,
+  LineListAdjacency = 0x0a,
+  LineStripAdjacency = 0x0b,
+  TriListAdjacency = 0x0c,
+  TriStripAdjacency = 0x0d,
+  RectList = 0x11,
+  LineLoop = 0x12,
+  QuadList = 0x13,
+  QuadStrip = 0x14,
+  Polygon = 0x15,
+};
+
+enum class StencilOp : std::uint8_t {
+  Keep,
+  Zero,
+  Ones,
+  ReplaceTest,
+  ReplaceOp,
+  AddClamp,
+  SubClamp,
+  Invert,
+  AddWrap,
+  SubWrap,
+  And,
+  Or,
+  Xor,
+  Nand,
+  Nor,
+  Xnor,
+};
+
+enum class RasterOp : std::uint8_t {
+  Blackness = 0x00,
+  Nor = 0x05,
+  AndInverted = 0x0a,
+  CopyInverted = 0x0f,
+  AndReverse = 0x44,
+  Invert = 0x55,
+  Xor = 0x5a,
+  Nand = 0x5f,
+  And = 0x88,
+  Equiv = 0x99,
+  Noop = 0xaa,
+  OrInverted = 0xaf,
+  Copy = 0xcc,
+  OrReverse = 0xdd,
+  Or = 0xee,
+  Set = 0xff,
+};
+
+enum class CompareFunc : std::uint8_t {
+  Never,
+  Less,
+  Equal,
+  LessEqual,
+  Greater,
+  NotEqual,
+  GreaterEqual,
+  Always,
+};
+
+enum class BorderColor : std::uint8_t {
+  OpaqueBlack,
+  TransparentBlack,
+  White,
+  Custom,
+};
+
+enum class FilterMode : std::uint8_t {
+  Blend,
+  Min,
+  Max,
+};
+enum class Filter : std::uint8_t {
+  Point,
+  Bilinear,
+  AnisoPoint,
+  AnisoLinear,
+};
+enum class MipFilter : std::uint8_t {
+  None = 0,
+  Point = 1,
+  Linear = 2,
+};
+
+enum class CbMode : std::uint8_t {
+  Disable = 0,
+  Normal = 1,
+  EliminateFastClear = 2,
+  Resolve = 3,
+  FmaskDecompress = 5,
+  DccDecompress = 6,
+};
+
+enum class Swizzle : std::uint8_t {
+  Zero = 0,
+  One = 1,
+  R = 4,
+  G = 5,
+  B = 6,
+  A = 7,
+};
+
+enum class BlendMultiplier : std::uint8_t {
+  Zero = 0x00,
+  One = 0x01,
+  SrcColor = 0x02,
+  OneMinusSrcColor = 0x03,
+  SrcAlpha = 0x04,
+  OneMinusSrcAlpha = 0x05,
+  DestAlpha = 0x06,
+  OneMinusDestAlpha = 0x07,
+  DestColor = 0x08,
+  OneMinusDestColor = 0x09,
+  SrcAlphaSaturate = 0x0a,
+  ConstantColor = 0x0d,
+  OneMinusConstantColor = 0x0e,
+  Src1Color = 0x0f,
+  InverseSrc1Color = 0x10,
+  Src1Alpha = 0x11,
+  InverseSrc1Alpha = 0x12,
+  ConstantAlpha = 0x13,
+  OneMinusConstantAlpha = 0x14,
+};
+
+enum class BlendFunc : std::uint8_t {
+  Add = 0,
+  Subtract = 1,
+  Min = 2,
+  Max = 3,
+  ReverseSubtract = 4,
+};
+
+enum class Face : std::uint8_t { CCW, CW };
+
+enum class PolyMode : std::uint8_t { Disable, Dual };
+
+enum class PolyModePtype : std::uint8_t {
+  Points,
+  Lines,
+  Triangles,
+};
+
+enum class RoundMode : std::uint8_t {
+  Truncate,
+  Round,
+  RoundToEven,
+  RoundToOdd,
+};
+
+enum class QuantMode : std::uint8_t {
+  Fp16_8_4,
+  Fp16_8_3,
+  Fp16_8_2,
+  Fp16_8_1,
+  Fp16_8_0,
+  Fp16_8_8,
+  Fp14_10,
+  Fp12_12,
+};
+
+enum class ClampMode : std::uint8_t {
+  Wrap,
+  Mirror,
+  ClampLastTexel,
+  MirrorOnceLastTexel,
+  ClampHalfBorder,
+  MirrorOnceHalfBorder,
+  ClampBorder,
+  MirrorOnceBorder,
+};
+
+enum class AnisoRatio : std::uint8_t {
+  x1,
+  x2,
+  x4,
+  x8,
+  x16,
+};
+
+} // namespace gnm
diff --git a/rpcsx-gpu2/lib/gnm/include/gnm/descriptors.hpp b/rpcsx-gpu2/lib/gnm/include/gnm/descriptors.hpp
new file mode 100644
index 00000000..e1903889
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/include/gnm/descriptors.hpp
@@ -0,0 +1,124 @@
+#pragma once
+
+#include "constants.hpp"
+#include <compare>
+#include <cstdint>
+
+namespace gnm {
+#pragma pack(push, 1)
+struct VBuffer {
+  std::uint64_t base : 44;
+  std::uint64_t mtype_L1s : 2;
+  std::uint64_t mtype_L2 : 2;
+  std::uint64_t stride : 14;
+  std::uint64_t cache_swizzle : 1;
+  std::uint64_t swizzle_en : 1;
+
+  std::uint32_t num_records;
+
+  Swizzle dst_sel_x : 3;
+  Swizzle dst_sel_y : 3;
+  Swizzle dst_sel_z : 3;
+  Swizzle dst_sel_w : 3;
+
+  NumericFormat nfmt : 3;
+  DataFormat dfmt : 4;
+  std::uint32_t element_size : 2;
+  std::uint32_t index_stride : 2;
+  std::uint32_t addtid_en : 1;
+  std::uint32_t reserved0 : 1;
+  std::uint32_t hash_en : 1;
+  std::uint32_t reserved1 : 1;
+  std::uint32_t mtype : 3;
+  std::uint32_t type : 2;
+
+  std::uint64_t address() const { return base; }
+  std::uint64_t size() const { return stride ? num_records * stride : num_records; }
+
+  auto operator<=>(const VBuffer &) const = default;
+};
+
+static_assert(sizeof(VBuffer) == sizeof(std::uint64_t) * 2);
+
+struct TBuffer {
+  uint64_t baseaddr256 : 38;
+  uint64_t mtype_L2 : 2;
+  uint64_t min_lod : 12;
+  DataFormat dfmt : 6;
+  NumericFormat nfmt : 4;
+  uint64_t mtype01 : 2;
+
+  uint64_t width : 14;
+  uint64_t height : 14;
+  uint64_t perfMod : 3;
+  uint64_t interlaced : 1;
+  Swizzle dst_sel_x : 3;
+  Swizzle dst_sel_y : 3;
+  Swizzle dst_sel_z : 3;
+  Swizzle dst_sel_w : 3;
+  uint64_t base_level : 4;
+  uint64_t last_level : 4;
+  uint64_t tiling_idx : 5;
+  uint64_t pow2pad : 1;
+  uint64_t mtype2 : 1;
+  uint64_t : 1; // reserved
+  TextureType type : 4;
+
+  uint64_t depth : 13;
+  uint64_t pitch : 14;
+  uint64_t : 5; // reserved
+  uint64_t base_array : 13;
+  uint64_t last_array : 13;
+  uint64_t : 6; // reserved
+
+  uint64_t min_lod_warn : 12; // fixed point 4.8
+  uint64_t counter_bank_id : 8;
+  uint64_t LOD_hdw_cnt_en : 1;
+  uint64_t : 42; // reserved
+
+  std::uint64_t address() const {
+    return static_cast<std::uint64_t>(static_cast<std::uint32_t>(baseaddr256))
+           << 8;
+  }
+
+  auto operator<=>(const TBuffer &) const = default;
+};
+
+static_assert(sizeof(TBuffer) == sizeof(std::uint64_t) * 4);
+
+struct SSampler {
+  ClampMode clamp_x : 3;
+  ClampMode clamp_y : 3;
+  ClampMode clamp_z : 3;
+  AnisoRatio max_aniso_ratio : 3;
+  CompareFunc depth_compare_func : 3;
+  int32_t force_unorm_coords : 1;
+  int32_t aniso_threshold : 3;
+  int32_t mc_coord_trunc : 1;
+  int32_t force_degamma : 1;
+  int32_t aniso_bias : 6;
+  int32_t trunc_coord : 1;
+  int32_t disable_cube_wrap : 1;
+  FilterMode filter_mode : 2;
+  int32_t : 1;
+  int32_t min_lod : 12;
+  int32_t max_lod : 12;
+  int32_t perf_mip : 4;
+  int32_t perf_z : 4;
+  int32_t lod_bias : 14;
+  int32_t lod_bias_sec : 6;
+  Filter xy_mag_filter : 2;
+  Filter xy_min_filter : 2;
+  Filter z_filter : 2;
+  MipFilter mip_filter : 2;
+  int32_t : 4;
+  int32_t border_color_ptr : 12;
+  int32_t : 18;
+  BorderColor border_color_type : 2;
+
+  auto operator<=>(const SSampler &) const = default;
+};
+
+static_assert(sizeof(SSampler) == sizeof(std::uint32_t) * 4);
+#pragma pack(pop)
+} // namespace gnm
diff --git a/rpcsx-gpu2/lib/gnm/include/gnm/gnm.hpp b/rpcsx-gpu2/lib/gnm/include/gnm/gnm.hpp
new file mode 100644
index 00000000..ce4522ad
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/include/gnm/gnm.hpp
@@ -0,0 +1,256 @@
+#pragma once
+#include "constants.hpp"
+#include "descriptors.hpp"
+
+namespace gnm {
+
+constexpr int getTexelsPerElement(gnm::DataFormat dfmt) {
+  switch (dfmt) {
+  case kDataFormatBc1:
+  case kDataFormatBc2:
+  case kDataFormatBc3:
+  case kDataFormatBc4:
+  case kDataFormatBc5:
+  case kDataFormatBc6:
+  case kDataFormatBc7:
+    return 16;
+  case kDataFormat1:
+  case kDataFormat1Reversed:
+    return 8;
+  case kDataFormatGB_GR:
+  case kDataFormatBG_RG:
+    return 2;
+  default:
+    return 1;
+  }
+}
+
+inline int getBitsPerElement(DataFormat dfmt) {
+  switch (dfmt) {
+  case kDataFormatInvalid:
+    return 0;
+  case kDataFormat8:
+    return 8;
+  case kDataFormat16:
+    return 16;
+  case kDataFormat8_8:
+    return 16;
+  case kDataFormat32:
+    return 32;
+  case kDataFormat16_16:
+    return 32;
+  case kDataFormat10_11_11:
+    return 32;
+  case kDataFormat11_11_10:
+    return 32;
+  case kDataFormat10_10_10_2:
+    return 32;
+  case kDataFormat2_10_10_10:
+    return 32;
+  case kDataFormat8_8_8_8:
+    return 32;
+  case kDataFormat32_32:
+    return 64;
+  case kDataFormat16_16_16_16:
+    return 64;
+  case kDataFormat32_32_32:
+    return 96;
+  case kDataFormat32_32_32_32:
+    return 128;
+  case kDataFormat5_6_5:
+    return 16;
+  case kDataFormat1_5_5_5:
+    return 16;
+  case kDataFormat5_5_5_1:
+    return 16;
+  case kDataFormat4_4_4_4:
+    return 16;
+  case kDataFormat8_24:
+    return 32;
+  case kDataFormat24_8:
+    return 32;
+  case kDataFormatX24_8_32:
+    return 64;
+  case kDataFormatGB_GR:
+    return 16;
+  case kDataFormatBG_RG:
+    return 16;
+  case kDataFormat5_9_9_9:
+    return 32;
+  case kDataFormatBc1:
+    return 4;
+  case kDataFormatBc2:
+    return 8;
+  case kDataFormatBc3:
+    return 8;
+  case kDataFormatBc4:
+    return 4;
+  case kDataFormatBc5:
+    return 8;
+  case kDataFormatBc6:
+    return 8;
+  case kDataFormatBc7:
+    return 8;
+  case kDataFormatFmask8_S2_F1:
+    return 8;
+  case kDataFormatFmask8_S4_F1:
+    return 8;
+  case kDataFormatFmask8_S8_F1:
+    return 8;
+  case kDataFormatFmask8_S2_F2:
+    return 8;
+  case kDataFormatFmask8_S4_F2:
+    return 8;
+  case kDataFormatFmask8_S4_F4:
+    return 8;
+  case kDataFormatFmask16_S16_F1:
+    return 16;
+  case kDataFormatFmask16_S8_F2:
+    return 16;
+  case kDataFormatFmask32_S16_F2:
+    return 32;
+  case kDataFormatFmask32_S8_F4:
+    return 32;
+  case kDataFormatFmask32_S8_F8:
+    return 32;
+  case kDataFormatFmask64_S16_F4:
+    return 64;
+  case kDataFormatFmask64_S16_F8:
+    return 64;
+  case kDataFormat4_4:
+    return 8;
+  case kDataFormat6_5_5:
+    return 16;
+  case kDataFormat1:
+    return 1;
+  case kDataFormat1Reversed:
+    return 1;
+  }
+
+  return -1;
+}
+
+constexpr int getTotalBitsPerElement(DataFormat dfmt) {
+  return getBitsPerElement(dfmt) * getTexelsPerElement(dfmt);
+}
+constexpr int getNumComponentsPerElement(DataFormat dfmt) {
+  switch (dfmt) {
+  case kDataFormatInvalid:
+    return 0;
+  case kDataFormat8:
+    return 1;
+  case kDataFormat16:
+    return 1;
+  case kDataFormat8_8:
+    return 2;
+  case kDataFormat32:
+    return 1;
+  case kDataFormat16_16:
+    return 2;
+  case kDataFormat10_11_11:
+    return 3;
+  case kDataFormat11_11_10:
+    return 3;
+  case kDataFormat10_10_10_2:
+    return 4;
+  case kDataFormat2_10_10_10:
+    return 4;
+  case kDataFormat8_8_8_8:
+    return 4;
+  case kDataFormat32_32:
+    return 2;
+  case kDataFormat16_16_16_16:
+    return 4;
+  case kDataFormat32_32_32:
+    return 3;
+  case kDataFormat32_32_32_32:
+    return 4;
+  case kDataFormat5_6_5:
+    return 3;
+  case kDataFormat1_5_5_5:
+    return 4;
+  case kDataFormat5_5_5_1:
+    return 4;
+  case kDataFormat4_4_4_4:
+    return 4;
+  case kDataFormat8_24:
+    return 2;
+  case kDataFormat24_8:
+    return 2;
+  case kDataFormatX24_8_32:
+    return 2;
+  case kDataFormatGB_GR:
+    return 3;
+  case kDataFormatBG_RG:
+    return 3;
+  case kDataFormat5_9_9_9:
+    return 3;
+  case kDataFormatBc1:
+    return 4;
+  case kDataFormatBc2:
+    return 4;
+  case kDataFormatBc3:
+    return 4;
+  case kDataFormatBc4:
+    return 1;
+  case kDataFormatBc5:
+    return 2;
+  case kDataFormatBc6:
+    return 3;
+  case kDataFormatBc7:
+    return 4;
+  case kDataFormatFmask8_S2_F1:
+    return 2;
+  case kDataFormatFmask8_S4_F1:
+    return 2;
+  case kDataFormatFmask8_S8_F1:
+    return 2;
+  case kDataFormatFmask8_S2_F2:
+    return 2;
+  case kDataFormatFmask8_S4_F2:
+    return 2;
+  case kDataFormatFmask8_S4_F4:
+    return 2;
+  case kDataFormatFmask16_S16_F1:
+    return 2;
+  case kDataFormatFmask16_S8_F2:
+    return 2;
+  case kDataFormatFmask32_S16_F2:
+    return 2;
+  case kDataFormatFmask32_S8_F4:
+    return 2;
+  case kDataFormatFmask32_S8_F8:
+    return 2;
+  case kDataFormatFmask64_S16_F4:
+    return 2;
+  case kDataFormatFmask64_S16_F8:
+    return 2;
+  case kDataFormat4_4:
+    return 2;
+  case kDataFormat6_5_5:
+    return 3;
+  case kDataFormat1:
+    return 1;
+  case kDataFormat1Reversed:
+    return 1;
+  }
+
+  return -1;
+}
+constexpr ZFormat getZFormat(DataFormat dfmt) {
+  if (dfmt == kDataFormat32) {
+    return kZFormat32Float;
+  }
+
+  if (dfmt == kDataFormat16) {
+    return kZFormat16;
+  }
+
+  return kZFormatInvalid;
+}
+
+constexpr StencilFormat getStencilFormat(DataFormat dfmt) {
+  return dfmt == kDataFormat8 ? kStencil8 : kStencilInvalid;
+}
+} // namespace gnm
+
diff --git a/rpcsx-gpu2/lib/gnm/include/gnm/mmio.hpp b/rpcsx-gpu2/lib/gnm/include/gnm/mmio.hpp
new file mode 100644
index 00000000..3a50612d
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/include/gnm/mmio.hpp
@@ -0,0 +1,5 @@
+#pragma once
+
+namespace gnm::mmio {
+const char *registerName(unsigned offset);
+} // namespace gnm::mmio
diff --git a/rpcsx-gpu2/lib/gnm/include/gnm/pm4.hpp b/rpcsx-gpu2/lib/gnm/include/gnm/pm4.hpp
new file mode 100644
index 00000000..77d15636
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/include/gnm/pm4.hpp
@@ -0,0 +1,84 @@
+#pragma once
+
+namespace gnm {
+
+enum Pm4Opcode {
+  IT_NOP = 0x10,
+  IT_SET_BASE = 0x11,
+  IT_CLEAR_STATE = 0x12,
+  IT_INDEX_BUFFER_SIZE = 0x13,
+  IT_DISPATCH_DIRECT = 0x15,
+  IT_DISPATCH_INDIRECT = 0x16,
+  IT_ATOMIC_GDS = 0x1d,
+  IT_OCCLUSION_QUERY = 0x1f,
+  IT_SET_PREDICATION = 0x20,
+  IT_REG_RMW = 0x21,
+  IT_COND_EXEC = 0x22,
+  IT_PRED_EXEC = 0x23,
+  IT_DRAW_INDIRECT = 0x24,
+  IT_DRAW_INDEX_INDIRECT = 0x25,
+  IT_INDEX_BASE = 0x26,
+  IT_DRAW_INDEX_2 = 0x27,
+  IT_CONTEXT_CONTROL = 0x28,
+  IT_INDEX_TYPE = 0x2a,
+  IT_DRAW_INDIRECT_MULTI = 0x2c,
+  IT_DRAW_INDEX_AUTO = 0x2d,
+  IT_NUM_INSTANCES = 0x2f,
+  IT_DRAW_INDEX_MULTI_AUTO = 0x30,
+  IT_INDIRECT_BUFFER_CNST = 0x33,
+  IT_STRMOUT_BUFFER_UPDATE = 0x34,
+  IT_DRAW_INDEX_OFFSET_2 = 0x35,
+  IT_DRAW_PREAMBLE = 0x36,
+  IT_WRITE_DATA = 0x37,
+  IT_DRAW_INDEX_INDIRECT_MULTI = 0x38,
+  IT_MEM_SEMAPHORE = 0x39,
+  IT_COPY_DW = 0x3b,
+  IT_WAIT_REG_MEM = 0x3c,
+  IT_INDIRECT_BUFFER = 0x3f,
+  IT_COPY_DATA = 0x40,
+  IT_PFP_SYNC_ME = 0x42,
+  IT_SURFACE_SYNC = 0x43,
+  IT_COND_WRITE = 0x45,
+  IT_EVENT_WRITE = 0x46,
+  IT_EVENT_WRITE_EOP = 0x47,
+  IT_EVENT_WRITE_EOS = 0x48,
+  IT_RELEASE_MEM = 0x49,
+  IT_PREAMBLE_CNTL = 0x4a,
+  IT_DMA_DATA = 0x50,
+  IT_ACQUIRE_MEM = 0x58,
+  IT_REWIND = 0x59,
+  IT_LOAD_UCONFIG_REG = 0x5e,
+  IT_LOAD_SH_REG = 0x5f,
+  IT_LOAD_CONFIG_REG = 0x60,
+  IT_LOAD_CONTEXT_REG = 0x61,
+  IT_SET_CONFIG_REG = 0x68,
+  IT_SET_CONTEXT_REG = 0x69,
+  IT_SET_CONTEXT_REG_INDIRECT = 0x73,
+  IT_SET_SH_REG = 0x76,
+  IT_SET_SH_REG_OFFSET = 0x77,
+  IT_SET_QUEUE_REG = 0x78,
+  IT_SET_UCONFIG_REG = 0x79,
+  IT_SCRATCH_RAM_WRITE = 0x7d,
+  IT_SCRATCH_RAM_READ = 0x7e,
+  IT_LOAD_CONST_RAM = 0x80,
+  IT_WRITE_CONST_RAM = 0x81,
+  IT_DUMP_CONST_RAM = 0x83,
+  IT_INCREMENT_CE_COUNTER = 0x84,
+  IT_INCREMENT_DE_COUNTER = 0x85,
+  IT_WAIT_ON_CE_COUNTER = 0x86,
+  IT_WAIT_ON_DE_COUNTER_DIFF = 0x88,
+  IT_SET_CE_DE_COUNTERS = 0x89,
+  IT_WAIT_ON_AVAIL_BUFFER = 0x8a,
+  IT_SWITCH_BUFFER = 0x8b,
+  IT_SET_RESOURCES = 0xa0,
+  IT_MAP_PROCESS = 0xa1,
+  IT_MAP_QUEUES = 0xa2,
+  IT_UNMAP_QUEUES = 0xa3,
+  IT_QUERY_STATUS = 0xa4,
+  IT_RUN_LIST = 0xa5,
+  IT_DISPATCH_DRAW_PREAMBLE = 0x8c,
+  IT_DISPATCH_DRAW = 0x8d,
+};
+
+const char *pm4OpcodeToString(int opcode);
+} // namespace gnm
diff --git a/rpcsx-gpu2/lib/gnm/lib/CMakeLists.txt b/rpcsx-gpu2/lib/gnm/lib/CMakeLists.txt
new file mode 100644
index 00000000..c2bbf87f
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/lib/CMakeLists.txt
@@ -0,0 +1 @@
+add_subdirectory(gnm-vulkan)
diff --git a/rpcsx-gpu2/lib/gnm/lib/gnm-vulkan/CMakeLists.txt b/rpcsx-gpu2/lib/gnm/lib/gnm-vulkan/CMakeLists.txt
new file mode 100644
index 00000000..b64d2492
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/lib/gnm-vulkan/CMakeLists.txt
@@ -0,0 +1,5 @@
+add_library(gnm_vulkan STATIC src/vulkan.cpp)
+add_library(gnm::vulkan ALIAS gnm_vulkan)
+
+target_include_directories(gnm_vulkan PUBLIC include PRIVATE include/gnm)
+target_link_libraries(gnm_vulkan PUBLIC vk gnm)
diff --git a/rpcsx-gpu2/lib/gnm/lib/gnm-vulkan/include/gnm/vulkan.hpp b/rpcsx-gpu2/lib/gnm/lib/gnm-vulkan/include/gnm/vulkan.hpp
new file mode 100644
index 00000000..a211deb0
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/lib/gnm-vulkan/include/gnm/vulkan.hpp
@@ -0,0 +1,243 @@
+#pragma once
+#include "rx/die.hpp"
+#include <cstdlib>
+#include <gnm/constants.hpp>
+#include <vulkan/vulkan.h>
+
+namespace gnm {
+VkFormat toVkFormat(DataFormat dfmt, NumericFormat nfmt);
+
+inline VkImageType toVkImageType(gnm::TextureType type) {
+  switch (type) {
+  case gnm::TextureType::Dim1D:
+    return VK_IMAGE_TYPE_1D;
+  case gnm::TextureType::Dim2D:
+    return VK_IMAGE_TYPE_2D;
+  case gnm::TextureType::Dim3D:
+    return VK_IMAGE_TYPE_3D;
+  case gnm::TextureType::Cube:
+    return VK_IMAGE_TYPE_2D;
+  case gnm::TextureType::Array1D:
+    return VK_IMAGE_TYPE_1D;
+  case gnm::TextureType::Array2D:
+    return VK_IMAGE_TYPE_2D;
+  case gnm::TextureType::Msaa2D:
+    return VK_IMAGE_TYPE_2D;
+  case gnm::TextureType::MsaaArray2D:
+    return VK_IMAGE_TYPE_2D;
+  }
+
+  rx::die("toVkImageType: unexpected texture type %u",
+          static_cast<unsigned>(type));
+}
+
+inline VkImageViewType toVkImageViewType(gnm::TextureType type) {
+  switch (type) {
+  case gnm::TextureType::Dim1D:
+    return VK_IMAGE_VIEW_TYPE_1D;
+  case gnm::TextureType::Dim2D:
+    return VK_IMAGE_VIEW_TYPE_2D;
+  case gnm::TextureType::Dim3D:
+    return VK_IMAGE_VIEW_TYPE_3D;
+  case gnm::TextureType::Cube:
+    return VK_IMAGE_VIEW_TYPE_2D;
+  case gnm::TextureType::Array1D:
+    return VK_IMAGE_VIEW_TYPE_1D;
+  case gnm::TextureType::Array2D:
+    return VK_IMAGE_VIEW_TYPE_2D;
+  case gnm::TextureType::Msaa2D:
+    return VK_IMAGE_VIEW_TYPE_2D;
+  case gnm::TextureType::MsaaArray2D:
+    return VK_IMAGE_VIEW_TYPE_2D;
+  }
+
+  rx::die("toVkImageViewType: unexpected texture type %u",
+          static_cast<unsigned>(type));
+}
+
+inline VkComponentSwizzle toVkComponentSwizzle(Swizzle swizzle) {
+  switch (swizzle) {
+  case Swizzle::Zero:
+    return VK_COMPONENT_SWIZZLE_ZERO;
+  case Swizzle::One:
+    return VK_COMPONENT_SWIZZLE_ONE;
+  case Swizzle::R:
+    return VK_COMPONENT_SWIZZLE_R;
+  case Swizzle::G:
+    return VK_COMPONENT_SWIZZLE_G;
+  case Swizzle::B:
+    return VK_COMPONENT_SWIZZLE_B;
+  case Swizzle::A:
+    return VK_COMPONENT_SWIZZLE_A;
+  }
+
+  rx::die("toVkComponentSwizzle: unexpected swizzle %u\n",
+          static_cast<unsigned>(swizzle));
+}
+
+static VkBlendFactor toVkBlendFactor(BlendMultiplier mul) {
+  switch (mul) {
+  case BlendMultiplier::Zero:
+    return VK_BLEND_FACTOR_ZERO;
+  case BlendMultiplier::One:
+    return VK_BLEND_FACTOR_ONE;
+  case BlendMultiplier::SrcColor:
+    return VK_BLEND_FACTOR_SRC_COLOR;
+  case BlendMultiplier::OneMinusSrcColor:
+    return VK_BLEND_FACTOR_ONE_MINUS_SRC_COLOR;
+  case BlendMultiplier::SrcAlpha:
+    return VK_BLEND_FACTOR_SRC_ALPHA;
+  case BlendMultiplier::OneMinusSrcAlpha:
+    return VK_BLEND_FACTOR_ONE_MINUS_SRC_ALPHA;
+  case BlendMultiplier::DestAlpha:
+    return VK_BLEND_FACTOR_DST_ALPHA;
+  case BlendMultiplier::OneMinusDestAlpha:
+    return VK_BLEND_FACTOR_ONE_MINUS_DST_ALPHA;
+  case BlendMultiplier::DestColor:
+    return VK_BLEND_FACTOR_DST_COLOR;
+  case BlendMultiplier::OneMinusDestColor:
+    return VK_BLEND_FACTOR_ONE_MINUS_DST_COLOR;
+  case BlendMultiplier::SrcAlphaSaturate:
+    return VK_BLEND_FACTOR_SRC_ALPHA_SATURATE;
+  case BlendMultiplier::ConstantColor:
+    return VK_BLEND_FACTOR_CONSTANT_COLOR;
+  case BlendMultiplier::OneMinusConstantColor:
+    return VK_BLEND_FACTOR_ONE_MINUS_CONSTANT_COLOR;
+  case BlendMultiplier::Src1Color:
+    return VK_BLEND_FACTOR_SRC1_COLOR;
+  case BlendMultiplier::InverseSrc1Color:
+    return VK_BLEND_FACTOR_ONE_MINUS_SRC1_COLOR;
+  case BlendMultiplier::Src1Alpha:
+    return VK_BLEND_FACTOR_SRC1_ALPHA;
+  case BlendMultiplier::InverseSrc1Alpha:
+    return VK_BLEND_FACTOR_ONE_MINUS_SRC1_ALPHA;
+  case BlendMultiplier::ConstantAlpha:
+    return VK_BLEND_FACTOR_CONSTANT_ALPHA;
+  case BlendMultiplier::OneMinusConstantAlpha:
+    return VK_BLEND_FACTOR_ONE_MINUS_CONSTANT_ALPHA;
+  }
+
+  rx::die("VkBlendFactor: unexpected value %u\n", static_cast<unsigned>(mul));
+}
+
+static VkBlendOp toVkBlendOp(BlendFunc func) {
+  switch (func) {
+  case BlendFunc::Add:
+    return VK_BLEND_OP_ADD;
+  case BlendFunc::Subtract:
+    return VK_BLEND_OP_SUBTRACT;
+  case BlendFunc::Min:
+    return VK_BLEND_OP_MIN;
+  case BlendFunc::Max:
+    return VK_BLEND_OP_MAX;
+  case BlendFunc::ReverseSubtract:
+    return VK_BLEND_OP_REVERSE_SUBTRACT;
+  }
+
+  rx::die("blendFuncToVkBlendOp: unexpected value %u\n",
+          static_cast<unsigned>(func));
+}
+
+static VkFrontFace toVkFrontFace(Face face) {
+  switch (face) {
+  case Face::CW:
+    return VK_FRONT_FACE_CLOCKWISE;
+  case Face::CCW:
+    return VK_FRONT_FACE_COUNTER_CLOCKWISE;
+  }
+
+  rx::die("toVkFrontFace: unexpected value %u\n", static_cast<unsigned>(face));
+}
+
+static VkIndexType toVkIndexType(IndexType indexType) {
+  switch (indexType) {
+  case IndexType::Int16:
+    return VK_INDEX_TYPE_UINT16;
+  case IndexType::Int32:
+    return VK_INDEX_TYPE_UINT32;
+  }
+
+  rx::die("toVkIndexType: unexpected value %u\n",
+          static_cast<unsigned>(indexType));
+}
+
+static VkCompareOp toVkCompareOp(CompareFunc compareFn) {
+  return static_cast<VkCompareOp>(compareFn);
+}
+
+static VkBorderColor toVkBorderColor(BorderColor color) {
+  switch (color) {
+  case gnm::BorderColor::OpaqueBlack:
+    return VK_BORDER_COLOR_FLOAT_OPAQUE_BLACK;
+
+  case gnm::BorderColor::TransparentBlack:
+    return VK_BORDER_COLOR_FLOAT_TRANSPARENT_BLACK;
+
+  case gnm::BorderColor::White:
+    return VK_BORDER_COLOR_FLOAT_OPAQUE_WHITE;
+
+  case gnm::BorderColor::Custom:
+    return VK_BORDER_COLOR_FLOAT_CUSTOM_EXT;
+  }
+
+  rx::die("toVkBorderColor: unexpected value %u\n",
+          static_cast<unsigned>(color));
+}
+
+static VkSamplerAddressMode toVkSamplerAddressMode(ClampMode clampMode) {
+  switch (clampMode) {
+  case ClampMode::Wrap:
+    return VK_SAMPLER_ADDRESS_MODE_REPEAT;
+  case ClampMode::Mirror:
+    return VK_SAMPLER_ADDRESS_MODE_MIRRORED_REPEAT;
+  case ClampMode::ClampLastTexel:
+    return VK_SAMPLER_ADDRESS_MODE_CLAMP_TO_EDGE;
+  case ClampMode::MirrorOnceLastTexel:
+    return VK_SAMPLER_ADDRESS_MODE_MIRROR_CLAMP_TO_EDGE;
+  case ClampMode::ClampHalfBorder:
+    rx::die("toVkSamplerAddressMode: unimplemented ClampMode::ClampHalfBorder");
+  case ClampMode::MirrorOnceHalfBorder:
+    rx::die("toVkSamplerAddressMode: unimplemented "
+            "ClampMode::MirrorOnceHalfBorder");
+
+  case ClampMode::ClampBorder:
+    return VK_SAMPLER_ADDRESS_MODE_CLAMP_TO_BORDER;
+
+  case ClampMode::MirrorOnceBorder:
+    rx::die(
+        "toVkSamplerAddressMode: unimplemented ClampMode::MirrorOnceBorder");
+  }
+
+  rx::die("toVkSamplerAddressMode: unexpected value %u\n",
+          static_cast<unsigned>(clampMode));
+}
+
+static VkFilter toVkFilter(Filter filter) {
+  switch (filter) {
+  case Filter::Point:
+    return VK_FILTER_NEAREST;
+  case Filter::Bilinear:
+    return VK_FILTER_LINEAR;
+  case Filter::AnisoPoint:
+    return VK_FILTER_NEAREST;
+  case Filter::AnisoLinear:
+    return VK_FILTER_LINEAR;
+  }
+
+  rx::die("toVkFilter: unexpected value %u\n", static_cast<unsigned>(filter));
+}
+
+static VkSamplerMipmapMode toVkSamplerMipmapMode(MipFilter filter) {
+  switch (filter) {
+  case MipFilter::None:
+    return VK_SAMPLER_MIPMAP_MODE_NEAREST;
+  case MipFilter::Point:
+    return VK_SAMPLER_MIPMAP_MODE_NEAREST;
+  case MipFilter::Linear:
+    return VK_SAMPLER_MIPMAP_MODE_LINEAR;
+  }
+
+  rx::die("toVkSamplerMipmapMode: unexpected value %u\n",
+          static_cast<unsigned>(filter));
+}
+} // namespace gnm
diff --git a/rpcsx-gpu2/lib/gnm/lib/gnm-vulkan/src/vulkan.cpp b/rpcsx-gpu2/lib/gnm/lib/gnm-vulkan/src/vulkan.cpp
new file mode 100644
index 00000000..0fccdddf
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/lib/gnm-vulkan/src/vulkan.cpp
@@ -0,0 +1,282 @@
+#include "vulkan.hpp"
+#include "rx/die.hpp"
+
+VkFormat gnm::toVkFormat(DataFormat dfmt, NumericFormat nfmt) {
+  switch (dfmt) {
+  case kDataFormat4_4_4_4: {
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_R4G4B4A4_UNORM_PACK16;
+    default:
+      break;
+    }
+
+    break;
+  }
+
+  case kDataFormat8: {
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_R8_UNORM;
+    case kNumericFormatSNorm:
+      return VK_FORMAT_R8_SNORM;
+    case kNumericFormatUInt:
+      return VK_FORMAT_R8_UINT;
+    case kNumericFormatSInt:
+      return VK_FORMAT_R8_SINT;
+    case kNumericFormatSrgb:
+      return VK_FORMAT_R8_SRGB;
+    default:
+      break;
+    }
+
+    break;
+  }
+  case kDataFormat32:
+    switch (nfmt) {
+    case kNumericFormatUInt:
+      return VK_FORMAT_R32_UINT;
+    case kNumericFormatSInt:
+      return VK_FORMAT_R32_SINT;
+    case kNumericFormatFloat:
+      return VK_FORMAT_R32_SFLOAT;
+    case kNumericFormatSrgb:
+      return VK_FORMAT_R32_UINT; // FIXME
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormat8_8:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_R8G8_UNORM;
+    case kNumericFormatSNorm:
+      return VK_FORMAT_R8G8_SNORM;
+    case kNumericFormatUInt:
+      return VK_FORMAT_R8G8_UINT;
+    case kNumericFormatSInt:
+      return VK_FORMAT_R8G8_SINT;
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormat5_9_9_9:
+    switch (nfmt) {
+    case kNumericFormatFloat:
+      return VK_FORMAT_E5B9G9R9_UFLOAT_PACK32;
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormat5_6_5:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_R5G6B5_UNORM_PACK16;
+
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormat16_16:
+    switch (nfmt) {
+    case kNumericFormatUInt:
+      return VK_FORMAT_R16G16_UINT;
+    case kNumericFormatSInt:
+      return VK_FORMAT_R16G16_SINT;
+    case kNumericFormatFloat:
+      return VK_FORMAT_R16G16_SFLOAT;
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormat32_32:
+    switch (nfmt) {
+    case kNumericFormatUInt:
+      return VK_FORMAT_R32G32_UINT;
+    case kNumericFormatSInt:
+      return VK_FORMAT_R32G32_SINT;
+    case kNumericFormatFloat:
+      return VK_FORMAT_R32G32_SFLOAT;
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormat16_16_16_16:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_R16G16B16A16_UNORM;
+    case kNumericFormatSNorm:
+      return VK_FORMAT_R16G16B16A16_SNORM;
+    case kNumericFormatUScaled:
+      return VK_FORMAT_R16G16B16A16_USCALED;
+    case kNumericFormatSScaled:
+      return VK_FORMAT_R16G16B16A16_SSCALED;
+    case kNumericFormatUInt:
+      return VK_FORMAT_R16G16B16A16_UINT;
+    case kNumericFormatSInt:
+      return VK_FORMAT_R16G16B16A16_SINT;
+    case kNumericFormatFloat:
+      return VK_FORMAT_R16G16B16A16_SFLOAT;
+    case kNumericFormatSrgb:
+      return VK_FORMAT_R16G16B16A16_UNORM; // FIXME: wrong
+
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormat32_32_32:
+    switch (nfmt) {
+    case kNumericFormatUInt:
+      return VK_FORMAT_R32G32B32_UINT;
+    case kNumericFormatSInt:
+      return VK_FORMAT_R32G32B32_SINT;
+    case kNumericFormatFloat:
+      return VK_FORMAT_R32G32B32_SFLOAT;
+    default:
+      break;
+    }
+    break;
+  case kDataFormat32_32_32_32:
+    switch (nfmt) {
+    case kNumericFormatUInt:
+      return VK_FORMAT_R32G32B32A32_UINT;
+    case kNumericFormatSInt:
+      return VK_FORMAT_R32G32B32A32_SINT;
+    case kNumericFormatFloat:
+      return VK_FORMAT_R32G32B32A32_SFLOAT;
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormat24_8:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_D32_SFLOAT_S8_UINT; // HACK for amdgpu
+
+    default:
+      break;
+    }
+
+    break;
+
+  case kDataFormat8_8_8_8:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_R8G8B8A8_UNORM;
+    case kNumericFormatSNorm:
+      return VK_FORMAT_R8G8B8A8_SNORM;
+    case kNumericFormatUScaled:
+      return VK_FORMAT_R8G8B8A8_USCALED;
+    case kNumericFormatSScaled:
+      return VK_FORMAT_R8G8B8A8_SSCALED;
+    case kNumericFormatUInt:
+      return VK_FORMAT_R8G8B8A8_UINT;
+    case kNumericFormatSInt:
+      return VK_FORMAT_R8G8B8A8_SINT;
+    case kNumericFormatSNormNoZero:
+    case kNumericFormatSrgb:
+      return VK_FORMAT_R8G8B8A8_SRGB;
+
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormatBc1:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_BC1_RGBA_UNORM_BLOCK;
+    case kNumericFormatSrgb:
+      return VK_FORMAT_BC1_RGBA_SRGB_BLOCK;
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormatBc2:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_BC2_UNORM_BLOCK;
+    case kNumericFormatSrgb:
+      return VK_FORMAT_BC2_SRGB_BLOCK;
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormatBc3:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_BC3_UNORM_BLOCK;
+    case kNumericFormatSrgb:
+      return VK_FORMAT_BC3_SRGB_BLOCK;
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormatBc4:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_BC4_UNORM_BLOCK;
+
+    case kNumericFormatSNorm:
+      return VK_FORMAT_BC4_SNORM_BLOCK;
+
+    default:
+      break;
+    }
+    break;
+  case kDataFormatBc5:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_BC5_UNORM_BLOCK;
+
+    case kNumericFormatSNorm:
+      return VK_FORMAT_BC5_SNORM_BLOCK;
+
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormatBc6:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_BC6H_UFLOAT_BLOCK;
+
+    case kNumericFormatSNorm:
+      return VK_FORMAT_BC6H_SFLOAT_BLOCK;
+
+    default:
+      break;
+    }
+    break;
+
+  case kDataFormatBc7:
+    switch (nfmt) {
+    case kNumericFormatUNorm:
+      return VK_FORMAT_BC7_UNORM_BLOCK;
+
+    case kNumericFormatSrgb:
+      return VK_FORMAT_BC7_SRGB_BLOCK;
+
+    default:
+      break;
+    }
+    break;
+
+  default:
+    break;
+  }
+
+  rx::die("unimplemented surface format. %x.%x\n", (int)dfmt, (int)nfmt);
+}
diff --git a/rpcsx-gpu2/lib/gnm/src/mmio.cpp b/rpcsx-gpu2/lib/gnm/src/mmio.cpp
new file mode 100644
index 00000000..153c2c6c
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/src/mmio.cpp
@@ -0,0 +1,1858 @@
+#include "mmio.hpp"
+
+const char *gnm::mmio::registerName(unsigned offset) {
+  switch (offset) {
+  case 0x20ad:
+    return "CP_PRT_LOD_STATS_CNTL0";
+  case 0x20ae:
+    return "CP_PRT_LOD_STATS_CNTL1";
+  case 0x20af:
+    return "CP_PRT_LOD_STATS_CNTL2";
+  case 0x2232:
+    return "VGT_ESGS_RING_SIZE";
+  case 0x2233:
+    return "VGT_GSVS_RING_SIZE";
+  case 0x2262:
+    return "VGT_TF_RING_SIZE";
+  case 0x226e:
+    return "VGT_TF_MEMORY_BASE";
+  case 0x23c0:
+    return "SQ_BUF_RSRC_WORD0";
+  case 0x23c1:
+    return "SQ_BUF_RSRC_WORD1";
+  case 0x23c2:
+    return "SQ_BUF_RSRC_WORD2";
+  case 0x23c3:
+    return "SQ_BUF_RSRC_WORD3";
+  case 0x23c4:
+    return "SQ_IMG_RSRC_WORD0";
+  case 0x23c5:
+    return "SQ_IMG_RSRC_WORD1";
+  case 0x23c6:
+    return "SQ_IMG_RSRC_WORD2";
+  case 0x23c7:
+    return "SQ_IMG_RSRC_WORD3";
+  case 0x23c8:
+    return "SQ_IMG_RSRC_WORD4";
+  case 0x23c9:
+    return "SQ_IMG_RSRC_WORD5";
+  case 0x23ca:
+    return "SQ_IMG_RSRC_WORD6";
+  case 0x23cc:
+    return "SQ_IMG_SAMP_WORD0";
+  case 0x23cd:
+    return "SQ_IMG_SAMP_WORD1";
+  case 0x23ce:
+    return "SQ_IMG_SAMP_WORD2";
+  case 0x23cf:
+    return "SQ_IMG_SAMP_WORD3";
+  case 0x2c07:
+    return "SPI_SHADER_PGM_RSRC3_PS";
+  case 0x2c08:
+    return "SPI_SHADER_PGM_LO_PS";
+  case 0x2c09:
+    return "SPI_SHADER_PGM_HI_PS";
+  case 0x2c0a:
+    return "SPI_SHADER_PGM_RSRC1_PS";
+  case 0x2c0b:
+    return "SPI_SHADER_PGM_RSRC2_PS";
+  case 0x2c0c:
+    return "SPI_SHADER_USER_DATA_PS_0";
+  case 0x2c0d:
+    return "SPI_SHADER_USER_DATA_PS_1";
+  case 0x2c0e:
+    return "SPI_SHADER_USER_DATA_PS_2";
+  case 0x2c0f:
+    return "SPI_SHADER_USER_DATA_PS_3";
+  case 0x2c10:
+    return "SPI_SHADER_USER_DATA_PS_4";
+  case 0x2c11:
+    return "SPI_SHADER_USER_DATA_PS_5";
+  case 0x2c12:
+    return "SPI_SHADER_USER_DATA_PS_6";
+  case 0x2c13:
+    return "SPI_SHADER_USER_DATA_PS_7";
+  case 0x2c14:
+    return "SPI_SHADER_USER_DATA_PS_8";
+  case 0x2c15:
+    return "SPI_SHADER_USER_DATA_PS_9";
+  case 0x2c16:
+    return "SPI_SHADER_USER_DATA_PS_10";
+  case 0x2c17:
+    return "SPI_SHADER_USER_DATA_PS_11";
+  case 0x2c18:
+    return "SPI_SHADER_USER_DATA_PS_12";
+  case 0x2c19:
+    return "SPI_SHADER_USER_DATA_PS_13";
+  case 0x2c1a:
+    return "SPI_SHADER_USER_DATA_PS_14";
+  case 0x2c1b:
+    return "SPI_SHADER_USER_DATA_PS_15";
+  case 0x2c47:
+    return "SPI_SHADER_PGM_RSRC3_VS";
+  case 0x2c48:
+    return "SPI_SHADER_PGM_LO_VS";
+  case 0x2c49:
+    return "SPI_SHADER_PGM_HI_VS";
+  case 0x2c4a:
+    return "SPI_SHADER_PGM_RSRC1_VS";
+  case 0x2c4b:
+    return "SPI_SHADER_PGM_RSRC2_VS";
+  case 0x2c4c:
+    return "SPI_SHADER_USER_DATA_VS_0";
+  case 0x2c4d:
+    return "SPI_SHADER_USER_DATA_VS_1";
+  case 0x2c4e:
+    return "SPI_SHADER_USER_DATA_VS_2";
+  case 0x2c4f:
+    return "SPI_SHADER_USER_DATA_VS_3";
+  case 0x2c50:
+    return "SPI_SHADER_USER_DATA_VS_4";
+  case 0x2c51:
+    return "SPI_SHADER_USER_DATA_VS_5";
+  case 0x2c52:
+    return "SPI_SHADER_USER_DATA_VS_6";
+  case 0x2c53:
+    return "SPI_SHADER_USER_DATA_VS_7";
+  case 0x2c54:
+    return "SPI_SHADER_USER_DATA_VS_8";
+  case 0x2c55:
+    return "SPI_SHADER_USER_DATA_VS_9";
+  case 0x2c56:
+    return "SPI_SHADER_USER_DATA_VS_10";
+  case 0x2c57:
+    return "SPI_SHADER_USER_DATA_VS_11";
+  case 0x2c58:
+    return "SPI_SHADER_USER_DATA_VS_12";
+  case 0x2c59:
+    return "SPI_SHADER_USER_DATA_VS_13";
+  case 0x2c5a:
+    return "SPI_SHADER_USER_DATA_VS_14";
+  case 0x2c5b:
+    return "SPI_SHADER_USER_DATA_VS_15";
+  case 0x2c87:
+    return "SPI_SHADER_PGM_RSRC3_GS";
+  case 0x2c88:
+    return "SPI_SHADER_PGM_LO_GS";
+  case 0x2c89:
+    return "SPI_SHADER_PGM_HI_GS";
+  case 0x2c8a:
+    return "SPI_SHADER_PGM_RSRC1_GS";
+  case 0x2c8b:
+    return "SPI_SHADER_PGM_RSRC2_GS";
+  case 0x2c8c:
+    return "SPI_SHADER_USER_DATA_GS_0";
+  case 0x2c8d:
+    return "SPI_SHADER_USER_DATA_GS_1";
+  case 0x2c8e:
+    return "SPI_SHADER_USER_DATA_GS_2";
+  case 0x2c8f:
+    return "SPI_SHADER_USER_DATA_GS_3";
+  case 0x2c90:
+    return "SPI_SHADER_USER_DATA_GS_4";
+  case 0x2c91:
+    return "SPI_SHADER_USER_DATA_GS_5";
+  case 0x2c92:
+    return "SPI_SHADER_USER_DATA_GS_6";
+  case 0x2c93:
+    return "SPI_SHADER_USER_DATA_GS_7";
+  case 0x2c94:
+    return "SPI_SHADER_USER_DATA_GS_8";
+  case 0x2c95:
+    return "SPI_SHADER_USER_DATA_GS_9";
+  case 0x2c96:
+    return "SPI_SHADER_USER_DATA_GS_10";
+  case 0x2c97:
+    return "SPI_SHADER_USER_DATA_GS_11";
+  case 0x2c98:
+    return "SPI_SHADER_USER_DATA_GS_12";
+  case 0x2c99:
+    return "SPI_SHADER_USER_DATA_GS_13";
+  case 0x2c9a:
+    return "SPI_SHADER_USER_DATA_GS_14";
+  case 0x2c9b:
+    return "SPI_SHADER_USER_DATA_GS_15";
+  case 0x2cc7:
+    return "SPI_SHADER_PGM_RSRC3_ES";
+  case 0x2cc8:
+    return "SPI_SHADER_PGM_LO_ES";
+  case 0x2cc9:
+    return "SPI_SHADER_PGM_HI_ES";
+  case 0x2cca:
+    return "SPI_SHADER_PGM_RSRC1_ES";
+  case 0x2ccb:
+    return "SPI_SHADER_PGM_RSRC2_ES";
+  case 0x2ccc:
+    return "SPI_SHADER_USER_DATA_ES_0";
+  case 0x2ccd:
+    return "SPI_SHADER_USER_DATA_ES_1";
+  case 0x2cce:
+    return "SPI_SHADER_USER_DATA_ES_2";
+  case 0x2ccf:
+    return "SPI_SHADER_USER_DATA_ES_3";
+  case 0x2cd0:
+    return "SPI_SHADER_USER_DATA_ES_4";
+  case 0x2cd1:
+    return "SPI_SHADER_USER_DATA_ES_5";
+  case 0x2cd2:
+    return "SPI_SHADER_USER_DATA_ES_6";
+  case 0x2cd3:
+    return "SPI_SHADER_USER_DATA_ES_7";
+  case 0x2cd4:
+    return "SPI_SHADER_USER_DATA_ES_8";
+  case 0x2cd5:
+    return "SPI_SHADER_USER_DATA_ES_9";
+  case 0x2cd6:
+    return "SPI_SHADER_USER_DATA_ES_10";
+  case 0x2cd7:
+    return "SPI_SHADER_USER_DATA_ES_11";
+  case 0x2cd8:
+    return "SPI_SHADER_USER_DATA_ES_12";
+  case 0x2cd9:
+    return "SPI_SHADER_USER_DATA_ES_13";
+  case 0x2cda:
+    return "SPI_SHADER_USER_DATA_ES_14";
+  case 0x2cdb:
+    return "SPI_SHADER_USER_DATA_ES_15";
+  case 0x2d07:
+    return "SPI_SHADER_PGM_RSRC3_HS";
+  case 0x2d08:
+    return "SPI_SHADER_PGM_LO_HS";
+  case 0x2d09:
+    return "SPI_SHADER_PGM_HI_HS";
+  case 0x2d0a:
+    return "SPI_SHADER_PGM_RSRC1_HS";
+  case 0x2d0b:
+    return "SPI_SHADER_PGM_RSRC2_HS";
+  case 0x2d0c:
+    return "SPI_SHADER_USER_DATA_HS_0";
+  case 0x2d0d:
+    return "SPI_SHADER_USER_DATA_HS_1";
+  case 0x2d0e:
+    return "SPI_SHADER_USER_DATA_HS_2";
+  case 0x2d0f:
+    return "SPI_SHADER_USER_DATA_HS_3";
+  case 0x2d10:
+    return "SPI_SHADER_USER_DATA_HS_4";
+  case 0x2d11:
+    return "SPI_SHADER_USER_DATA_HS_5";
+  case 0x2d12:
+    return "SPI_SHADER_USER_DATA_HS_6";
+  case 0x2d13:
+    return "SPI_SHADER_USER_DATA_HS_7";
+  case 0x2d14:
+    return "SPI_SHADER_USER_DATA_HS_8";
+  case 0x2d15:
+    return "SPI_SHADER_USER_DATA_HS_9";
+  case 0x2d16:
+    return "SPI_SHADER_USER_DATA_HS_10";
+  case 0x2d17:
+    return "SPI_SHADER_USER_DATA_HS_11";
+  case 0x2d18:
+    return "SPI_SHADER_USER_DATA_HS_12";
+  case 0x2d19:
+    return "SPI_SHADER_USER_DATA_HS_13";
+  case 0x2d1a:
+    return "SPI_SHADER_USER_DATA_HS_14";
+  case 0x2d1b:
+    return "SPI_SHADER_USER_DATA_HS_15";
+  case 0x2d47:
+    return "SPI_SHADER_PGM_RSRC3_LS";
+  case 0x2d48:
+    return "SPI_SHADER_PGM_LO_LS";
+  case 0x2d49:
+    return "SPI_SHADER_PGM_HI_LS";
+  case 0x2d4a:
+    return "SPI_SHADER_PGM_RSRC1_LS";
+  case 0x2d4b:
+    return "SPI_SHADER_PGM_RSRC2_LS";
+  case 0x2d4c:
+    return "SPI_SHADER_USER_DATA_LS_0";
+  case 0x2d4d:
+    return "SPI_SHADER_USER_DATA_LS_1";
+  case 0x2d4e:
+    return "SPI_SHADER_USER_DATA_LS_2";
+  case 0x2d4f:
+    return "SPI_SHADER_USER_DATA_LS_3";
+  case 0x2d50:
+    return "SPI_SHADER_USER_DATA_LS_4";
+  case 0x2d51:
+    return "SPI_SHADER_USER_DATA_LS_5";
+  case 0x2d52:
+    return "SPI_SHADER_USER_DATA_LS_6";
+  case 0x2d53:
+    return "SPI_SHADER_USER_DATA_LS_7";
+  case 0x2d54:
+    return "SPI_SHADER_USER_DATA_LS_8";
+  case 0x2d55:
+    return "SPI_SHADER_USER_DATA_LS_9";
+  case 0x2d56:
+    return "SPI_SHADER_USER_DATA_LS_10";
+  case 0x2d57:
+    return "SPI_SHADER_USER_DATA_LS_11";
+  case 0x2d58:
+    return "SPI_SHADER_USER_DATA_LS_12";
+  case 0x2d59:
+    return "SPI_SHADER_USER_DATA_LS_13";
+  case 0x2d5a:
+    return "SPI_SHADER_USER_DATA_LS_14";
+  case 0x2d5b:
+    return "SPI_SHADER_USER_DATA_LS_15";
+  case 0x2e00:
+    return "COMPUTE_DISPATCH_INITIATOR";
+  case 0x2e07:
+    return "COMPUTE_NUM_THREAD_X";
+  case 0x2e08:
+    return "COMPUTE_NUM_THREAD_Y";
+  case 0x2e09:
+    return "COMPUTE_NUM_THREAD_Z";
+  case 0x2e0c:
+    return "COMPUTE_PGM_LO";
+  case 0x2e0d:
+    return "COMPUTE_PGM_HI";
+  case 0x2e12:
+    return "COMPUTE_PGM_RSRC1";
+  case 0x2e13:
+    return "COMPUTE_PGM_RSRC2";
+  case 0x2e15:
+    return "COMPUTE_RESOURCE_LIMITS";
+  case 0x2e16:
+    return "COMPUTE_STATIC_THREAD_MGMT_SE0";
+  case 0x2e17:
+    return "COMPUTE_STATIC_THREAD_MGMT_SE1";
+  case 0x2e18:
+    return "COMPUTE_TMPRING_SIZE";
+  case 0x2e40:
+    return "COMPUTE_USER_DATA_0";
+  case 0x2e41:
+    return "COMPUTE_USER_DATA_1";
+  case 0x2e42:
+    return "COMPUTE_USER_DATA_2";
+  case 0x2e43:
+    return "COMPUTE_USER_DATA_3";
+  case 0x2e44:
+    return "COMPUTE_USER_DATA_4";
+  case 0x2e45:
+    return "COMPUTE_USER_DATA_5";
+  case 0x2e46:
+    return "COMPUTE_USER_DATA_6";
+  case 0x2e47:
+    return "COMPUTE_USER_DATA_7";
+  case 0x2e48:
+    return "COMPUTE_USER_DATA_8";
+  case 0x2e49:
+    return "COMPUTE_USER_DATA_9";
+  case 0x2e4a:
+    return "COMPUTE_USER_DATA_10";
+  case 0x2e4b:
+    return "COMPUTE_USER_DATA_11";
+  case 0x2e4c:
+    return "COMPUTE_USER_DATA_12";
+  case 0x2e4d:
+    return "COMPUTE_USER_DATA_13";
+  case 0x2e4e:
+    return "COMPUTE_USER_DATA_14";
+  case 0x2e4f:
+    return "COMPUTE_USER_DATA_15";
+  case 0x3049:
+    return "CP_INT_CNTL";
+  case 0x324b:
+    return "CP_HQD_QUEUE_PRIORITY";
+  case 0x324c:
+    return "CP_HQD_QUANTUM";
+  case 0xa000:
+    return "DB_RENDER_CONTROL";
+  case 0xa001:
+    return "DB_COUNT_CONTROL";
+  case 0xa002:
+    return "DB_DEPTH_VIEW";
+  case 0xa003:
+    return "DB_RENDER_OVERRIDE";
+  case 0xa004:
+    return "DB_RENDER_OVERRIDE2";
+  case 0xa005:
+    return "DB_HTILE_DATA_BASE";
+  case 0xa008:
+    return "DB_DEPTH_BOUNDS_MIN";
+  case 0xa009:
+    return "DB_DEPTH_BOUNDS_MAX";
+  case 0xa00a:
+    return "DB_STENCIL_CLEAR";
+  case 0xa00b:
+    return "DB_DEPTH_CLEAR";
+  case 0xa00c:
+    return "PA_SC_SCREEN_SCISSOR_TL";
+  case 0xa00d:
+    return "PA_SC_SCREEN_SCISSOR_BR";
+  case 0xa00f:
+    return "DB_DEPTH_INFO";
+  case 0xa010:
+    return "DB_Z_INFO";
+  case 0xa011:
+    return "DB_STENCIL_INFO";
+  case 0xa012:
+    return "DB_Z_READ_BASE";
+  case 0xa013:
+    return "DB_STENCIL_READ_BASE";
+  case 0xa014:
+    return "DB_Z_WRITE_BASE";
+  case 0xa015:
+    return "DB_STENCIL_WRITE_BASE";
+  case 0xa016:
+    return "DB_DEPTH_SIZE";
+  case 0xa017:
+    return "DB_DEPTH_SLICE";
+  case 0xa020:
+    return "TA_BC_BASE_ADDR";
+  case 0xa080:
+    return "PA_SC_WINDOW_OFFSET";
+  case 0xa081:
+    return "PA_SC_WINDOW_SCISSOR_TL";
+  case 0xa082:
+    return "PA_SC_WINDOW_SCISSOR_BR";
+  case 0xa083:
+    return "PA_SC_CLIPRECT_RULE";
+  case 0xa084:
+    return "PA_SC_CLIPRECT_0_TL";
+  case 0xa085:
+    return "PA_SC_CLIPRECT_0_BR";
+  case 0xa086:
+    return "PA_SC_CLIPRECT_1_TL";
+  case 0xa087:
+    return "PA_SC_CLIPRECT_1_BR";
+  case 0xa088:
+    return "PA_SC_CLIPRECT_2_TL";
+  case 0xa089:
+    return "PA_SC_CLIPRECT_2_BR";
+  case 0xa08a:
+    return "PA_SC_CLIPRECT_3_TL";
+  case 0xa08b:
+    return "PA_SC_CLIPRECT_3_BR";
+  case 0xa08d:
+    return "PA_SU_HARDWARE_SCREEN_OFFSET";
+  case 0xa08e:
+    return "CB_TARGET_MASK";
+  case 0xa08f:
+    return "CB_SHADER_MASK";
+  case 0xa090:
+    return "PA_SC_GENERIC_SCISSOR_TL";
+  case 0xa091:
+    return "PA_SC_GENERIC_SCISSOR_BR";
+  case 0xa094:
+    return "PA_SC_VPORT_SCISSOR_0_TL";
+  case 0xa095:
+    return "PA_SC_VPORT_SCISSOR_0_BR";
+  case 0xa096:
+    return "PA_SC_VPORT_SCISSOR_1_TL";
+  case 0xa097:
+    return "PA_SC_VPORT_SCISSOR_1_BR";
+  case 0xa098:
+    return "PA_SC_VPORT_SCISSOR_2_TL";
+  case 0xa099:
+    return "PA_SC_VPORT_SCISSOR_2_BR";
+  case 0xa09a:
+    return "PA_SC_VPORT_SCISSOR_3_TL";
+  case 0xa09b:
+    return "PA_SC_VPORT_SCISSOR_3_BR";
+  case 0xa09c:
+    return "PA_SC_VPORT_SCISSOR_4_TL";
+  case 0xa09d:
+    return "PA_SC_VPORT_SCISSOR_4_BR";
+  case 0xa09e:
+    return "PA_SC_VPORT_SCISSOR_5_TL";
+  case 0xa09f:
+    return "PA_SC_VPORT_SCISSOR_5_BR";
+  case 0xa0a0:
+    return "PA_SC_VPORT_SCISSOR_6_TL";
+  case 0xa0a1:
+    return "PA_SC_VPORT_SCISSOR_6_BR";
+  case 0xa0a2:
+    return "PA_SC_VPORT_SCISSOR_7_TL";
+  case 0xa0a3:
+    return "PA_SC_VPORT_SCISSOR_7_BR";
+  case 0xa0a4:
+    return "PA_SC_VPORT_SCISSOR_8_TL";
+  case 0xa0a5:
+    return "PA_SC_VPORT_SCISSOR_8_BR";
+  case 0xa0a6:
+    return "PA_SC_VPORT_SCISSOR_9_TL";
+  case 0xa0a7:
+    return "PA_SC_VPORT_SCISSOR_9_BR";
+  case 0xa0a8:
+    return "PA_SC_VPORT_SCISSOR_10_TL";
+  case 0xa0a9:
+    return "PA_SC_VPORT_SCISSOR_10_BR";
+  case 0xa0aa:
+    return "PA_SC_VPORT_SCISSOR_11_TL";
+  case 0xa0ab:
+    return "PA_SC_VPORT_SCISSOR_11_BR";
+  case 0xa0ac:
+    return "PA_SC_VPORT_SCISSOR_12_TL";
+  case 0xa0ad:
+    return "PA_SC_VPORT_SCISSOR_12_BR";
+  case 0xa0ae:
+    return "PA_SC_VPORT_SCISSOR_13_TL";
+  case 0xa0af:
+    return "PA_SC_VPORT_SCISSOR_13_BR";
+  case 0xa0b0:
+    return "PA_SC_VPORT_SCISSOR_14_TL";
+  case 0xa0b1:
+    return "PA_SC_VPORT_SCISSOR_14_BR";
+  case 0xa0b2:
+    return "PA_SC_VPORT_SCISSOR_15_TL";
+  case 0xa0b3:
+    return "PA_SC_VPORT_SCISSOR_15_BR";
+  case 0xa0b4:
+    return "PA_SC_VPORT_ZMIN_0";
+  case 0xa0b5:
+    return "PA_SC_VPORT_ZMAX_0";
+  case 0xa0b6:
+    return "PA_SC_VPORT_ZMIN_1";
+  case 0xa0b7:
+    return "PA_SC_VPORT_ZMAX_1";
+  case 0xa0b8:
+    return "PA_SC_VPORT_ZMIN_2";
+  case 0xa0b9:
+    return "PA_SC_VPORT_ZMAX_2";
+  case 0xa0ba:
+    return "PA_SC_VPORT_ZMIN_3";
+  case 0xa0bb:
+    return "PA_SC_VPORT_ZMAX_3";
+  case 0xa0bc:
+    return "PA_SC_VPORT_ZMIN_4";
+  case 0xa0bd:
+    return "PA_SC_VPORT_ZMAX_4";
+  case 0xa0be:
+    return "PA_SC_VPORT_ZMIN_5";
+  case 0xa0bf:
+    return "PA_SC_VPORT_ZMAX_5";
+  case 0xa0c0:
+    return "PA_SC_VPORT_ZMIN_6";
+  case 0xa0c1:
+    return "PA_SC_VPORT_ZMAX_6";
+  case 0xa0c2:
+    return "PA_SC_VPORT_ZMIN_7";
+  case 0xa0c3:
+    return "PA_SC_VPORT_ZMAX_7";
+  case 0xa0c4:
+    return "PA_SC_VPORT_ZMIN_8";
+  case 0xa0c5:
+    return "PA_SC_VPORT_ZMAX_8";
+  case 0xa0c6:
+    return "PA_SC_VPORT_ZMIN_9";
+  case 0xa0c7:
+    return "PA_SC_VPORT_ZMAX_9";
+  case 0xa0c8:
+    return "PA_SC_VPORT_ZMIN_10";
+  case 0xa0c9:
+    return "PA_SC_VPORT_ZMAX_10";
+  case 0xa0ca:
+    return "PA_SC_VPORT_ZMIN_11";
+  case 0xa0cb:
+    return "PA_SC_VPORT_ZMAX_11";
+  case 0xa0cc:
+    return "PA_SC_VPORT_ZMIN_12";
+  case 0xa0cd:
+    return "PA_SC_VPORT_ZMAX_12";
+  case 0xa0ce:
+    return "PA_SC_VPORT_ZMIN_13";
+  case 0xa0cf:
+    return "PA_SC_VPORT_ZMAX_13";
+  case 0xa0d0:
+    return "PA_SC_VPORT_ZMIN_14";
+  case 0xa0d1:
+    return "PA_SC_VPORT_ZMAX_14";
+  case 0xa0d2:
+    return "PA_SC_VPORT_ZMIN_15";
+  case 0xa0d3:
+    return "PA_SC_VPORT_ZMAX_15";
+  case 0xa0d8:
+    return "CP_PERFMON_CNTX_CNTL";
+  case 0xa100:
+    return "VGT_MAX_VTX_INDX";
+  case 0xa101:
+    return "VGT_MIN_VTX_INDX";
+  case 0xa102:
+    return "VGT_INDX_OFFSET";
+  case 0xa103:
+    return "VGT_MULTI_PRIM_IB_RESET_INDX";
+  case 0xa105:
+    return "CB_BLEND_RED";
+  case 0xa106:
+    return "CB_BLEND_GREEN";
+  case 0xa107:
+    return "CB_BLEND_BLUE";
+  case 0xa108:
+    return "CB_BLEND_ALPHA";
+  case 0xa10b:
+    return "DB_STENCIL_CONTROL";
+  case 0xa10c:
+    return "DB_STENCILREFMASK";
+  case 0xa10d:
+    return "DB_STENCILREFMASK_BF";
+  case 0xa10f:
+    return "PA_CL_VPORT_XSCALE";
+  case 0xa110:
+    return "PA_CL_VPORT_XOFFSET";
+  case 0xa111:
+    return "PA_CL_VPORT_YSCALE";
+  case 0xa112:
+    return "PA_CL_VPORT_YOFFSET";
+  case 0xa113:
+    return "PA_CL_VPORT_ZSCALE";
+  case 0xa114:
+    return "PA_CL_VPORT_ZOFFSET";
+  case 0xa115:
+    return "PA_CL_VPORT_XSCALE_1";
+  case 0xa116:
+    return "PA_CL_VPORT_XOFFSET_1";
+  case 0xa117:
+    return "PA_CL_VPORT_YSCALE_1";
+  case 0xa118:
+    return "PA_CL_VPORT_YOFFSET_1";
+  case 0xa119:
+    return "PA_CL_VPORT_ZSCALE_1";
+  case 0xa11a:
+    return "PA_CL_VPORT_ZOFFSET_1";
+  case 0xa11b:
+    return "PA_CL_VPORT_XSCALE_2";
+  case 0xa11c:
+    return "PA_CL_VPORT_XOFFSET_2";
+  case 0xa11d:
+    return "PA_CL_VPORT_YSCALE_2";
+  case 0xa11e:
+    return "PA_CL_VPORT_YOFFSET_2";
+  case 0xa11f:
+    return "PA_CL_VPORT_ZSCALE_2";
+  case 0xa120:
+    return "PA_CL_VPORT_ZOFFSET_2";
+  case 0xa121:
+    return "PA_CL_VPORT_XSCALE_3";
+  case 0xa122:
+    return "PA_CL_VPORT_XOFFSET_3";
+  case 0xa123:
+    return "PA_CL_VPORT_YSCALE_3";
+  case 0xa124:
+    return "PA_CL_VPORT_YOFFSET_3";
+  case 0xa125:
+    return "PA_CL_VPORT_ZSCALE_3";
+  case 0xa126:
+    return "PA_CL_VPORT_ZOFFSET_3";
+  case 0xa127:
+    return "PA_CL_VPORT_XSCALE_4";
+  case 0xa128:
+    return "PA_CL_VPORT_XOFFSET_4";
+  case 0xa129:
+    return "PA_CL_VPORT_YSCALE_4";
+  case 0xa12a:
+    return "PA_CL_VPORT_YOFFSET_4";
+  case 0xa12b:
+    return "PA_CL_VPORT_ZSCALE_4";
+  case 0xa12c:
+    return "PA_CL_VPORT_ZOFFSET_4";
+  case 0xa12d:
+    return "PA_CL_VPORT_XSCALE_5";
+  case 0xa12e:
+    return "PA_CL_VPORT_XOFFSET_5";
+  case 0xa12f:
+    return "PA_CL_VPORT_YSCALE_5";
+  case 0xa130:
+    return "PA_CL_VPORT_YOFFSET_5";
+  case 0xa131:
+    return "PA_CL_VPORT_ZSCALE_5";
+  case 0xa132:
+    return "PA_CL_VPORT_ZOFFSET_5";
+  case 0xa133:
+    return "PA_CL_VPORT_XSCALE_6";
+  case 0xa134:
+    return "PA_CL_VPORT_XOFFSET_6";
+  case 0xa135:
+    return "PA_CL_VPORT_YSCALE_6";
+  case 0xa136:
+    return "PA_CL_VPORT_YOFFSET_6";
+  case 0xa137:
+    return "PA_CL_VPORT_ZSCALE_6";
+  case 0xa138:
+    return "PA_CL_VPORT_ZOFFSET_6";
+  case 0xa139:
+    return "PA_CL_VPORT_XSCALE_7";
+  case 0xa13a:
+    return "PA_CL_VPORT_XOFFSET_7";
+  case 0xa13b:
+    return "PA_CL_VPORT_YSCALE_7";
+  case 0xa13c:
+    return "PA_CL_VPORT_YOFFSET_7";
+  case 0xa13d:
+    return "PA_CL_VPORT_ZSCALE_7";
+  case 0xa13e:
+    return "PA_CL_VPORT_ZOFFSET_7";
+  case 0xa13f:
+    return "PA_CL_VPORT_XSCALE_8";
+  case 0xa140:
+    return "PA_CL_VPORT_XOFFSET_8";
+  case 0xa141:
+    return "PA_CL_VPORT_YSCALE_8";
+  case 0xa142:
+    return "PA_CL_VPORT_YOFFSET_8";
+  case 0xa143:
+    return "PA_CL_VPORT_ZSCALE_8";
+  case 0xa144:
+    return "PA_CL_VPORT_ZOFFSET_8";
+  case 0xa145:
+    return "PA_CL_VPORT_XSCALE_9";
+  case 0xa146:
+    return "PA_CL_VPORT_XOFFSET_9";
+  case 0xa147:
+    return "PA_CL_VPORT_YSCALE_9";
+  case 0xa148:
+    return "PA_CL_VPORT_YOFFSET_9";
+  case 0xa149:
+    return "PA_CL_VPORT_ZSCALE_9";
+  case 0xa14a:
+    return "PA_CL_VPORT_ZOFFSET_9";
+  case 0xa14b:
+    return "PA_CL_VPORT_XSCALE_10";
+  case 0xa14c:
+    return "PA_CL_VPORT_XOFFSET_10";
+  case 0xa14d:
+    return "PA_CL_VPORT_YSCALE_10";
+  case 0xa14e:
+    return "PA_CL_VPORT_YOFFSET_10";
+  case 0xa14f:
+    return "PA_CL_VPORT_ZSCALE_10";
+  case 0xa150:
+    return "PA_CL_VPORT_ZOFFSET_10";
+  case 0xa151:
+    return "PA_CL_VPORT_XSCALE_11";
+  case 0xa152:
+    return "PA_CL_VPORT_XOFFSET_11";
+  case 0xa153:
+    return "PA_CL_VPORT_YSCALE_11";
+  case 0xa154:
+    return "PA_CL_VPORT_YOFFSET_11";
+  case 0xa155:
+    return "PA_CL_VPORT_ZSCALE_11";
+  case 0xa156:
+    return "PA_CL_VPORT_ZOFFSET_11";
+  case 0xa157:
+    return "PA_CL_VPORT_XSCALE_12";
+  case 0xa158:
+    return "PA_CL_VPORT_XOFFSET_12";
+  case 0xa159:
+    return "PA_CL_VPORT_YSCALE_12";
+  case 0xa15a:
+    return "PA_CL_VPORT_YOFFSET_12";
+  case 0xa15b:
+    return "PA_CL_VPORT_ZSCALE_12";
+  case 0xa15c:
+    return "PA_CL_VPORT_ZOFFSET_12";
+  case 0xa15d:
+    return "PA_CL_VPORT_XSCALE_13";
+  case 0xa15e:
+    return "PA_CL_VPORT_XOFFSET_13";
+  case 0xa15f:
+    return "PA_CL_VPORT_YSCALE_13";
+  case 0xa160:
+    return "PA_CL_VPORT_YOFFSET_13";
+  case 0xa161:
+    return "PA_CL_VPORT_ZSCALE_13";
+  case 0xa162:
+    return "PA_CL_VPORT_ZOFFSET_13";
+  case 0xa163:
+    return "PA_CL_VPORT_XSCALE_14";
+  case 0xa164:
+    return "PA_CL_VPORT_XOFFSET_14";
+  case 0xa165:
+    return "PA_CL_VPORT_YSCALE_14";
+  case 0xa166:
+    return "PA_CL_VPORT_YOFFSET_14";
+  case 0xa167:
+    return "PA_CL_VPORT_ZSCALE_14";
+  case 0xa168:
+    return "PA_CL_VPORT_ZOFFSET_14";
+  case 0xa169:
+    return "PA_CL_VPORT_XSCALE_15";
+  case 0xa16a:
+    return "PA_CL_VPORT_XOFFSET_15";
+  case 0xa16b:
+    return "PA_CL_VPORT_YSCALE_15";
+  case 0xa16c:
+    return "PA_CL_VPORT_YOFFSET_15";
+  case 0xa16d:
+    return "PA_CL_VPORT_ZSCALE_15";
+  case 0xa16e:
+    return "PA_CL_VPORT_ZOFFSET_15";
+  case 0xa16f:
+    return "PA_CL_UCP_0_X";
+  case 0xa170:
+    return "PA_CL_UCP_0_Y";
+  case 0xa171:
+    return "PA_CL_UCP_0_Z";
+  case 0xa172:
+    return "PA_CL_UCP_0_W";
+  case 0xa191:
+    return "SPI_PS_INPUT_CNTL_0";
+  case 0xa1b1:
+    return "SPI_VS_OUT_CONFIG";
+  case 0xa1b3:
+    return "SPI_PS_INPUT_ENA";
+  case 0xa1b4:
+    return "SPI_PS_INPUT_ADDR";
+  case 0xa1b6:
+    return "SPI_PS_IN_CONTROL";
+  case 0xa1b8:
+    return "SPI_BARYC_CNTL";
+  case 0xa1ba:
+    return "SPI_TMPRING_SIZE";
+  case 0xa1c3:
+    return "SPI_SHADER_POS_FORMAT";
+  case 0xa1c4:
+    return "SPI_SHADER_Z_FORMAT";
+  case 0xa1c5:
+    return "SPI_SHADER_COL_FORMAT";
+  case 0xa1e0:
+    return "CB_BLEND0_CONTROL";
+  case 0xa1f9:
+    return "VGT_DMA_BASE_HI";
+  case 0xa1fa:
+    return "VGT_DMA_BASE";
+  case 0xa1fc:
+    return "VGT_DRAW_INITIATOR";
+  case 0xa1fd:
+    return "VGT_IMMED_DATA";
+  case 0xa200:
+    return "DB_DEPTH_CONTROL";
+  case 0xa201:
+    return "DB_EQAA";
+  case 0xa202:
+    return "CB_COLOR_CONTROL";
+  case 0xa203:
+    return "DB_SHADER_CONTROL";
+  case 0xa204:
+    return "PA_CL_CLIP_CNTL";
+  case 0xa205:
+    return "PA_SU_SC_MODE_CNTL";
+  case 0xa206:
+    return "PA_CL_VTE_CNTL";
+  case 0xa207:
+    return "PA_CL_VS_OUT_CNTL";
+  case 0xa280:
+    return "PA_SU_POINT_SIZE";
+  case 0xa281:
+    return "PA_SU_POINT_MINMAX";
+  case 0xa282:
+    return "PA_SU_LINE_CNTL";
+  case 0xa284:
+    return "VGT_OUTPUT_PATH_CNTL";
+  case 0xa286:
+    return "VGT_HOS_MAX_TESS_LEVEL";
+  case 0xa287:
+    return "VGT_HOS_MIN_TESS_LEVEL";
+  case 0xa290:
+    return "VGT_GS_MODE";
+  case 0xa291:
+    return "VGT_GS_ONCHIP_CNTL";
+  case 0xa292:
+    return "PA_SC_MODE_CNTL_0";
+  case 0xa293:
+    return "PA_SC_MODE_CNTL_1";
+  case 0xa295:
+    return "VGT_GS_PER_ES";
+  case 0xa296:
+    return "VGT_ES_PER_GS";
+  case 0xa297:
+    return "VGT_GS_PER_VS";
+  case 0xa298:
+    return "VGT_GSVS_RING_OFFSET_1";
+  case 0xa299:
+    return "VGT_GSVS_RING_OFFSET_2";
+  case 0xa29a:
+    return "VGT_GSVS_RING_OFFSET_3";
+  case 0xa29b:
+    return "VGT_GS_OUT_PRIM_TYPE";
+  case 0xa29d:
+    return "VGT_DMA_SIZE";
+  case 0xa29e:
+    return "VGT_DMA_MAX_SIZE";
+  case 0xa29f:
+    return "VGT_DMA_INDEX_TYPE";
+  case 0xa2a1:
+    return "VGT_PRIMITIVEID_EN";
+  case 0xa2a2:
+    return "VGT_DMA_NUM_INSTANCES";
+  case 0xa2a5:
+    return "VGT_MULTI_PRIM_IB_RESET_EN";
+  case 0xa2a8:
+    return "VGT_INSTANCE_STEP_RATE_0";
+  case 0xa2a9:
+    return "VGT_INSTANCE_STEP_RATE_1";
+  case 0xa2aa:
+    return "IA_MULTI_VGT_PARAM";
+  case 0xa2ab:
+    return "VGT_ESGS_RING_ITEMSIZE";
+  case 0xa2ac:
+    return "VGT_GSVS_RING_ITEMSIZE";
+  case 0xa2ad:
+    return "VGT_REUSE_OFF";
+  case 0xa2ae:
+    return "VGT_VTX_CNT_EN";
+  case 0xa2af:
+    return "DB_HTILE_SURFACE";
+  case 0xa2b0:
+    return "DB_SRESULTS_COMPARE_STATE0";
+  case 0xa2b1:
+    return "DB_SRESULTS_COMPARE_STATE1";
+  case 0xa2b4:
+    return "VGT_STRMOUT_BUFFER_SIZE_0";
+  case 0xa2b5:
+    return "VGT_STRMOUT_VTX_STRIDE_0";
+  case 0xa2b8:
+    return "VGT_STRMOUT_BUFFER_SIZE_1";
+  case 0xa2b9:
+    return "VGT_STRMOUT_VTX_STRIDE_1";
+  case 0xa2bc:
+    return "VGT_STRMOUT_BUFFER_SIZE_2";
+  case 0xa2bd:
+    return "VGT_STRMOUT_VTX_STRIDE_2";
+  case 0xa2c0:
+    return "VGT_STRMOUT_BUFFER_SIZE_3";
+  case 0xa2c1:
+    return "VGT_STRMOUT_VTX_STRIDE_3";
+  case 0xa2ca:
+    return "VGT_STRMOUT_DRAW_OPAQUE_OFFSET";
+  case 0xa2cb:
+    return "VGT_STRMOUT_DRAW_OPAQUE_BUFFER_FILLED_SIZE";
+  case 0xa2cc:
+    return "VGT_STRMOUT_DRAW_OPAQUE_VERTEX_STRIDE";
+  case 0xa2ce:
+    return "VGT_GS_MAX_VERT_OUT";
+  case 0xa2d5:
+    return "VGT_SHADER_STAGES_EN";
+  case 0xa2d6:
+    return "VGT_LS_HS_CONFIG";
+  case 0xa2d7:
+    return "VGT_GS_VERT_ITEMSIZE";
+  case 0xa2d8:
+    return "VGT_GS_VERT_ITEMSIZE_1";
+  case 0xa2d9:
+    return "VGT_GS_VERT_ITEMSIZE_2";
+  case 0xa2da:
+    return "VGT_GS_VERT_ITEMSIZE_3";
+  case 0xa2db:
+    return "VGT_TF_PARAM";
+  case 0xa2dc:
+    return "DB_ALPHA_TO_MASK";
+  case 0xa2dd:
+    return "VGT_DISPATCH_DRAW_INDEX";
+  case 0xa2de:
+    return "PA_SU_POLY_OFFSET_DB_FMT_CNTL";
+  case 0xa2df:
+    return "PA_SU_POLY_OFFSET_CLAMP";
+  case 0xa2e0:
+    return "PA_SU_POLY_OFFSET_FRONT_SCALE";
+  case 0xa2e1:
+    return "PA_SU_POLY_OFFSET_FRONT_OFFSET";
+  case 0xa2e2:
+    return "PA_SU_POLY_OFFSET_BACK_SCALE";
+  case 0xa2e3:
+    return "PA_SU_POLY_OFFSET_BACK_OFFSET";
+  case 0xa2e4:
+    return "VGT_GS_INSTANCE_CNT";
+  case 0xa2e5:
+    return "VGT_STRMOUT_CONFIG";
+  case 0xa2e6:
+    return "VGT_STRMOUT_BUFFER_CONFIG";
+  case 0xa2f5:
+    return "PA_SC_CENTROID_PRIORITY_0";
+  case 0xa2f6:
+    return "PA_SC_CENTROID_PRIORITY_1";
+  case 0xa2f8:
+    return "PA_SC_AA_CONFIG";
+  case 0xa2f9:
+    return "PA_SU_VTX_CNTL";
+  case 0xa2fa:
+    return "PA_CL_GB_VERT_CLIP_ADJ";
+  case 0xa2fb:
+    return "PA_CL_GB_VERT_DISC_ADJ";
+  case 0xa2fc:
+    return "PA_CL_GB_HORZ_CLIP_ADJ";
+  case 0xa2fd:
+    return "PA_CL_GB_HORZ_DISC_ADJ";
+  case 0xa2fe:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X0Y0_0";
+  case 0xa2ff:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X0Y0_1";
+  case 0xa300:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X0Y0_2";
+  case 0xa301:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X0Y0_3";
+  case 0xa302:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X1Y0_0";
+  case 0xa303:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X1Y0_1";
+  case 0xa304:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X1Y0_2";
+  case 0xa305:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X1Y0_3";
+  case 0xa306:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X0Y1_0";
+  case 0xa307:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X0Y1_1";
+  case 0xa308:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X0Y1_2";
+  case 0xa309:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X0Y1_3";
+  case 0xa30a:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X1Y1_0";
+  case 0xa30b:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X1Y1_1";
+  case 0xa30c:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X1Y1_2";
+  case 0xa30d:
+    return "PA_SC_AA_SAMPLE_LOCS_PIXEL_X1Y1_3";
+  case 0xa30e:
+    return "PA_SC_AA_MASK_X0Y0_X1Y0";
+  case 0xa30f:
+    return "PA_SC_AA_MASK_X0Y1_X1Y1";
+  case 0xa317:
+    return "VGT_OUT_DEALLOC_CNTL";
+  case 0xa318:
+    return "CB_COLOR0_BASE";
+  case 0xa319:
+    return "CB_COLOR0_PITCH";
+  case 0xa31a:
+    return "CB_COLOR0_SLICE";
+  case 0xa31b:
+    return "CB_COLOR0_VIEW";
+  case 0xa31c:
+    return "CB_COLOR0_INFO";
+  case 0xa31d:
+    return "CB_COLOR0_ATTRIB";
+  case 0xa31e:
+    return "CB_COLOR0_DCC_BASE";
+  case 0xa31f:
+    return "CB_COLOR0_CMASK";
+  case 0xa320:
+    return "CB_COLOR0_CMASK_SLICE";
+  case 0xa321:
+    return "CB_COLOR0_FMASK";
+  case 0xa322:
+    return "CB_COLOR0_FMASK_SLICE";
+  case 0xa323:
+    return "CB_COLOR0_CLEAR_WORD0";
+  case 0xa324:
+    return "CB_COLOR0_CLEAR_WORD1";
+  case 0xa327:
+    return "CB_COLOR1_BASE";
+  case 0xa328:
+    return "CB_COLOR1_PITCH";
+  case 0xa329:
+    return "CB_COLOR1_SLICE";
+  case 0xa32a:
+    return "CB_COLOR1_VIEW";
+  case 0xa32b:
+    return "CB_COLOR1_INFO";
+  case 0xa32c:
+    return "CB_COLOR1_ATTRIB";
+  case 0xa32d:
+    return "CB_COLOR1_DCC_BASE";
+  case 0xa32e:
+    return "CB_COLOR1_CMASK";
+  case 0xa32f:
+    return "CB_COLOR1_CMASK_SLICE";
+  case 0xa330:
+    return "CB_COLOR1_FMASK";
+  case 0xa331:
+    return "CB_COLOR1_FMASK_SLICE";
+  case 0xa332:
+    return "CB_COLOR1_CLEAR_WORD0";
+  case 0xa333:
+    return "CB_COLOR1_CLEAR_WORD1";
+  case 0xa336:
+    return "CB_COLOR2_BASE";
+  case 0xa337:
+    return "CB_COLOR2_PITCH";
+  case 0xa338:
+    return "CB_COLOR2_SLICE";
+  case 0xa339:
+    return "CB_COLOR2_VIEW";
+  case 0xa33a:
+    return "CB_COLOR2_INFO";
+  case 0xa33b:
+    return "CB_COLOR2_ATTRIB";
+  case 0xa33c:
+    return "CB_COLOR2_DCC_BASE";
+  case 0xa33d:
+    return "CB_COLOR2_CMASK";
+  case 0xa33e:
+    return "CB_COLOR2_CMASK_SLICE";
+  case 0xa33f:
+    return "CB_COLOR2_FMASK";
+  case 0xa340:
+    return "CB_COLOR2_FMASK_SLICE";
+  case 0xa341:
+    return "CB_COLOR2_CLEAR_WORD0";
+  case 0xa342:
+    return "CB_COLOR2_CLEAR_WORD1";
+  case 0xa345:
+    return "CB_COLOR3_BASE";
+  case 0xa346:
+    return "CB_COLOR3_PITCH";
+  case 0xa347:
+    return "CB_COLOR3_SLICE";
+  case 0xa348:
+    return "CB_COLOR3_VIEW";
+  case 0xa349:
+    return "CB_COLOR3_INFO";
+  case 0xa34a:
+    return "CB_COLOR3_ATTRIB";
+  case 0xa34b:
+    return "CB_COLOR3_DCC_BASE";
+  case 0xa34c:
+    return "CB_COLOR3_CMASK";
+  case 0xa34d:
+    return "CB_COLOR3_CMASK_SLICE";
+  case 0xa34e:
+    return "CB_COLOR3_FMASK";
+  case 0xa34f:
+    return "CB_COLOR3_FMASK_SLICE";
+  case 0xa350:
+    return "CB_COLOR3_CLEAR_WORD0";
+  case 0xa351:
+    return "CB_COLOR3_CLEAR_WORD1";
+  case 0xa354:
+    return "CB_COLOR4_BASE";
+  case 0xa355:
+    return "CB_COLOR4_PITCH";
+  case 0xa356:
+    return "CB_COLOR4_SLICE";
+  case 0xa357:
+    return "CB_COLOR4_VIEW";
+  case 0xa358:
+    return "CB_COLOR4_INFO";
+  case 0xa359:
+    return "CB_COLOR4_ATTRIB";
+  case 0xa35a:
+    return "CB_COLOR4_DCC_BASE";
+  case 0xa35b:
+    return "CB_COLOR4_CMASK";
+  case 0xa35c:
+    return "CB_COLOR4_CMASK_SLICE";
+  case 0xa35d:
+    return "CB_COLOR4_FMASK";
+  case 0xa35e:
+    return "CB_COLOR4_FMASK_SLICE";
+  case 0xa35f:
+    return "CB_COLOR4_CLEAR_WORD0";
+  case 0xa360:
+    return "CB_COLOR4_CLEAR_WORD1";
+  case 0xa363:
+    return "CB_COLOR5_BASE";
+  case 0xa364:
+    return "CB_COLOR5_PITCH";
+  case 0xa365:
+    return "CB_COLOR5_SLICE";
+  case 0xa366:
+    return "CB_COLOR5_VIEW";
+  case 0xa367:
+    return "CB_COLOR5_INFO";
+  case 0xa368:
+    return "CB_COLOR5_ATTRIB";
+  case 0xa369:
+    return "CB_COLOR5_DCC_BASE";
+  case 0xa36a:
+    return "CB_COLOR5_CMASK";
+  case 0xa36b:
+    return "CB_COLOR5_CMASK_SLICE";
+  case 0xa36c:
+    return "CB_COLOR5_FMASK";
+  case 0xa36d:
+    return "CB_COLOR5_FMASK_SLICE";
+  case 0xa36e:
+    return "CB_COLOR5_CLEAR_WORD0";
+  case 0xa36f:
+    return "CB_COLOR5_CLEAR_WORD1";
+  case 0xa372:
+    return "CB_COLOR6_BASE";
+  case 0xa373:
+    return "CB_COLOR6_PITCH";
+  case 0xa374:
+    return "CB_COLOR6_SLICE";
+  case 0xa375:
+    return "CB_COLOR6_VIEW";
+  case 0xa376:
+    return "CB_COLOR6_INFO";
+  case 0xa377:
+    return "CB_COLOR6_ATTRIB";
+  case 0xa378:
+    return "CB_COLOR6_DCC_BASE";
+  case 0xa379:
+    return "CB_COLOR6_CMASK";
+  case 0xa37a:
+    return "CB_COLOR6_CMASK_SLICE";
+  case 0xa37b:
+    return "CB_COLOR6_FMASK";
+  case 0xa37c:
+    return "CB_COLOR6_FMASK_SLICE";
+  case 0xa37d:
+    return "CB_COLOR6_CLEAR_WORD0";
+  case 0xa37e:
+    return "CB_COLOR6_CLEAR_WORD1";
+  case 0xa381:
+    return "CB_COLOR7_BASE";
+  case 0xa382:
+    return "CB_COLOR7_PITCH";
+  case 0xa383:
+    return "CB_COLOR7_SLICE";
+  case 0xa384:
+    return "CB_COLOR7_VIEW";
+  case 0xa385:
+    return "CB_COLOR7_INFO";
+  case 0xa386:
+    return "CB_COLOR7_ATTRIB";
+  case 0xa387:
+    return "CB_COLOR7_DCC_BASE";
+  case 0xa388:
+    return "CB_COLOR7_CMASK";
+  case 0xa389:
+    return "CB_COLOR7_CMASK_SLICE";
+  case 0xa38a:
+    return "CB_COLOR7_FMASK";
+  case 0xa38b:
+    return "CB_COLOR7_FMASK_SLICE";
+  case 0xa38c:
+    return "CB_COLOR7_CLEAR_WORD0";
+  case 0xa38d:
+    return "CB_COLOR7_CLEAR_WORD1";
+  case 0xc03f:
+    return "CP_STRMOUT_CNTL";
+  case 0xc079:
+    return "CP_COHER_BASE_HI";
+  case 0xc07d:
+    return "CP_COHER_SIZE";
+  case 0xc07e:
+    return "CP_COHER_BASE";
+  case 0xc08b:
+    return "CP_DMA_READ_TAGS";
+  case 0xc08c:
+    return "CP_COHER_SIZE_HI";
+  case 0xc200:
+    return "GRBM_GFX_INDEX";
+  case 0xc242:
+    return "VGT_PRIMITIVE_TYPE";
+  case 0xc243:
+    return "VGT_INDEX_TYPE";
+  case 0xc24c:
+    return "VGT_NUM_INDICES";
+  case 0xc24d:
+    return "VGT_NUM_INSTANCES";
+  case 0xc340:
+    return "SQ_THREAD_TRACE_USERDATA_0";
+  case 0xc341:
+    return "SQ_THREAD_TRACE_USERDATA_1";
+  case 0xc342:
+    return "SQ_THREAD_TRACE_USERDATA_2";
+  case 0xc343:
+    return "SQ_THREAD_TRACE_USERDATA_3";
+  case 0xc41d:
+    return "GDS_OA_CNTL";
+  case 0xc41e:
+    return "GDS_OA_COUNTER";
+  case 0xc41f:
+    return "GDS_OA_ADDRESS";
+  case 0xd000:
+    return "CPG_PERFCOUNTER1_LO";
+  case 0xd001:
+    return "CPG_PERFCOUNTER1_HI";
+  case 0xd002:
+    return "CPG_PERFCOUNTER0_LO";
+  case 0xd003:
+    return "CPG_PERFCOUNTER0_HI";
+  case 0xd004:
+    return "CPC_PERFCOUNTER1_LO";
+  case 0xd005:
+    return "CPC_PERFCOUNTER1_HI";
+  case 0xd006:
+    return "CPC_PERFCOUNTER0_LO";
+  case 0xd007:
+    return "CPC_PERFCOUNTER0_HI";
+  case 0xd008:
+    return "CPF_PERFCOUNTER1_LO";
+  case 0xd009:
+    return "CPF_PERFCOUNTER1_HI";
+  case 0xd00a:
+    return "CPF_PERFCOUNTER0_LO";
+  case 0xd00b:
+    return "CPF_PERFCOUNTER0_HI";
+  case 0xd080:
+    return "WD_PERFCOUNTER0_LO";
+  case 0xd081:
+    return "WD_PERFCOUNTER0_HI";
+  case 0xd082:
+    return "WD_PERFCOUNTER1_LO";
+  case 0xd083:
+    return "WD_PERFCOUNTER1_HI";
+  case 0xd084:
+    return "WD_PERFCOUNTER2_LO";
+  case 0xd085:
+    return "WD_PERFCOUNTER2_HI";
+  case 0xd086:
+    return "WD_PERFCOUNTER3_LO";
+  case 0xd087:
+    return "WD_PERFCOUNTER3_HI";
+  case 0xd088:
+    return "IA_PERFCOUNTER0_LO";
+  case 0xd089:
+    return "IA_PERFCOUNTER0_HI";
+  case 0xd08a:
+    return "IA_PERFCOUNTER1_LO";
+  case 0xd08b:
+    return "IA_PERFCOUNTER1_HI";
+  case 0xd08c:
+    return "IA_PERFCOUNTER2_LO";
+  case 0xd08d:
+    return "IA_PERFCOUNTER2_HI";
+  case 0xd08e:
+    return "IA_PERFCOUNTER3_LO";
+  case 0xd08f:
+    return "IA_PERFCOUNTER3_HI";
+  case 0xd090:
+    return "VGT_PERFCOUNTER0_LO";
+  case 0xd091:
+    return "VGT_PERFCOUNTER0_HI";
+  case 0xd092:
+    return "VGT_PERFCOUNTER1_LO";
+  case 0xd093:
+    return "VGT_PERFCOUNTER1_HI";
+  case 0xd094:
+    return "VGT_PERFCOUNTER2_LO";
+  case 0xd095:
+    return "VGT_PERFCOUNTER2_HI";
+  case 0xd096:
+    return "VGT_PERFCOUNTER3_LO";
+  case 0xd097:
+    return "VGT_PERFCOUNTER3_HI";
+  case 0xd100:
+    return "PA_SU_PERFCOUNTER0_LO";
+  case 0xd101:
+    return "PA_SU_PERFCOUNTER0_HI";
+  case 0xd102:
+    return "PA_SU_PERFCOUNTER1_LO";
+  case 0xd103:
+    return "PA_SU_PERFCOUNTER1_HI";
+  case 0xd104:
+    return "PA_SU_PERFCOUNTER2_LO";
+  case 0xd105:
+    return "PA_SU_PERFCOUNTER2_HI";
+  case 0xd106:
+    return "PA_SU_PERFCOUNTER3_LO";
+  case 0xd107:
+    return "PA_SU_PERFCOUNTER3_HI";
+  case 0xd140:
+    return "PA_SC_PERFCOUNTER0_LO";
+  case 0xd141:
+    return "PA_SC_PERFCOUNTER0_HI";
+  case 0xd142:
+    return "PA_SC_PERFCOUNTER1_LO";
+  case 0xd143:
+    return "PA_SC_PERFCOUNTER1_HI";
+  case 0xd144:
+    return "PA_SC_PERFCOUNTER2_LO";
+  case 0xd145:
+    return "PA_SC_PERFCOUNTER2_HI";
+  case 0xd146:
+    return "PA_SC_PERFCOUNTER3_LO";
+  case 0xd147:
+    return "PA_SC_PERFCOUNTER3_HI";
+  case 0xd148:
+    return "PA_SC_PERFCOUNTER4_LO";
+  case 0xd149:
+    return "PA_SC_PERFCOUNTER4_HI";
+  case 0xd14a:
+    return "PA_SC_PERFCOUNTER5_LO";
+  case 0xd14b:
+    return "PA_SC_PERFCOUNTER5_HI";
+  case 0xd14c:
+    return "PA_SC_PERFCOUNTER6_LO";
+  case 0xd14d:
+    return "PA_SC_PERFCOUNTER6_HI";
+  case 0xd14e:
+    return "PA_SC_PERFCOUNTER7_LO";
+  case 0xd14f:
+    return "PA_SC_PERFCOUNTER7_HI";
+  case 0xd180:
+    return "SPI_PERFCOUNTER0_HI";
+  case 0xd181:
+    return "SPI_PERFCOUNTER0_LO";
+  case 0xd182:
+    return "SPI_PERFCOUNTER1_HI";
+  case 0xd183:
+    return "SPI_PERFCOUNTER1_LO";
+  case 0xd184:
+    return "SPI_PERFCOUNTER2_HI";
+  case 0xd185:
+    return "SPI_PERFCOUNTER2_LO";
+  case 0xd186:
+    return "SPI_PERFCOUNTER3_HI";
+  case 0xd187:
+    return "SPI_PERFCOUNTER3_LO";
+  case 0xd188:
+    return "SPI_PERFCOUNTER4_HI";
+  case 0xd189:
+    return "SPI_PERFCOUNTER4_LO";
+  case 0xd18a:
+    return "SPI_PERFCOUNTER5_HI";
+  case 0xd18b:
+    return "SPI_PERFCOUNTER5_LO";
+  case 0xd1c0:
+    return "SQ_PERFCOUNTER0_LO";
+  case 0xd1c1:
+    return "SQ_PERFCOUNTER0_HI";
+  case 0xd1c2:
+    return "SQ_PERFCOUNTER1_LO";
+  case 0xd1c3:
+    return "SQ_PERFCOUNTER1_HI";
+  case 0xd1c4:
+    return "SQ_PERFCOUNTER2_LO";
+  case 0xd1c5:
+    return "SQ_PERFCOUNTER2_HI";
+  case 0xd1c6:
+    return "SQ_PERFCOUNTER3_LO";
+  case 0xd1c7:
+    return "SQ_PERFCOUNTER3_HI";
+  case 0xd1c8:
+    return "SQ_PERFCOUNTER4_LO";
+  case 0xd1c9:
+    return "SQ_PERFCOUNTER4_HI";
+  case 0xd1ca:
+    return "SQ_PERFCOUNTER5_LO";
+  case 0xd1cb:
+    return "SQ_PERFCOUNTER5_HI";
+  case 0xd1cc:
+    return "SQ_PERFCOUNTER6_LO";
+  case 0xd1cd:
+    return "SQ_PERFCOUNTER6_HI";
+  case 0xd1ce:
+    return "SQ_PERFCOUNTER7_LO";
+  case 0xd1cf:
+    return "SQ_PERFCOUNTER7_HI";
+  case 0xd1d0:
+    return "SQ_PERFCOUNTER8_LO";
+  case 0xd1d1:
+    return "SQ_PERFCOUNTER8_HI";
+  case 0xd1d2:
+    return "SQ_PERFCOUNTER9_LO";
+  case 0xd1d3:
+    return "SQ_PERFCOUNTER9_HI";
+  case 0xd1d4:
+    return "SQ_PERFCOUNTER10_LO";
+  case 0xd1d5:
+    return "SQ_PERFCOUNTER10_HI";
+  case 0xd1d6:
+    return "SQ_PERFCOUNTER11_LO";
+  case 0xd1d7:
+    return "SQ_PERFCOUNTER11_HI";
+  case 0xd1d8:
+    return "SQ_PERFCOUNTER12_LO";
+  case 0xd1d9:
+    return "SQ_PERFCOUNTER12_HI";
+  case 0xd1da:
+    return "SQ_PERFCOUNTER13_LO";
+  case 0xd1db:
+    return "SQ_PERFCOUNTER13_HI";
+  case 0xd1dc:
+    return "SQ_PERFCOUNTER14_LO";
+  case 0xd1dd:
+    return "SQ_PERFCOUNTER14_HI";
+  case 0xd1de:
+    return "SQ_PERFCOUNTER15_LO";
+  case 0xd1df:
+    return "SQ_PERFCOUNTER15_HI";
+  case 0xd240:
+    return "SX_PERFCOUNTER0_LO";
+  case 0xd241:
+    return "SX_PERFCOUNTER0_HI";
+  case 0xd242:
+    return "SX_PERFCOUNTER1_LO";
+  case 0xd243:
+    return "SX_PERFCOUNTER1_HI";
+  case 0xd244:
+    return "SX_PERFCOUNTER2_LO";
+  case 0xd245:
+    return "SX_PERFCOUNTER2_HI";
+  case 0xd246:
+    return "SX_PERFCOUNTER3_LO";
+  case 0xd247:
+    return "SX_PERFCOUNTER3_HI";
+  case 0xd280:
+    return "GDS_PERFCOUNTER0_LO";
+  case 0xd281:
+    return "GDS_PERFCOUNTER0_HI";
+  case 0xd282:
+    return "GDS_PERFCOUNTER1_LO";
+  case 0xd283:
+    return "GDS_PERFCOUNTER1_HI";
+  case 0xd284:
+    return "GDS_PERFCOUNTER2_LO";
+  case 0xd285:
+    return "GDS_PERFCOUNTER2_HI";
+  case 0xd286:
+    return "GDS_PERFCOUNTER3_LO";
+  case 0xd287:
+    return "GDS_PERFCOUNTER3_HI";
+  case 0xd2c0:
+    return "TA_PERFCOUNTER0_LO";
+  case 0xd2c1:
+    return "TA_PERFCOUNTER0_HI";
+  case 0xd2c2:
+    return "TA_PERFCOUNTER1_LO";
+  case 0xd2c3:
+    return "TA_PERFCOUNTER1_HI";
+  case 0xd300:
+    return "TD_PERFCOUNTER0_LO";
+  case 0xd301:
+    return "TD_PERFCOUNTER0_HI";
+  case 0xd302:
+    return "TD_PERFCOUNTER1_LO";
+  case 0xd303:
+    return "TD_PERFCOUNTER1_HI";
+  case 0xd340:
+    return "TCP_PERFCOUNTER0_LO";
+  case 0xd341:
+    return "TCP_PERFCOUNTER0_HI";
+  case 0xd342:
+    return "TCP_PERFCOUNTER1_LO";
+  case 0xd343:
+    return "TCP_PERFCOUNTER1_HI";
+  case 0xd344:
+    return "TCP_PERFCOUNTER2_LO";
+  case 0xd345:
+    return "TCP_PERFCOUNTER2_HI";
+  case 0xd346:
+    return "TCP_PERFCOUNTER3_LO";
+  case 0xd347:
+    return "TCP_PERFCOUNTER3_HI";
+  case 0xd380:
+    return "TCC_PERFCOUNTER0_LO";
+  case 0xd381:
+    return "TCC_PERFCOUNTER0_HI";
+  case 0xd382:
+    return "TCC_PERFCOUNTER1_LO";
+  case 0xd383:
+    return "TCC_PERFCOUNTER1_HI";
+  case 0xd384:
+    return "TCC_PERFCOUNTER2_LO";
+  case 0xd385:
+    return "TCC_PERFCOUNTER2_HI";
+  case 0xd386:
+    return "TCC_PERFCOUNTER3_LO";
+  case 0xd387:
+    return "TCC_PERFCOUNTER3_HI";
+  case 0xd390:
+    return "TCA_PERFCOUNTER0_LO";
+  case 0xd391:
+    return "TCA_PERFCOUNTER0_HI";
+  case 0xd392:
+    return "TCA_PERFCOUNTER1_LO";
+  case 0xd393:
+    return "TCA_PERFCOUNTER1_HI";
+  case 0xd394:
+    return "TCA_PERFCOUNTER2_LO";
+  case 0xd395:
+    return "TCA_PERFCOUNTER2_HI";
+  case 0xd396:
+    return "TCA_PERFCOUNTER3_LO";
+  case 0xd397:
+    return "TCA_PERFCOUNTER3_HI";
+  case 0xd3a0:
+    return "TCS_PERFCOUNTER0_LO";
+  case 0xd3a1:
+    return "TCS_PERFCOUNTER0_HI";
+  case 0xd3a2:
+    return "TCS_PERFCOUNTER1_LO";
+  case 0xd3a3:
+    return "TCS_PERFCOUNTER1_HI";
+  case 0xd3a4:
+    return "TCS_PERFCOUNTER2_LO";
+  case 0xd3a5:
+    return "TCS_PERFCOUNTER2_HI";
+  case 0xd3a6:
+    return "TCS_PERFCOUNTER3_LO";
+  case 0xd3a7:
+    return "TCS_PERFCOUNTER3_HI";
+  case 0xd406:
+    return "CB_PERFCOUNTER0_LO";
+  case 0xd407:
+    return "CB_PERFCOUNTER0_HI";
+  case 0xd408:
+    return "CB_PERFCOUNTER1_LO";
+  case 0xd409:
+    return "CB_PERFCOUNTER1_HI";
+  case 0xd40a:
+    return "CB_PERFCOUNTER2_LO";
+  case 0xd40b:
+    return "CB_PERFCOUNTER2_HI";
+  case 0xd40c:
+    return "CB_PERFCOUNTER3_LO";
+  case 0xd40d:
+    return "CB_PERFCOUNTER3_HI";
+  case 0xd440:
+    return "DB_PERFCOUNTER0_LO";
+  case 0xd441:
+    return "DB_PERFCOUNTER0_HI";
+  case 0xd442:
+    return "DB_PERFCOUNTER1_LO";
+  case 0xd443:
+    return "DB_PERFCOUNTER1_HI";
+  case 0xd444:
+    return "DB_PERFCOUNTER2_LO";
+  case 0xd445:
+    return "DB_PERFCOUNTER2_HI";
+  case 0xd446:
+    return "DB_PERFCOUNTER3_LO";
+  case 0xd447:
+    return "DB_PERFCOUNTER3_HI";
+  case 0xd800:
+    return "CPG_PERFCOUNTER1_SELECT";
+  case 0xd801:
+    return "CPG_PERFCOUNTER0_SELECT1";
+  case 0xd802:
+    return "CPG_PERFCOUNTER0_SELECT";
+  case 0xd803:
+    return "CPC_PERFCOUNTER1_SELECT";
+  case 0xd804:
+    return "CPC_PERFCOUNTER0_SELECT1";
+  case 0xd805:
+    return "CPF_PERFCOUNTER1_SELECT";
+  case 0xd806:
+    return "CPF_PERFCOUNTER0_SELECT1";
+  case 0xd807:
+    return "CPF_PERFCOUNTER0_SELECT";
+  case 0xd808:
+    return "CP_PERFMON_CNTL";
+  case 0xd809:
+    return "CPC_PERFCOUNTER0_SELECT";
+  case 0xd880:
+    return "WD_PERFCOUNTER0_SELECT";
+  case 0xd881:
+    return "WD_PERFCOUNTER1_SELECT";
+  case 0xd882:
+    return "WD_PERFCOUNTER2_SELECT";
+  case 0xd883:
+    return "WD_PERFCOUNTER3_SELECT";
+  case 0xd884:
+    return "IA_PERFCOUNTER0_SELECT";
+  case 0xd885:
+    return "IA_PERFCOUNTER1_SELECT";
+  case 0xd886:
+    return "IA_PERFCOUNTER2_SELECT";
+  case 0xd887:
+    return "IA_PERFCOUNTER3_SELECT";
+  case 0xd888:
+    return "IA_PERFCOUNTER0_SELECT1";
+  case 0xd88c:
+    return "VGT_PERFCOUNTER0_SELECT";
+  case 0xd88d:
+    return "VGT_PERFCOUNTER1_SELECT";
+  case 0xd88e:
+    return "VGT_PERFCOUNTER2_SELECT";
+  case 0xd88f:
+    return "VGT_PERFCOUNTER3_SELECT";
+  case 0xd890:
+    return "VGT_PERFCOUNTER0_SELECT1";
+  case 0xd891:
+    return "VGT_PERFCOUNTER1_SELECT1";
+  case 0xd900:
+    return "PA_SU_PERFCOUNTER0_SELECT";
+  case 0xd901:
+    return "PA_SU_PERFCOUNTER0_SELECT1";
+  case 0xd902:
+    return "PA_SU_PERFCOUNTER1_SELECT";
+  case 0xd903:
+    return "PA_SU_PERFCOUNTER1_SELECT1";
+  case 0xd904:
+    return "PA_SU_PERFCOUNTER2_SELECT";
+  case 0xd905:
+    return "PA_SU_PERFCOUNTER3_SELECT";
+  case 0xd940:
+    return "PA_SC_PERFCOUNTER0_SELECT";
+  case 0xd941:
+    return "PA_SC_PERFCOUNTER0_SELECT1";
+  case 0xd942:
+    return "PA_SC_PERFCOUNTER1_SELECT";
+  case 0xd943:
+    return "PA_SC_PERFCOUNTER2_SELECT";
+  case 0xd944:
+    return "PA_SC_PERFCOUNTER3_SELECT";
+  case 0xd945:
+    return "PA_SC_PERFCOUNTER4_SELECT";
+  case 0xd946:
+    return "PA_SC_PERFCOUNTER5_SELECT";
+  case 0xd947:
+    return "PA_SC_PERFCOUNTER6_SELECT";
+  case 0xd948:
+    return "PA_SC_PERFCOUNTER7_SELECT";
+  case 0xd980:
+    return "SPI_PERFCOUNTER0_SELECT";
+  case 0xd981:
+    return "SPI_PERFCOUNTER1_SELECT";
+  case 0xd982:
+    return "SPI_PERFCOUNTER2_SELECT";
+  case 0xd983:
+    return "SPI_PERFCOUNTER3_SELECT";
+  case 0xd984:
+    return "SPI_PERFCOUNTER0_SELECT1";
+  case 0xd985:
+    return "SPI_PERFCOUNTER1_SELECT1";
+  case 0xd986:
+    return "SPI_PERFCOUNTER2_SELECT1";
+  case 0xd987:
+    return "SPI_PERFCOUNTER3_SELECT1";
+  case 0xd988:
+    return "SPI_PERFCOUNTER4_SELECT";
+  case 0xd989:
+    return "SPI_PERFCOUNTER5_SELECT";
+  case 0xd98a:
+    return "SPI_PERFCOUNTER_BINS";
+  case 0xd9c0:
+    return "SQ_PERFCOUNTER0_SELECT";
+  case 0xd9c1:
+    return "SQ_PERFCOUNTER1_SELECT";
+  case 0xd9c2:
+    return "SQ_PERFCOUNTER2_SELECT";
+  case 0xd9c3:
+    return "SQ_PERFCOUNTER3_SELECT";
+  case 0xd9c4:
+    return "SQ_PERFCOUNTER4_SELECT";
+  case 0xd9c5:
+    return "SQ_PERFCOUNTER5_SELECT";
+  case 0xd9c6:
+    return "SQ_PERFCOUNTER6_SELECT";
+  case 0xd9c7:
+    return "SQ_PERFCOUNTER7_SELECT";
+  case 0xd9c8:
+    return "SQ_PERFCOUNTER8_SELECT";
+  case 0xd9c9:
+    return "SQ_PERFCOUNTER9_SELECT";
+  case 0xd9ca:
+    return "SQ_PERFCOUNTER10_SELECT";
+  case 0xd9cb:
+    return "SQ_PERFCOUNTER11_SELECT";
+  case 0xd9cc:
+    return "SQ_PERFCOUNTER12_SELECT";
+  case 0xd9cd:
+    return "SQ_PERFCOUNTER13_SELECT";
+  case 0xd9ce:
+    return "SQ_PERFCOUNTER14_SELECT";
+  case 0xd9cf:
+    return "SQ_PERFCOUNTER15_SELECT";
+  case 0xd9e0:
+    return "SQ_PERFCOUNTER_CTRL";
+  case 0xda40:
+    return "SX_PERFCOUNTER0_SELECT";
+  case 0xda41:
+    return "SX_PERFCOUNTER1_SELECT";
+  case 0xda42:
+    return "SX_PERFCOUNTER2_SELECT";
+  case 0xda43:
+    return "SX_PERFCOUNTER3_SELECT";
+  case 0xda44:
+    return "SX_PERFCOUNTER0_SELECT1";
+  case 0xda45:
+    return "SX_PERFCOUNTER1_SELECT1";
+  case 0xda80:
+    return "GDS_PERFCOUNTER0_SELECT";
+  case 0xda81:
+    return "GDS_PERFCOUNTER1_SELECT";
+  case 0xda82:
+    return "GDS_PERFCOUNTER2_SELECT";
+  case 0xda83:
+    return "GDS_PERFCOUNTER3_SELECT";
+  case 0xda84:
+    return "GDS_PERFCOUNTER0_SELECT1";
+  case 0xdac0:
+    return "TA_PERFCOUNTER0_SELECT";
+  case 0xdac1:
+    return "TA_PERFCOUNTER0_SELECT1";
+  case 0xdac2:
+    return "TA_PERFCOUNTER1_SELECT";
+  case 0xdb00:
+    return "TD_PERFCOUNTER0_SELECT";
+  case 0xdb01:
+    return "TD_PERFCOUNTER0_SELECT1";
+  case 0xdb02:
+    return "TD_PERFCOUNTER1_SELECT";
+  case 0xdb40:
+    return "TCP_PERFCOUNTER0_SELECT";
+  case 0xdb41:
+    return "TCP_PERFCOUNTER0_SELECT1";
+  case 0xdb42:
+    return "TCP_PERFCOUNTER1_SELECT";
+  case 0xdb43:
+    return "TCP_PERFCOUNTER1_SELECT1";
+  case 0xdb44:
+    return "TCP_PERFCOUNTER2_SELECT";
+  case 0xdb45:
+    return "TCP_PERFCOUNTER3_SELECT";
+  case 0xdb80:
+    return "TCC_PERFCOUNTER0_SELECT";
+  case 0xdb81:
+    return "TCC_PERFCOUNTER0_SELECT1";
+  case 0xdb82:
+    return "TCC_PERFCOUNTER1_SELECT";
+  case 0xdb83:
+    return "TCC_PERFCOUNTER1_SELECT1";
+  case 0xdb84:
+    return "TCC_PERFCOUNTER2_SELECT";
+  case 0xdb85:
+    return "TCC_PERFCOUNTER3_SELECT";
+  case 0xdb90:
+    return "TCA_PERFCOUNTER0_SELECT";
+  case 0xdb91:
+    return "TCA_PERFCOUNTER0_SELECT1";
+  case 0xdb92:
+    return "TCA_PERFCOUNTER1_SELECT";
+  case 0xdb93:
+    return "TCA_PERFCOUNTER1_SELECT1";
+  case 0xdb94:
+    return "TCA_PERFCOUNTER2_SELECT";
+  case 0xdb95:
+    return "TCA_PERFCOUNTER3_SELECT";
+  case 0xdba0:
+    return "TCS_PERFCOUNTER0_SELECT";
+  case 0xdba1:
+    return "TCS_PERFCOUNTER0_SELECT1";
+  case 0xdba2:
+    return "TCS_PERFCOUNTER1_SELECT";
+  case 0xdba3:
+    return "TCS_PERFCOUNTER2_SELECT";
+  case 0xdba4:
+    return "TCS_PERFCOUNTER3_SELECT";
+  case 0xdc00:
+    return "CB_PERFCOUNTER_FILTER";
+  case 0xdc01:
+    return "CB_PERFCOUNTER0_SELECT";
+  case 0xdc02:
+    return "CB_PERFCOUNTER0_SELECT1";
+  case 0xdc03:
+    return "CB_PERFCOUNTER1_SELECT";
+  case 0xdc04:
+    return "CB_PERFCOUNTER2_SELECT";
+  case 0xdc05:
+    return "CB_PERFCOUNTER3_SELECT";
+  case 0xdc40:
+    return "DB_PERFCOUNTER0_SELECT";
+  case 0xdc41:
+    return "DB_PERFCOUNTER0_SELECT1";
+  case 0xdc42:
+    return "DB_PERFCOUNTER1_SELECT";
+  case 0xdc43:
+    return "DB_PERFCOUNTER1_SELECT1";
+  case 0xdc44:
+    return "DB_PERFCOUNTER2_SELECT";
+  case 0xdc46:
+    return "DB_PERFCOUNTER3_SELECT";
+  }
+
+  return nullptr;
+}
diff --git a/rpcsx-gpu2/lib/gnm/src/pm4.cpp b/rpcsx-gpu2/lib/gnm/src/pm4.cpp
new file mode 100644
index 00000000..36715775
--- /dev/null
+++ b/rpcsx-gpu2/lib/gnm/src/pm4.cpp
@@ -0,0 +1,158 @@
+#include "pm4.hpp"
+
+const char *gnm::pm4OpcodeToString(int opcode) {
+  switch (opcode) {
+  case IT_NOP:
+    return "IT_NOP";
+  case IT_SET_BASE:
+    return "IT_SET_BASE";
+  case IT_CLEAR_STATE:
+    return "IT_CLEAR_STATE";
+  case IT_INDEX_BUFFER_SIZE:
+    return "IT_INDEX_BUFFER_SIZE";
+  case IT_DISPATCH_DIRECT:
+    return "IT_DISPATCH_DIRECT";
+  case IT_DISPATCH_INDIRECT:
+    return "IT_DISPATCH_INDIRECT";
+  case IT_ATOMIC_GDS:
+    return "IT_ATOMIC_GDS";
+  case IT_OCCLUSION_QUERY:
+    return "IT_OCCLUSION_QUERY";
+  case IT_SET_PREDICATION:
+    return "IT_SET_PREDICATION";
+  case IT_REG_RMW:
+    return "IT_REG_RMW";
+  case IT_COND_EXEC:
+    return "IT_COND_EXEC";
+  case IT_PRED_EXEC:
+    return "IT_PRED_EXEC";
+  case IT_DRAW_INDIRECT:
+    return "IT_DRAW_INDIRECT";
+  case IT_DRAW_INDEX_INDIRECT:
+    return "IT_DRAW_INDEX_INDIRECT";
+  case IT_INDEX_BASE:
+    return "IT_INDEX_BASE";
+  case IT_DRAW_INDEX_2:
+    return "IT_DRAW_INDEX_2";
+  case IT_CONTEXT_CONTROL:
+    return "IT_CONTEXT_CONTROL";
+  case IT_INDEX_TYPE:
+    return "IT_INDEX_TYPE";
+  case IT_DRAW_INDIRECT_MULTI:
+    return "IT_DRAW_INDIRECT_MULTI";
+  case IT_DRAW_INDEX_AUTO:
+    return "IT_DRAW_INDEX_AUTO";
+  case IT_NUM_INSTANCES:
+    return "IT_NUM_INSTANCES";
+  case IT_DRAW_INDEX_MULTI_AUTO:
+    return "IT_DRAW_INDEX_MULTI_AUTO";
+  case IT_INDIRECT_BUFFER_CNST:
+    return "IT_INDIRECT_BUFFER_CNST";
+  case IT_STRMOUT_BUFFER_UPDATE:
+    return "IT_STRMOUT_BUFFER_UPDATE";
+  case IT_DRAW_INDEX_OFFSET_2:
+    return "IT_DRAW_INDEX_OFFSET_2";
+  case IT_DRAW_PREAMBLE:
+    return "IT_DRAW_PREAMBLE";
+  case IT_WRITE_DATA:
+    return "IT_WRITE_DATA";
+  case IT_DRAW_INDEX_INDIRECT_MULTI:
+    return "IT_DRAW_INDEX_INDIRECT_MULTI";
+  case IT_MEM_SEMAPHORE:
+    return "IT_MEM_SEMAPHORE";
+  case IT_COPY_DW:
+    return "IT_COPY_DW";
+  case IT_WAIT_REG_MEM:
+    return "IT_WAIT_REG_MEM";
+  case IT_INDIRECT_BUFFER:
+    return "IT_INDIRECT_BUFFER";
+  case IT_COPY_DATA:
+    return "IT_COPY_DATA";
+  case IT_PFP_SYNC_ME:
+    return "IT_PFP_SYNC_ME";
+  case IT_SURFACE_SYNC:
+    return "IT_SURFACE_SYNC";
+  case IT_COND_WRITE:
+    return "IT_COND_WRITE";
+  case IT_EVENT_WRITE:
+    return "IT_EVENT_WRITE";
+  case IT_EVENT_WRITE_EOP:
+    return "IT_EVENT_WRITE_EOP";
+  case IT_EVENT_WRITE_EOS:
+    return "IT_EVENT_WRITE_EOS";
+  case IT_RELEASE_MEM:
+    return "IT_RELEASE_MEM";
+  case IT_PREAMBLE_CNTL:
+    return "IT_PREAMBLE_CNTL";
+  case IT_DMA_DATA:
+    return "IT_DMA_DATA";
+  case IT_ACQUIRE_MEM:
+    return "IT_ACQUIRE_MEM";
+  case IT_REWIND:
+    return "IT_REWIND";
+  case IT_LOAD_UCONFIG_REG:
+    return "IT_LOAD_UCONFIG_REG";
+  case IT_LOAD_SH_REG:
+    return "IT_LOAD_SH_REG";
+  case IT_LOAD_CONFIG_REG:
+    return "IT_LOAD_CONFIG_REG";
+  case IT_LOAD_CONTEXT_REG:
+    return "IT_LOAD_CONTEXT_REG";
+  case IT_SET_CONFIG_REG:
+    return "IT_SET_CONFIG_REG";
+  case IT_SET_CONTEXT_REG:
+    return "IT_SET_CONTEXT_REG";
+  case IT_SET_CONTEXT_REG_INDIRECT:
+    return "IT_SET_CONTEXT_REG_INDIRECT";
+  case IT_SET_SH_REG:
+    return "IT_SET_SH_REG";
+  case IT_SET_SH_REG_OFFSET:
+    return "IT_SET_SH_REG_OFFSET";
+  case IT_SET_QUEUE_REG:
+    return "IT_SET_QUEUE_REG";
+  case IT_SET_UCONFIG_REG:
+    return "IT_SET_UCONFIG_REG";
+  case IT_SCRATCH_RAM_WRITE:
+    return "IT_SCRATCH_RAM_WRITE";
+  case IT_SCRATCH_RAM_READ:
+    return "IT_SCRATCH_RAM_READ";
+  case IT_LOAD_CONST_RAM:
+    return "IT_LOAD_CONST_RAM";
+  case IT_WRITE_CONST_RAM:
+    return "IT_WRITE_CONST_RAM";
+  case IT_DUMP_CONST_RAM:
+    return "IT_DUMP_CONST_RAM";
+  case IT_INCREMENT_CE_COUNTER:
+    return "IT_INCREMENT_CE_COUNTER";
+  case IT_INCREMENT_DE_COUNTER:
+    return "IT_INCREMENT_DE_COUNTER";
+  case IT_WAIT_ON_CE_COUNTER:
+    return "IT_WAIT_ON_CE_COUNTER";
+  case IT_WAIT_ON_DE_COUNTER_DIFF:
+    return "IT_WAIT_ON_DE_COUNTER_DIFF";
+  case IT_SET_CE_DE_COUNTERS:
+    return "IT_SET_CE_DE_COUNTERS";
+  case IT_WAIT_ON_AVAIL_BUFFER:
+    return "IT_WAIT_ON_AVAIL_BUFFER";
+  case IT_SWITCH_BUFFER:
+    return "IT_SWITCH_BUFFER";
+  case IT_SET_RESOURCES:
+    return "IT_SET_RESOURCES";
+  case IT_MAP_PROCESS:
+    return "IT_MAP_PROCESS";
+  case IT_MAP_QUEUES:
+    return "IT_MAP_QUEUES";
+  case IT_UNMAP_QUEUES:
+    return "IT_UNMAP_QUEUES";
+  case IT_QUERY_STATUS:
+    return "IT_QUERY_STATUS";
+  case IT_RUN_LIST:
+    return "IT_RUN_LIST";
+  case IT_DISPATCH_DRAW_PREAMBLE:
+    return "IT_DISPATCH_DRAW_PREAMBLE";
+  case IT_DISPATCH_DRAW:
+    return "IT_DISPATCH_DRAW";
+  }
+
+  return nullptr;
+}
\ No newline at end of file
diff --git a/rpcsx-gpu2/lib/vk/CMakeLists.txt b/rpcsx-gpu2/lib/vk/CMakeLists.txt
new file mode 100644
index 00000000..fcea1a6b
--- /dev/null
+++ b/rpcsx-gpu2/lib/vk/CMakeLists.txt
@@ -0,0 +1,7 @@
+find_package(Vulkan 1.3 REQUIRED)
+
+add_library(vk STATIC src/vk.cpp)
+
+target_link_libraries(vk PUBLIC Vulkan::Vulkan rx)
+target_include_directories(vk PUBLIC include)
+
diff --git a/rpcsx-gpu2/lib/vk/include/Scheduler.hpp b/rpcsx-gpu2/lib/vk/include/Scheduler.hpp
new file mode 100644
index 00000000..391714ec
--- /dev/null
+++ b/rpcsx-gpu2/lib/vk/include/Scheduler.hpp
@@ -0,0 +1,187 @@
+#pragma once
+
+#include "vk.hpp"
+#include <chrono>
+#include <condition_variable>
+#include <functional>
+#include <mutex>
+#include <stop_token>
+#include <thread>
+#include <vector>
+#include <vulkan/vulkan_core.h>
+
+class Scheduler {
+  vk::Semaphore mSemaphore = vk::Semaphore::Create();
+  VkQueue mQueue;
+  unsigned mQueueFamily;
+  vk::CommandPool mCommandPool;
+  vk::CommandBuffer mCommandBuffer;
+
+  std::uint64_t mNextSignal = 1;
+  std::mutex mTaskMutex;
+  std::condition_variable mTaskCv;
+  std::map<std::uint64_t, std::vector<std::move_only_function<void()>>> mTasks;
+  std::vector<std::move_only_function<void()>> mAfterSubmitTasks;
+
+  // std::jthread mThread = std::jthread{
+  //     [this](std::stop_token stopToken) { schedulerEntry(stopToken); }};
+
+public:
+  Scheduler(VkQueue queue, unsigned queueFamilyIndex)
+      : mQueue(queue), mQueueFamily(queueFamilyIndex) {
+    mCommandPool = vk::CommandPool::Create(queueFamilyIndex);
+    mCommandBuffer = mCommandPool.createOneTimeSubmitBuffer();
+  }
+
+  ~Scheduler() {
+    // mThread.request_stop();
+    // mTaskCv.notify_one();
+  }
+
+  unsigned getQueueFamily() const { return mQueueFamily; }
+  VkQueue getQueue() const { return mQueue; }
+  VkCommandBuffer getCommandBuffer() const { return mCommandBuffer; }
+
+  Scheduler &submit() {
+    mCommandBuffer.end();
+
+    VkSemaphoreSubmitInfo waitSemSubmitInfo = {
+        .sType = VK_STRUCTURE_TYPE_SEMAPHORE_SUBMIT_INFO,
+        .semaphore = mSemaphore.getHandle(),
+        .value = mNextSignal - 1,
+        .stageMask = VK_PIPELINE_STAGE_2_TOP_OF_PIPE_BIT,
+    };
+
+    VkSemaphoreSubmitInfo signalSemSubmitInfo = {
+        .sType = VK_STRUCTURE_TYPE_SEMAPHORE_SUBMIT_INFO,
+        .semaphore = mSemaphore.getHandle(),
+        .value = mNextSignal,
+        .stageMask = VK_PIPELINE_STAGE_2_ALL_COMMANDS_BIT,
+    };
+
+    VkCommandBufferSubmitInfo cmdBufferSubmitInfo{
+        .sType = VK_STRUCTURE_TYPE_COMMAND_BUFFER_SUBMIT_INFO,
+        .commandBuffer = mCommandBuffer,
+    };
+
+    VkSubmitInfo2 submitInfo{
+        .sType = VK_STRUCTURE_TYPE_SUBMIT_INFO_2,
+        .waitSemaphoreInfoCount = mNextSignal != 1 ? 1u : 0u,
+        .pWaitSemaphoreInfos = &waitSemSubmitInfo,
+        .commandBufferInfoCount = 1,
+        .pCommandBufferInfos = &cmdBufferSubmitInfo,
+        .signalSemaphoreInfoCount = 1,
+        .pSignalSemaphoreInfos = &signalSemSubmitInfo,
+    };
+
+    mCommandBuffer = mCommandPool.createOneTimeSubmitBuffer();
+
+    wait();
+
+    VK_VERIFY(vkQueueSubmit2(mQueue, 1, &submitInfo, VK_NULL_HANDLE));
+
+    ++mNextSignal;
+
+    // then([afterSubmit = std::move(mAfterSubmitTasks)] mutable {
+    //   for (auto &&fn : afterSubmit) {
+    //     std::move(fn)();
+    //   }
+    // });
+
+    // mAfterSubmitTasks.clear();
+
+    auto endIt = mTasks.upper_bound(mNextSignal - 1);
+
+    if (mAfterSubmitTasks.empty() && endIt == mTasks.end()) {
+      return *this;
+    }
+
+    wait();
+
+    for (auto &&fn : mAfterSubmitTasks) {
+      fn();
+    }
+
+    mAfterSubmitTasks.clear();
+
+    std::vector<std::move_only_function<void()>> taskList;
+
+    for (auto it = mTasks.begin(); it != mTasks.end(); it = mTasks.erase(it)) {
+      taskList.reserve(taskList.size() + it->second.size());
+      for (auto &&fn : it->second) {
+        taskList.push_back(std::move(fn));
+      }
+    }
+
+    for (auto &&task : taskList) {
+      std::move(task)();
+    }
+
+    return *this;
+  }
+
+  Scheduler &afterSubmit(std::move_only_function<void()> fn) {
+    mAfterSubmitTasks.push_back(std::move(fn));
+    return *this;
+  }
+
+  Scheduler &then(std::move_only_function<void()> fn) {
+    // auto signalValue = mNextSignal++;
+    // onComplete([this, signalValue, fn = std::move(fn)] mutable {
+    //   mSemaphore.wait(signalValue - 1, UINT64_MAX);
+    //   std::move(fn)();
+    //   mSemaphore.signal(signalValue);
+    // });
+    wait();
+    fn();
+    return *this;
+  }
+
+  // Scheduler &onComplete(std::move_only_function<void()> fn) {
+  //   std::unique_lock lock(mTaskMutex);
+  //   mTasks[mNextSignal - 1].push_back(std::move(fn));
+  //   mTaskCv.notify_one();
+  //   return *this;
+  // }
+
+  std::uint64_t createExternalSubmit() { return mNextSignal++; }
+  void wait() const { mSemaphore.wait(mNextSignal - 1, UINT64_MAX); }
+
+  VkSemaphore getSemaphoreHandle() const { return mSemaphore.getHandle(); }
+
+private:
+  void schedulerEntry(std::stop_token stopToken) {
+    std::vector<std::move_only_function<void()>> taskList;
+    while (!stopToken.stop_requested()) {
+      std::this_thread::sleep_for(std::chrono::microseconds(10));
+
+      {
+        std::unique_lock lock(mTaskMutex);
+        while (mTasks.empty()) {
+          mTaskCv.wait(lock);
+
+          if (stopToken.stop_requested()) {
+            return;
+          }
+        }
+
+        auto value = mSemaphore.getCounterValue();
+        auto endIt = mTasks.upper_bound(value);
+
+        for (auto it = mTasks.begin(); it != mTasks.end();
+             it = mTasks.erase(it)) {
+          taskList.reserve(taskList.size() + it->second.size());
+          for (auto &&fn : it->second) {
+            taskList.push_back(std::move(fn));
+          }
+        }
+      }
+
+      for (auto &&task : taskList) {
+        std::move(task)();
+      }
+
+      taskList.clear();
+    }
+  }
+};
diff --git a/rpcsx-gpu2/lib/vk/include/vk.hpp b/rpcsx-gpu2/lib/vk/include/vk.hpp
new file mode 100644
index 00000000..e5e331e8
--- /dev/null
+++ b/rpcsx-gpu2/lib/vk/include/vk.hpp
@@ -0,0 +1,1043 @@
+#pragma once
+
+#include "rx/MemoryTable.hpp"
+#include "rx/die.hpp"
+
+#include <cstddef>
+#include <cstdint>
+#include <cstdlib>
+#include <mutex>
+#include <span>
+#include <string>
+#include <string_view>
+#include <utility>
+#include <vector>
+#include <vulkan/vulkan.h>
+#include <vulkan/vulkan_core.h>
+
+#define VK_VERIFY(...)                                                         \
+  if (VkResult _ = (__VA_ARGS__); _ != VK_SUCCESS) {                           \
+    ::vk::verifyFailed(_, #__VA_ARGS__);                                       \
+  }
+
+namespace vk {
+void verifyFailed(VkResult result, const char *message);
+
+struct Context {
+  VkInstance instance = VK_NULL_HANDLE;
+  VkPhysicalDeviceMemoryProperties physicalMemoryProperties;
+  VkAllocationCallbacks *allocator = nullptr;
+  VkPhysicalDevice physicalDevice = VK_NULL_HANDLE;
+  VkDevice device = VK_NULL_HANDLE;
+  std::vector<std::string> deviceExtensions;
+  std::vector<std::pair<VkQueue, unsigned>> computeQueues;
+  std::vector<std::pair<VkQueue, unsigned>> graphicsQueues;
+  VkQueue presentQueue = VK_NULL_HANDLE;
+  unsigned presentQueueFamily{};
+
+  VkSwapchainKHR swapchain = VK_NULL_HANDLE;
+  VkSurfaceKHR surface = VK_NULL_HANDLE;
+  VkExtent2D swapchainExtent{};
+  std::vector<VkImage> swapchainImages;
+  VkFormat swapchainColorFormat = VK_FORMAT_B8G8R8A8_UNORM;
+  VkColorSpaceKHR swapchainColorSpace = VK_COLOR_SPACE_SRGB_NONLINEAR_KHR;
+  std::vector<VkImageView> swapchainImageViews;
+  std::vector<VkFence> inFlightFences;
+  VkSemaphore presentCompleteSemaphore = VK_NULL_HANDLE;
+  VkSemaphore renderCompleteSemaphore = VK_NULL_HANDLE;
+  VkPhysicalDeviceDescriptorBufferPropertiesEXT descriptorBufferProps;
+
+  bool supportsBarycentric = false;
+  bool supportsInt8 = false;
+  bool supportsInt64Atomics = false;
+
+  Context() = default;
+  Context(const Context &) = delete;
+  Context(Context &&other) { other.swap(*this); }
+  Context &operator=(Context &&other) {
+    other.swap(*this);
+    return *this;
+  }
+
+  ~Context() {
+    for (auto imageView : swapchainImageViews) {
+      vkDestroyImageView(device, imageView, allocator);
+    }
+
+    if (swapchain != VK_NULL_HANDLE) {
+      vkDestroySwapchainKHR(device, swapchain, allocator);
+    }
+
+    for (auto fence : inFlightFences) {
+      vkDestroyFence(device, fence, allocator);
+    }
+
+    if (presentCompleteSemaphore != VK_NULL_HANDLE) {
+      vkDestroySemaphore(device, presentCompleteSemaphore, allocator);
+    }
+
+    if (renderCompleteSemaphore != VK_NULL_HANDLE) {
+      vkDestroySemaphore(device, renderCompleteSemaphore, allocator);
+    }
+
+    if (device != VK_NULL_HANDLE) {
+      vkDestroyDevice(device, allocator);
+    }
+
+    if (surface != VK_NULL_HANDLE) {
+      vkDestroySurfaceKHR(instance, surface, allocator);
+    }
+
+    if (instance != VK_NULL_HANDLE) {
+      vkDestroyInstance(instance, allocator);
+    }
+  }
+
+  void swap(Context &other) {
+    std::swap(instance, other.instance);
+    std::swap(physicalMemoryProperties, other.physicalMemoryProperties);
+    std::swap(allocator, other.allocator);
+    std::swap(device, other.device);
+    std::swap(physicalDevice, other.physicalDevice);
+    std::swap(deviceExtensions, other.deviceExtensions);
+    std::swap(computeQueues, other.computeQueues);
+    std::swap(graphicsQueues, other.graphicsQueues);
+    std::swap(presentQueue, other.presentQueue);
+    std::swap(presentQueueFamily, other.presentQueueFamily);
+
+    std::swap(swapchain, other.swapchain);
+    std::swap(swapchainExtent, other.swapchainExtent);
+    std::swap(swapchainImages, other.swapchainImages);
+    std::swap(swapchainColorFormat, other.swapchainColorFormat);
+    std::swap(swapchainColorSpace, other.swapchainColorSpace);
+    std::swap(swapchainImageViews, other.swapchainImageViews);
+  }
+
+  bool hasDeviceExtension(std::string_view ext);
+  void createSwapchain();
+  void recreateSwapchain();
+  void createDevice(VkSurfaceKHR surface, int gpuIndex,
+                    std::vector<const char *> requiredExtensions,
+                    std::vector<const char *> optionalExtensions);
+
+  static Context create(std::vector<const char *> requiredLayers,
+                        std::vector<const char *> optionalLayers,
+                        std::vector<const char *> requiredExtensions,
+                        std::vector<const char *> optionalExtensions);
+
+  std::uint32_t findPhysicalMemoryTypeIndex(std::uint32_t typeBits,
+                                            VkMemoryPropertyFlags properties);
+};
+
+extern Context *context;
+
+class DeviceMemory {
+  VkDeviceMemory mDeviceMemory = VK_NULL_HANDLE;
+  VkDeviceSize mSize = 0;
+  unsigned mMemoryTypeIndex = 0;
+
+public:
+  DeviceMemory(DeviceMemory &) = delete;
+  DeviceMemory(DeviceMemory &&other) { *this = std::move(other); }
+  DeviceMemory() = default;
+
+  ~DeviceMemory() {
+    if (mDeviceMemory != nullptr) {
+      vkFreeMemory(context->device, mDeviceMemory, context->allocator);
+    }
+    mDeviceMemory = nullptr;
+  }
+
+  DeviceMemory &operator=(DeviceMemory &&other) {
+    std::swap(mDeviceMemory, other.mDeviceMemory);
+    std::swap(mSize, other.mSize);
+    std::swap(mMemoryTypeIndex, other.mMemoryTypeIndex);
+    return *this;
+  }
+
+  VkDeviceMemory getHandle() const { return mDeviceMemory; }
+  VkDeviceSize getSize() const { return mSize; }
+  unsigned getMemoryTypeIndex() const { return mMemoryTypeIndex; }
+
+  static DeviceMemory AllocateFromType(std::size_t size,
+                                       unsigned memoryTypeIndex) {
+    VkMemoryAllocateFlagsInfo flags{
+        .sType = VK_STRUCTURE_TYPE_MEMORY_ALLOCATE_FLAGS_INFO,
+        .flags = VK_MEMORY_ALLOCATE_DEVICE_ADDRESS_BIT,
+    };
+
+    VkMemoryAllocateInfo allocInfo{
+        .sType = VK_STRUCTURE_TYPE_MEMORY_ALLOCATE_INFO,
+        .pNext = &flags,
+        .allocationSize = size,
+        .memoryTypeIndex = memoryTypeIndex,
+    };
+
+    DeviceMemory result;
+    VK_VERIFY(vkAllocateMemory(context->device, &allocInfo, context->allocator,
+                               &result.mDeviceMemory));
+    result.mSize = size;
+    result.mMemoryTypeIndex = memoryTypeIndex;
+    return result;
+  }
+
+  static DeviceMemory Allocate(std::size_t size, unsigned memoryTypeBits,
+                               VkMemoryPropertyFlags properties) {
+    return AllocateFromType(
+        size, context->findPhysicalMemoryTypeIndex(memoryTypeBits, properties));
+  }
+
+  static DeviceMemory Allocate(VkMemoryRequirements requirements,
+                               VkMemoryPropertyFlags properties) {
+    return AllocateFromType(requirements.size,
+                            context->findPhysicalMemoryTypeIndex(
+                                requirements.memoryTypeBits, properties));
+  }
+
+  static DeviceMemory CreateExternalFd(int fd, std::size_t size,
+                                       unsigned memoryTypeIndex) {
+    VkImportMemoryFdInfoKHR importMemoryInfo{
+        VK_STRUCTURE_TYPE_IMPORT_MEMORY_FD_INFO_KHR,
+        nullptr,
+        VK_EXTERNAL_MEMORY_HANDLE_TYPE_OPAQUE_FD_BIT,
+        fd,
+    };
+
+    VkMemoryAllocateInfo allocInfo{
+        .sType = VK_STRUCTURE_TYPE_MEMORY_ALLOCATE_INFO,
+        .pNext = &importMemoryInfo,
+        .allocationSize = size,
+        .memoryTypeIndex = memoryTypeIndex,
+    };
+
+    DeviceMemory result;
+    VK_VERIFY(vkAllocateMemory(context->device, &allocInfo, context->allocator,
+                               &result.mDeviceMemory));
+    result.mSize = size;
+    result.mMemoryTypeIndex = memoryTypeIndex;
+    return result;
+  }
+  static DeviceMemory
+  CreateExternalHostMemory(void *hostPointer, std::size_t size,
+                           VkMemoryPropertyFlags properties) {
+    VkMemoryHostPointerPropertiesEXT hostPointerProperties = {
+        .sType = VK_STRUCTURE_TYPE_MEMORY_HOST_POINTER_PROPERTIES_EXT};
+
+    auto vkGetMemoryHostPointerPropertiesEXT =
+        (PFN_vkGetMemoryHostPointerPropertiesEXT)vkGetDeviceProcAddr(
+            context->device, "vkGetMemoryHostPointerPropertiesEXT");
+
+    VK_VERIFY(vkGetMemoryHostPointerPropertiesEXT(
+        context->device, VK_EXTERNAL_MEMORY_HANDLE_TYPE_HOST_ALLOCATION_BIT_EXT,
+        hostPointer, &hostPointerProperties));
+
+    auto memoryTypeBits = hostPointerProperties.memoryTypeBits;
+
+    VkImportMemoryHostPointerInfoEXT importMemoryInfo = {
+        VK_STRUCTURE_TYPE_IMPORT_MEMORY_HOST_POINTER_INFO_EXT,
+        nullptr,
+        VK_EXTERNAL_MEMORY_HANDLE_TYPE_HOST_ALLOCATION_BIT_EXT,
+        hostPointer,
+    };
+
+    auto memoryTypeIndex =
+        context->findPhysicalMemoryTypeIndex(memoryTypeBits, properties);
+
+    VkMemoryAllocateInfo allocInfo{
+        .sType = VK_STRUCTURE_TYPE_MEMORY_ALLOCATE_INFO,
+        .pNext = &importMemoryInfo,
+        .allocationSize = size,
+        .memoryTypeIndex = memoryTypeIndex,
+    };
+
+    DeviceMemory result;
+    VK_VERIFY(vkAllocateMemory(context->device, &allocInfo, context->allocator,
+                               &result.mDeviceMemory));
+    result.mSize = size;
+    result.mMemoryTypeIndex = memoryTypeIndex;
+    return result;
+  }
+
+  void *map(VkDeviceSize offset, VkDeviceSize size) {
+    void *result = 0;
+    VK_VERIFY(
+        vkMapMemory(context->device, mDeviceMemory, offset, size, 0, &result));
+    return result;
+  }
+
+  void unmap() { vkUnmapMemory(context->device, mDeviceMemory); }
+};
+
+struct DeviceMemoryRef {
+  VkDeviceMemory deviceMemory = VK_NULL_HANDLE;
+  VkDeviceSize offset = 0;
+  VkDeviceSize size = 0;
+  void *data = nullptr;
+  void *allocator = nullptr;
+
+  void (*release)(DeviceMemoryRef &memoryRef) = nullptr;
+};
+
+class MemoryResource {
+  DeviceMemory mMemory;
+  char *mData = nullptr;
+  rx::MemoryAreaTable<> table;
+  // const char *debugName = "<unknown>";
+
+  std::mutex mMtx;
+
+public:
+  MemoryResource() = default;
+  ~MemoryResource() { clear(); }
+
+  void clear() {
+    if (mMemory.getHandle() != nullptr && mData != nullptr) {
+      vkUnmapMemory(context->device, mMemory.getHandle());
+    }
+  }
+
+  void free() {
+    clear();
+    mMemory = {};
+  }
+
+  void initFromHost(void *data, std::size_t size) {
+    assert(mMemory.getHandle() == nullptr);
+    auto properties = VK_MEMORY_PROPERTY_HOST_VISIBLE_BIT |
+                      VK_MEMORY_PROPERTY_HOST_COHERENT_BIT;
+    mMemory = DeviceMemory::CreateExternalHostMemory(data, size, properties);
+    table.map(0, size);
+    // debugName = "direct";
+  }
+
+  void initHostVisible(std::size_t size) {
+    assert(mMemory.getHandle() == nullptr);
+    auto properties = VK_MEMORY_PROPERTY_HOST_VISIBLE_BIT |
+                      VK_MEMORY_PROPERTY_HOST_COHERENT_BIT;
+    auto memory = DeviceMemory::Allocate(size, ~0, properties);
+
+    void *data = nullptr;
+    VK_VERIFY(
+        vkMapMemory(context->device, memory.getHandle(), 0, size, 0, &data));
+
+    mMemory = std::move(memory);
+    table.map(0, size);
+    mData = reinterpret_cast<char *>(data);
+    // debugName = "host";
+  }
+
+  void initDeviceLocal(std::size_t size) {
+    assert(mMemory.getHandle() == nullptr);
+    auto properties = VK_MEMORY_PROPERTY_DEVICE_LOCAL_BIT;
+
+    mMemory = DeviceMemory::Allocate(size, ~0, properties);
+    table.map(0, size);
+    // debugName = "local";
+  }
+
+  DeviceMemoryRef allocate(VkMemoryRequirements requirements) {
+    if ((requirements.memoryTypeBits & (1 << mMemory.getMemoryTypeIndex())) ==
+        0) {
+      std::abort();
+    }
+
+    std::lock_guard lock(mMtx);
+
+    for (auto elem : table) {
+      auto offset = (elem.beginAddress + requirements.alignment - 1) &
+                    ~(requirements.alignment - 1);
+
+      if (offset >= elem.endAddress) {
+        continue;
+      }
+
+      auto blockSize = elem.endAddress - offset;
+
+      if (blockSize < requirements.size) {
+        continue;
+      }
+
+      // if (debugName == std::string_view{"local"}) {
+      // std::printf("memory: allocation %s memory %lx-%lx\n", debugName,
+      // offset,
+      //             offset + requirements.size);
+      // }
+
+      table.unmap(offset, offset + requirements.size);
+      return {mMemory.getHandle(),
+              offset,
+              requirements.size,
+              mData,
+              this,
+              [](DeviceMemoryRef &memoryRef) {
+                auto self =
+                    reinterpret_cast<MemoryResource *>(memoryRef.allocator);
+                self->deallocate(memoryRef);
+              }};
+    }
+
+    std::abort();
+  }
+
+  void deallocate(DeviceMemoryRef memory) {
+    std::lock_guard lock(mMtx);
+    table.map(memory.offset, memory.offset + memory.size);
+  }
+
+  void dump() {
+    std::lock_guard lock(mMtx);
+
+    for (auto elem : table) {
+      std::fprintf(stderr, "%zu - %zu\n", elem.beginAddress, elem.endAddress);
+    }
+  }
+
+  DeviceMemoryRef getFromOffset(std::uint64_t offset, std::size_t size) {
+    return {mMemory.getHandle(), offset, size, nullptr, nullptr, nullptr};
+  }
+
+  explicit operator bool() const { return mMemory.getHandle() != nullptr; }
+};
+
+struct Semaphore {
+  VkSemaphore mSemaphore = VK_NULL_HANDLE;
+
+public:
+  Semaphore(const Semaphore &) = delete;
+
+  Semaphore() = default;
+  Semaphore(Semaphore &&other) { *this = std::move(other); }
+
+  Semaphore &operator=(Semaphore &&other) {
+    std::swap(mSemaphore, other.mSemaphore);
+    return *this;
+  }
+
+  ~Semaphore() {
+    if (mSemaphore != VK_NULL_HANDLE) {
+      vkDestroySemaphore(context->device, mSemaphore, nullptr);
+    }
+  }
+
+  static Semaphore Create(std::uint64_t initialValue = 0) {
+    VkSemaphoreTypeCreateInfo typeCreateInfo = {
+        VK_STRUCTURE_TYPE_SEMAPHORE_TYPE_CREATE_INFO, nullptr,
+        VK_SEMAPHORE_TYPE_TIMELINE, initialValue};
+
+    VkSemaphoreCreateInfo createInfo = {VK_STRUCTURE_TYPE_SEMAPHORE_CREATE_INFO,
+                                        &typeCreateInfo, 0};
+
+    Semaphore result;
+    VK_VERIFY(vkCreateSemaphore(context->device, &createInfo, nullptr,
+                                &result.mSemaphore));
+    return result;
+  }
+
+  VkResult wait(std::uint64_t value, uint64_t timeout) const {
+    VkSemaphoreWaitInfo waitInfo = {VK_STRUCTURE_TYPE_SEMAPHORE_WAIT_INFO,
+                                    nullptr,
+                                    VK_SEMAPHORE_WAIT_ANY_BIT,
+                                    1,
+                                    &mSemaphore,
+                                    &value};
+
+    return vkWaitSemaphores(context->device, &waitInfo, timeout);
+  }
+
+  void signal(std::uint64_t value) {
+    VkSemaphoreSignalInfo signalInfo = {VK_STRUCTURE_TYPE_SEMAPHORE_SIGNAL_INFO,
+                                        nullptr, mSemaphore, value};
+
+    VK_VERIFY(vkSignalSemaphore(context->device, &signalInfo));
+  }
+
+  [[gnu::used]] std::uint64_t getCounterValue() const {
+    std::uint64_t result = 0;
+    VK_VERIFY(vkGetSemaphoreCounterValue(context->device, mSemaphore, &result));
+    return result;
+  }
+
+  VkSemaphore getHandle() const { return mSemaphore; }
+
+  bool operator==(std::nullptr_t) const { return mSemaphore == nullptr; }
+  bool operator!=(std::nullptr_t) const { return mSemaphore != nullptr; }
+};
+
+struct BinSemaphore {
+  VkSemaphore mSemaphore = VK_NULL_HANDLE;
+
+public:
+  BinSemaphore(const BinSemaphore &) = delete;
+
+  BinSemaphore() = default;
+  BinSemaphore(BinSemaphore &&other) { *this = std::move(other); }
+
+  BinSemaphore &operator=(BinSemaphore &&other) {
+    std::swap(mSemaphore, other.mSemaphore);
+    return *this;
+  }
+
+  ~BinSemaphore() {
+    if (mSemaphore != VK_NULL_HANDLE) {
+      vkDestroySemaphore(context->device, mSemaphore, nullptr);
+    }
+  }
+
+  static BinSemaphore Create() {
+    VkSemaphoreTypeCreateInfo typeCreateInfo = {
+        VK_STRUCTURE_TYPE_SEMAPHORE_TYPE_CREATE_INFO, nullptr,
+        VK_SEMAPHORE_TYPE_BINARY, 0};
+
+    VkSemaphoreCreateInfo createInfo = {VK_STRUCTURE_TYPE_SEMAPHORE_CREATE_INFO,
+                                        &typeCreateInfo, 0};
+
+    BinSemaphore result;
+    VK_VERIFY(vkCreateSemaphore(context->device, &createInfo, nullptr,
+                                &result.mSemaphore));
+    return result;
+  }
+
+  VkSemaphore getHandle() const { return mSemaphore; }
+
+  bool operator==(std::nullptr_t) const { return mSemaphore == nullptr; }
+};
+
+struct Fence {
+  VkFence mFence = VK_NULL_HANDLE;
+
+public:
+  Fence(const Fence &) = delete;
+
+  Fence() = default;
+  Fence(Fence &&other) { *this = std::move(other); }
+
+  Fence &operator=(Fence &&other) {
+    std::swap(mFence, other.mFence);
+    return *this;
+  }
+
+  ~Fence() {
+    if (mFence != VK_NULL_HANDLE) {
+      vkDestroyFence(context->device, mFence, nullptr);
+    }
+  }
+
+  static Fence Create() {
+    VkFenceCreateInfo fenceCreateInfo = {VK_STRUCTURE_TYPE_FENCE_CREATE_INFO,
+                                         nullptr, 0};
+    Fence result;
+    VK_VERIFY(vkCreateFence(context->device, &fenceCreateInfo, nullptr,
+                            &result.mFence));
+    return result;
+  }
+
+  void wait() const {
+    VK_VERIFY(vkWaitForFences(context->device, 1, &mFence, 1, UINT64_MAX));
+  }
+
+  bool isComplete() const {
+    return vkGetFenceStatus(context->device, mFence) == VK_SUCCESS;
+  }
+
+  void reset() { vkResetFences(context->device, 1, &mFence); }
+
+  VkFence getHandle() const { return mFence; }
+
+  bool operator==(std::nullptr_t) const { return mFence == nullptr; }
+};
+
+struct CommandBuffer {
+  VkCommandBuffer mCmdBuffer = VK_NULL_HANDLE;
+
+public:
+  CommandBuffer(const CommandBuffer &) = delete;
+
+  CommandBuffer() = default;
+  CommandBuffer(CommandBuffer &&other) { *this = std::move(other); }
+
+  CommandBuffer &operator=(CommandBuffer &&other) {
+    std::swap(mCmdBuffer, other.mCmdBuffer);
+    return *this;
+  }
+
+  CommandBuffer(VkCommandPool commandPool,
+                VkCommandBufferLevel level = VK_COMMAND_BUFFER_LEVEL_PRIMARY,
+                VkCommandBufferUsageFlags flags = {}) {
+    VkCommandBufferAllocateInfo allocInfo{};
+    allocInfo.sType = VK_STRUCTURE_TYPE_COMMAND_BUFFER_ALLOCATE_INFO;
+    allocInfo.level = level;
+    allocInfo.commandPool = commandPool;
+    allocInfo.commandBufferCount = 1;
+
+    vkAllocateCommandBuffers(context->device, &allocInfo, &mCmdBuffer);
+
+    VkCommandBufferBeginInfo beginInfo{};
+    beginInfo.sType = VK_STRUCTURE_TYPE_COMMAND_BUFFER_BEGIN_INFO;
+    beginInfo.flags = flags;
+
+    vkBeginCommandBuffer(mCmdBuffer, &beginInfo);
+  }
+
+  VkCommandBuffer getHandle() const { return mCmdBuffer; }
+
+  operator VkCommandBuffer() const { return mCmdBuffer; }
+
+  void end() { vkEndCommandBuffer(mCmdBuffer); }
+
+  bool operator==(std::nullptr_t) const { return mCmdBuffer == nullptr; }
+};
+
+class CommandPool {
+  VkCommandPool mHandle = VK_NULL_HANDLE;
+
+public:
+  CommandPool(const CommandPool &) = delete;
+
+  CommandPool() = default;
+  CommandPool(CommandPool &&other) { *this = std::move(other); }
+  ~CommandPool() {
+    if (mHandle != nullptr) {
+      vkDestroyCommandPool(context->device, mHandle, context->allocator);
+    }
+  }
+
+  CommandPool &operator=(CommandPool &&other) {
+    std::swap(mHandle, other.mHandle);
+    return *this;
+  }
+
+  static CommandPool Create(uint32_t queueFamilyIndex,
+                            VkCommandPoolCreateFlags flags = 0) {
+    VkCommandPoolCreateInfo info{
+        .sType = VK_STRUCTURE_TYPE_COMMAND_POOL_CREATE_INFO,
+        .flags = flags,
+        .queueFamilyIndex = queueFamilyIndex,
+    };
+
+    CommandPool result;
+    VK_VERIFY(vkCreateCommandPool(context->device, &info, context->allocator,
+                                  &result.mHandle));
+    return result;
+  }
+
+  CommandBuffer createOneTimeSubmitBuffer() {
+    return createPrimaryBuffer(VK_COMMAND_BUFFER_USAGE_ONE_TIME_SUBMIT_BIT);
+  }
+
+  CommandBuffer createPrimaryBuffer(VkCommandBufferUsageFlags flags) {
+    return CommandBuffer(mHandle, VK_COMMAND_BUFFER_LEVEL_PRIMARY, flags);
+  }
+
+  operator VkCommandPool() const { return mHandle; }
+  VkCommandPool getHandle() const { return mHandle; }
+
+  bool operator==(std::nullptr_t) const { return mHandle == nullptr; }
+};
+
+class CommandPoolRef {
+  VkCommandPool mHandle = VK_NULL_HANDLE;
+
+public:
+  CommandPoolRef() = default;
+  CommandPoolRef(VkCommandPool handle) : mHandle(handle) {}
+  CommandPoolRef(const CommandPool &pool) : mHandle(pool.getHandle()) {}
+
+  CommandBuffer createOneTimeSubmitBuffer() {
+    return createPrimaryBuffer(VK_COMMAND_BUFFER_USAGE_ONE_TIME_SUBMIT_BIT);
+  }
+
+  CommandBuffer createPrimaryBuffer(VkCommandBufferUsageFlags flags) {
+    return CommandBuffer(mHandle, VK_COMMAND_BUFFER_LEVEL_PRIMARY, flags);
+  }
+
+  VkCommandPool getHandle() const { return mHandle; }
+  operator VkCommandPool() const { return mHandle; }
+
+  bool operator==(std::nullptr_t) const { return mHandle == nullptr; }
+};
+
+class Buffer {
+  VkBuffer mBuffer = VK_NULL_HANDLE;
+  VkDeviceAddress mAddress{};
+  DeviceMemoryRef mMemory;
+
+public:
+  Buffer(const Buffer &) = delete;
+
+  Buffer() = default;
+  Buffer(Buffer &&other) { *this = std::move(other); }
+  ~Buffer() {
+    if (mBuffer != nullptr) {
+      vkDestroyBuffer(context->device, mBuffer, context->allocator);
+
+      if (mMemory.release != nullptr) {
+        mMemory.release(mMemory);
+      }
+    }
+  }
+
+  Buffer &operator=(Buffer &&other) {
+    std::swap(mBuffer, other.mBuffer);
+    std::swap(mAddress, other.mAddress);
+    std::swap(mMemory, other.mMemory);
+    return *this;
+  }
+
+  Buffer(std::size_t size, VkBufferUsageFlags usage,
+         VkBufferCreateFlags flags = 0,
+         VkSharingMode sharingMode = VK_SHARING_MODE_EXCLUSIVE,
+         std::span<const std::uint32_t> queueFamilyIndices = {}) {
+    VkBufferCreateInfo bufferInfo{
+        .sType = VK_STRUCTURE_TYPE_BUFFER_CREATE_INFO,
+        .flags = flags,
+        .size = size,
+        .usage = usage | VK_BUFFER_USAGE_SHADER_DEVICE_ADDRESS_BIT,
+        .sharingMode = sharingMode,
+        .queueFamilyIndexCount =
+            static_cast<std::uint32_t>(queueFamilyIndices.size()),
+        .pQueueFamilyIndices = queueFamilyIndices.data(),
+    };
+
+    VK_VERIFY(vkCreateBuffer(context->device, &bufferInfo, context->allocator,
+                             &mBuffer));
+  }
+
+  operator VkBuffer() const { return mBuffer; }
+
+  std::byte *getData() const {
+    rx::dieIf(mMemory.data == nullptr,
+              "unexpected Buffer::getData call with device local memory");
+    return reinterpret_cast<std::byte *>(mMemory.data) + mMemory.offset;
+  }
+
+  static Buffer
+  CreateExternal(std::size_t size, VkBufferUsageFlags usage,
+                 VkBufferCreateFlags flags = 0,
+                 VkSharingMode sharingMode = VK_SHARING_MODE_EXCLUSIVE,
+                 std::span<const std::uint32_t> queueFamilyIndices = {}) {
+    VkExternalMemoryBufferCreateInfo info{
+        VK_STRUCTURE_TYPE_EXTERNAL_MEMORY_BUFFER_CREATE_INFO, nullptr,
+        VK_EXTERNAL_MEMORY_HANDLE_TYPE_HOST_ALLOCATION_BIT_EXT};
+
+    VkBufferCreateInfo bufferInfo{};
+    bufferInfo.sType = VK_STRUCTURE_TYPE_BUFFER_CREATE_INFO;
+    bufferInfo.pNext = &info;
+    bufferInfo.flags = flags;
+    bufferInfo.size = size;
+    bufferInfo.usage = usage;
+    bufferInfo.sharingMode = sharingMode;
+    bufferInfo.queueFamilyIndexCount = queueFamilyIndices.size();
+    bufferInfo.pQueueFamilyIndices = queueFamilyIndices.data();
+
+    Buffer result;
+
+    VK_VERIFY(vkCreateBuffer(context->device, &bufferInfo, context->allocator,
+                             &result.mBuffer));
+
+    return result;
+  }
+
+  static Buffer
+  Allocate(MemoryResource &pool, std::size_t size, VkBufferUsageFlags usage = 0,
+           VkBufferCreateFlags flags = 0,
+           VkSharingMode sharingMode = VK_SHARING_MODE_EXCLUSIVE,
+           std::span<const std::uint32_t> queueFamilyIndices = {}) {
+    Buffer result(size, usage, flags, sharingMode, queueFamilyIndices);
+    result.allocateAndBind(pool);
+    return result;
+  }
+
+  VkDeviceAddress getAddress() const { return mAddress; }
+  VkBuffer getHandle() const { return mBuffer; }
+  [[nodiscard]] VkBuffer release() { return std::exchange(mBuffer, nullptr); }
+
+  VkMemoryRequirements getMemoryRequirements() const {
+    VkMemoryRequirements requirements{};
+    vkGetBufferMemoryRequirements(context->device, mBuffer, &requirements);
+    return requirements;
+  }
+
+  void allocateAndBind(MemoryResource &pool) {
+    auto memory = pool.allocate(getMemoryRequirements());
+    bindMemory(memory);
+  }
+
+  void bindMemory(DeviceMemoryRef memory) {
+    VK_VERIFY(vkBindBufferMemory(context->device, mBuffer, memory.deviceMemory,
+                                 memory.offset));
+    mMemory = memory;
+
+    VkBufferDeviceAddressInfo addressInfo{
+        .sType = VK_STRUCTURE_TYPE_BUFFER_DEVICE_ADDRESS_INFO,
+        .buffer = getHandle(),
+    };
+
+    mAddress = vkGetBufferDeviceAddress(vk::context->device, &addressInfo);
+  }
+
+  void copyTo(VkCommandBuffer cmdBuffer, VkBuffer dstBuffer,
+              std::span<const VkBufferCopy> regions) {
+    vkCmdCopyBuffer(cmdBuffer, mBuffer, dstBuffer, regions.size(),
+                    regions.data());
+
+    VkDependencyInfo depInfo = {.sType = VK_STRUCTURE_TYPE_DEPENDENCY_INFO};
+    vkCmdPipelineBarrier2(cmdBuffer, &depInfo);
+  }
+
+  const DeviceMemoryRef &getMemory() const { return mMemory; }
+  bool operator==(std::nullptr_t) const { return mBuffer == nullptr; }
+  bool operator!=(std::nullptr_t) const { return mBuffer != nullptr; }
+};
+
+class Image {
+  VkImage mImage = VK_NULL_HANDLE;
+  VkImageType mImageType{};
+  VkFormat mFormat = {};
+  VkImageAspectFlags mAspects = {};
+  VkExtent3D mExtent{};
+  unsigned mMipLevels = 0;
+  unsigned mArrayLayers = 0;
+  VkSampleCountFlagBits mSamples = {};
+  DeviceMemoryRef mMemory;
+
+public:
+  Image(const Image &) = delete;
+
+  Image() = default;
+  Image(Image &&other) { *this = std::move(other); }
+
+  ~Image() {
+    if (mImage != VK_NULL_HANDLE) {
+      vkDestroyImage(context->device, mImage, context->allocator);
+
+      if (mMemory.release != nullptr) {
+        mMemory.release(mMemory);
+      }
+    }
+  }
+
+  Image &operator=(Image &&other) {
+    std::swap(mImage, other.mImage);
+    std::swap(mImageType, other.mImageType);
+    std::swap(mFormat, other.mFormat);
+    std::swap(mAspects, other.mAspects);
+    std::swap(mExtent, other.mExtent);
+    std::swap(mMipLevels, other.mMipLevels);
+    std::swap(mArrayLayers, other.mArrayLayers);
+    std::swap(mSamples, other.mSamples);
+    std::swap(mMemory, other.mMemory);
+    return *this;
+  }
+
+  Image(VkImageType type, VkExtent3D extent, uint32_t mipLevels,
+        uint32_t arrayLayers, VkSampleCountFlagBits samples, VkFormat format,
+        VkImageUsageFlags usage, VkImageTiling tiling = VK_IMAGE_TILING_OPTIMAL,
+        VkSharingMode sharingMode = VK_SHARING_MODE_EXCLUSIVE,
+        VkImageLayout initialLayout = VK_IMAGE_LAYOUT_UNDEFINED) {
+    VkImageCreateInfo imageInfo{
+        .sType = VK_STRUCTURE_TYPE_IMAGE_CREATE_INFO,
+        .imageType = type,
+        .format = format,
+        .extent = extent,
+        .mipLevels = mipLevels,
+        .arrayLayers = arrayLayers,
+        .samples = samples,
+        .tiling = tiling,
+        .usage = usage,
+        .sharingMode = sharingMode,
+        .initialLayout = initialLayout,
+    };
+
+    mImageType = type;
+    mFormat = format;
+    mExtent = extent;
+    mMipLevels = mipLevels;
+    mArrayLayers = arrayLayers;
+    mSamples = samples;
+
+    if (usage & VK_IMAGE_USAGE_DEPTH_STENCIL_ATTACHMENT_BIT) {
+      mAspects |= VK_IMAGE_ASPECT_DEPTH_BIT | VK_IMAGE_ASPECT_STENCIL_BIT;
+    } else {
+      mAspects |= VK_IMAGE_ASPECT_COLOR_BIT;
+    }
+
+    VK_VERIFY(vkCreateImage(context->device, &imageInfo, nullptr, &mImage));
+  }
+
+  operator VkImage() const { return mImage; }
+
+  static Image
+  Allocate(MemoryResource &pool, VkImageType type, VkExtent3D extent,
+           uint32_t mipLevels, uint32_t arrayLayers, VkFormat format,
+           VkSampleCountFlagBits samples, VkImageUsageFlags usage,
+           VkImageTiling tiling = VK_IMAGE_TILING_OPTIMAL,
+           VkSharingMode sharingMode = VK_SHARING_MODE_EXCLUSIVE,
+           VkImageLayout initialLayout = VK_IMAGE_LAYOUT_UNDEFINED) {
+
+    Image result(type, extent, mipLevels, arrayLayers, samples, format, usage,
+                 tiling, sharingMode, initialLayout);
+
+    result.allocateAndBind(pool);
+    return result;
+  }
+
+  VkExtent3D getExtent() const { return mExtent; }
+  VkImageType getImageType() const { return mImageType; }
+  VkFormat getFormat() const { return mFormat; }
+  VkImageAspectFlags getAspects() { return mAspects; }
+  std::uint32_t getWidth() const { return getExtent().width; }
+  std::uint32_t getHeight() const { return getExtent().height; }
+  std::uint32_t getDepth() const { return getExtent().depth; }
+  std::uint32_t getArrayLayers() const { return mArrayLayers; }
+  std::uint32_t getMipLevels() const { return mMipLevels; }
+  VkSampleCountFlagBits getSamples() const { return mSamples; }
+
+  VkImage getHandle() const { return mImage; }
+  [[nodiscard]] VkImage release() { return std::exchange(mImage, nullptr); }
+
+  VkMemoryRequirements getMemoryRequirements() const {
+    VkMemoryRequirements requirements{};
+    vkGetImageMemoryRequirements(context->device, mImage, &requirements);
+    return requirements;
+  }
+
+  void allocateAndBind(MemoryResource &pool) {
+    auto memory = pool.allocate(getMemoryRequirements());
+    bindMemory(memory);
+  }
+
+  void bindMemory(DeviceMemoryRef memory) {
+    VK_VERIFY(vkBindImageMemory(context->device, mImage, memory.deviceMemory,
+                                memory.offset));
+    mMemory = memory;
+  }
+
+  const DeviceMemoryRef &getMemory() const { return mMemory; }
+};
+
+struct ImageView {
+  VkImageView mHandle = VK_NULL_HANDLE;
+  VkImageViewType mType{};
+  VkFormat mFormat{};
+  VkImageSubresourceRange mSubresourceRange;
+
+public:
+  ImageView(const ImageView &) = delete;
+
+  ImageView() = default;
+  ImageView(ImageView &&other) { *this = std::move(other); }
+
+  ~ImageView() {
+    if (mHandle != nullptr) {
+      vkDestroyImageView(context->device, mHandle, context->allocator);
+    }
+  }
+
+  ImageView &operator=(ImageView &&other) {
+    std::swap(mHandle, other.mHandle);
+    std::swap(mType, other.mType);
+    std::swap(mFormat, other.mFormat);
+    std::swap(mSubresourceRange, other.mSubresourceRange);
+    return *this;
+  }
+
+  ImageView(VkImageViewType type, VkImage image, VkFormat format,
+            VkComponentMapping components,
+            VkImageSubresourceRange subresourceRange) {
+    VkImageViewCreateInfo imageInfo{
+        .sType = VK_STRUCTURE_TYPE_IMAGE_VIEW_CREATE_INFO,
+        .flags = 0,
+        .image = image,
+        .viewType = type,
+        .format = format,
+        .components = components,
+        .subresourceRange = subresourceRange,
+    };
+
+    VK_VERIFY(vkCreateImageView(context->device, &imageInfo, context->allocator,
+                                &mHandle));
+  }
+
+  VkImageView getHandle() const { return mHandle; }
+
+  [[nodiscard]] VkImageView release() {
+    return std::exchange(mHandle, nullptr);
+  }
+};
+
+vk::MemoryResource &getHostVisibleMemory();
+vk::MemoryResource &getDeviceLocalMemory();
+
+VkResult CreateShadersEXT(VkDevice device, uint32_t createInfoCount,
+                          const VkShaderCreateInfoEXT *pCreateInfos,
+                          const VkAllocationCallbacks *pAllocator,
+                          VkShaderEXT *pShaders);
+
+void DestroyShaderEXT(VkDevice device, VkShaderEXT shader,
+                      const VkAllocationCallbacks *pAllocator);
+
+void CmdBindShadersEXT(VkCommandBuffer commandBuffer, uint32_t stageCount,
+                       const VkShaderStageFlagBits *pStages,
+                       const VkShaderEXT *pShaders);
+void CmdSetColorBlendEnableEXT(VkCommandBuffer commandBuffer,
+                               uint32_t firstAttachment,
+                               uint32_t attachmentCount,
+                               const VkBool32 *pColorBlendEnables);
+void CmdSetColorBlendEquationEXT(
+    VkCommandBuffer commandBuffer, uint32_t firstAttachment,
+    uint32_t attachmentCount,
+    const VkColorBlendEquationEXT *pColorBlendEquations);
+
+void CmdSetDepthClampEnableEXT(VkCommandBuffer commandBuffer,
+                               VkBool32 depthClampEnable);
+void CmdSetLogicOpEXT(VkCommandBuffer commandBuffer, VkLogicOp logicOp);
+void CmdSetPolygonModeEXT(VkCommandBuffer commandBuffer,
+                          VkPolygonMode polygonMode);
+void CmdSetAlphaToOneEnableEXT(VkCommandBuffer commandBuffer,
+                            VkBool32 alphaToOneEnable);
+void CmdSetLogicOpEnableEXT(VkCommandBuffer commandBuffer,
+                            VkBool32 logicOpEnable);
+void CmdSetRasterizationSamplesEXT(VkCommandBuffer commandBuffer,
+                                   VkSampleCountFlagBits rasterizationSamples);
+void CmdSetSampleMaskEXT(VkCommandBuffer commandBuffer,
+                         VkSampleCountFlagBits samples,
+                         const VkSampleMask *pSampleMask);
+void CmdSetTessellationDomainOriginEXT(VkCommandBuffer commandBuffer,
+                                       VkTessellationDomainOrigin domainOrigin);
+void CmdSetAlphaToCoverageEnableEXT(VkCommandBuffer commandBuffer,
+                                    VkBool32 alphaToCoverageEnable);
+void CmdSetVertexInputEXT(
+    VkCommandBuffer commandBuffer, uint32_t vertexBindingDescriptionCount,
+    const VkVertexInputBindingDescription2EXT *pVertexBindingDescriptions,
+    uint32_t vertexAttributeDescriptionCount,
+    const VkVertexInputAttributeDescription2EXT *pVertexAttributeDescriptions);
+void CmdSetColorWriteMaskEXT(VkCommandBuffer commandBuffer,
+                             uint32_t firstAttachment, uint32_t attachmentCount,
+                             const VkColorComponentFlags *pColorWriteMasks);
+
+void GetDescriptorSetLayoutSizeEXT(VkDevice device,
+                                   VkDescriptorSetLayout layout,
+                                   VkDeviceSize *pLayoutSizeInBytes);
+
+void GetDescriptorSetLayoutBindingOffsetEXT(VkDevice device,
+                                            VkDescriptorSetLayout layout,
+                                            uint32_t binding,
+                                            VkDeviceSize *pOffset);
+void GetDescriptorEXT(VkDevice device,
+                      const VkDescriptorGetInfoEXT *pDescriptorInfo,
+                      size_t dataSize, void *pDescriptor);
+void CmdBindDescriptorBuffersEXT(
+    VkCommandBuffer commandBuffer, uint32_t bufferCount,
+    const VkDescriptorBufferBindingInfoEXT *pBindingInfos);
+
+void CmdSetDescriptorBufferOffsetsEXT(VkCommandBuffer commandBuffer,
+                                      VkPipelineBindPoint pipelineBindPoint,
+                                      VkPipelineLayout layout,
+                                      uint32_t firstSet, uint32_t setCount,
+                                      const uint32_t *pBufferIndices,
+                                      const VkDeviceSize *pOffsets);
+
+void CmdBindDescriptorBufferEmbeddedSamplersEXT(
+    VkCommandBuffer commandBuffer, VkPipelineBindPoint pipelineBindPoint,
+    VkPipelineLayout layout, uint32_t set);
+} // namespace vk
diff --git a/rpcsx-gpu2/lib/vk/src/vk.cpp b/rpcsx-gpu2/lib/vk/src/vk.cpp
new file mode 100644
index 00000000..7cc6e5a4
--- /dev/null
+++ b/rpcsx-gpu2/lib/vk/src/vk.cpp
@@ -0,0 +1,958 @@
+#include "vk.hpp"
+#include <algorithm>
+#include <cstdarg>
+#include <cstdio>
+#include <rx/die.hpp>
+#include <vulkan/vulkan_core.h>
+#include <bit>
+
+vk::Context *vk::context;
+static vk::MemoryResource g_hostVisibleMemory;
+static vk::MemoryResource g_deviceLocalMemory;
+
+void vk::verifyFailed(VkResult result, const char *message) {
+  std::fprintf(stderr, "vk verification failed: %s\n", message);
+
+  switch (result) {
+  case VK_SUCCESS:
+    std::fprintf(stderr, "VK_SUCCESS\n");
+    break;
+  case VK_NOT_READY:
+    std::fprintf(stderr, "VK_NOT_READY\n");
+    break;
+  case VK_TIMEOUT:
+    std::fprintf(stderr, "VK_TIMEOUT\n");
+    break;
+  case VK_EVENT_SET:
+    std::fprintf(stderr, "VK_EVENT_SET\n");
+    break;
+  case VK_EVENT_RESET:
+    std::fprintf(stderr, "VK_EVENT_RESET\n");
+    break;
+  case VK_INCOMPLETE:
+    std::fprintf(stderr, "VK_INCOMPLETE\n");
+    break;
+  case VK_ERROR_OUT_OF_HOST_MEMORY:
+    std::fprintf(stderr, "VK_ERROR_OUT_OF_HOST_MEMORY\n");
+    break;
+  case VK_ERROR_OUT_OF_DEVICE_MEMORY:
+    std::fprintf(stderr, "VK_ERROR_OUT_OF_DEVICE_MEMORY\n");
+    break;
+  case VK_ERROR_INITIALIZATION_FAILED:
+    std::fprintf(stderr, "VK_ERROR_INITIALIZATION_FAILED\n");
+    break;
+  case VK_ERROR_DEVICE_LOST:
+    std::fprintf(stderr, "VK_ERROR_DEVICE_LOST\n");
+    break;
+  case VK_ERROR_MEMORY_MAP_FAILED:
+    std::fprintf(stderr, "VK_ERROR_MEMORY_MAP_FAILED\n");
+    break;
+  case VK_ERROR_LAYER_NOT_PRESENT:
+    std::fprintf(stderr, "VK_ERROR_LAYER_NOT_PRESENT\n");
+    break;
+  case VK_ERROR_EXTENSION_NOT_PRESENT:
+    std::fprintf(stderr, "VK_ERROR_EXTENSION_NOT_PRESENT\n");
+    break;
+  case VK_ERROR_FEATURE_NOT_PRESENT:
+    std::fprintf(stderr, "VK_ERROR_FEATURE_NOT_PRESENT\n");
+    break;
+  case VK_ERROR_INCOMPATIBLE_DRIVER:
+    std::fprintf(stderr, "VK_ERROR_INCOMPATIBLE_DRIVER\n");
+    break;
+  case VK_ERROR_TOO_MANY_OBJECTS:
+    std::fprintf(stderr, "VK_ERROR_TOO_MANY_OBJECTS\n");
+    break;
+  case VK_ERROR_FORMAT_NOT_SUPPORTED:
+    std::fprintf(stderr, "VK_ERROR_FORMAT_NOT_SUPPORTED\n");
+    break;
+  case VK_ERROR_FRAGMENTED_POOL:
+    std::fprintf(stderr, "VK_ERROR_FRAGMENTED_POOL\n");
+    break;
+  case VK_ERROR_UNKNOWN:
+    std::fprintf(stderr, "VK_ERROR_UNKNOWN\n");
+    break;
+  case VK_ERROR_OUT_OF_POOL_MEMORY:
+    std::fprintf(stderr, "VK_ERROR_OUT_OF_POOL_MEMORY\n");
+    break;
+  case VK_ERROR_INVALID_EXTERNAL_HANDLE:
+    std::fprintf(stderr, "VK_ERROR_INVALID_EXTERNAL_HANDLE\n");
+    break;
+  case VK_ERROR_FRAGMENTATION:
+    std::fprintf(stderr, "VK_ERROR_FRAGMENTATION\n");
+    break;
+  case VK_ERROR_INVALID_OPAQUE_CAPTURE_ADDRESS:
+    std::fprintf(stderr, "VK_ERROR_INVALID_OPAQUE_CAPTURE_ADDRESS\n");
+    break;
+  case VK_PIPELINE_COMPILE_REQUIRED:
+    std::fprintf(stderr, "VK_PIPELINE_COMPILE_REQUIRED\n");
+    break;
+  case VK_ERROR_SURFACE_LOST_KHR:
+    std::fprintf(stderr, "VK_ERROR_SURFACE_LOST_KHR\n");
+    break;
+  case VK_ERROR_NATIVE_WINDOW_IN_USE_KHR:
+    std::fprintf(stderr, "VK_ERROR_NATIVE_WINDOW_IN_USE_KHR\n");
+    break;
+  case VK_SUBOPTIMAL_KHR:
+    std::fprintf(stderr, "VK_SUBOPTIMAL_KHR\n");
+    break;
+  case VK_ERROR_OUT_OF_DATE_KHR:
+    std::fprintf(stderr, "VK_ERROR_OUT_OF_DATE_KHR\n");
+    break;
+  case VK_ERROR_INCOMPATIBLE_DISPLAY_KHR:
+    std::fprintf(stderr, "VK_ERROR_INCOMPATIBLE_DISPLAY_KHR\n");
+    break;
+  case VK_ERROR_VALIDATION_FAILED_EXT:
+    std::fprintf(stderr, "VK_ERROR_VALIDATION_FAILED_EXT\n");
+    break;
+  case VK_ERROR_INVALID_SHADER_NV:
+    std::fprintf(stderr, "VK_ERROR_INVALID_SHADER_NV\n");
+    break;
+  case VK_ERROR_IMAGE_USAGE_NOT_SUPPORTED_KHR:
+    std::fprintf(stderr, "VK_ERROR_IMAGE_USAGE_NOT_SUPPORTED_KHR\n");
+    break;
+  case VK_ERROR_VIDEO_PICTURE_LAYOUT_NOT_SUPPORTED_KHR:
+    std::fprintf(stderr, "VK_ERROR_VIDEO_PICTURE_LAYOUT_NOT_SUPPORTED_KHR\n");
+    break;
+  case VK_ERROR_VIDEO_PROFILE_OPERATION_NOT_SUPPORTED_KHR:
+    std::fprintf(stderr,
+                 "VK_ERROR_VIDEO_PROFILE_OPERATION_NOT_SUPPORTED_KHR\n");
+    break;
+  case VK_ERROR_VIDEO_PROFILE_FORMAT_NOT_SUPPORTED_KHR:
+    std::fprintf(stderr, "VK_ERROR_VIDEO_PROFILE_FORMAT_NOT_SUPPORTED_KHR\n");
+    break;
+  case VK_ERROR_VIDEO_PROFILE_CODEC_NOT_SUPPORTED_KHR:
+    std::fprintf(stderr, "VK_ERROR_VIDEO_PROFILE_CODEC_NOT_SUPPORTED_KHR\n");
+    break;
+  case VK_ERROR_VIDEO_STD_VERSION_NOT_SUPPORTED_KHR:
+    std::fprintf(stderr, "VK_ERROR_VIDEO_STD_VERSION_NOT_SUPPORTED_KHR\n");
+    break;
+  case VK_ERROR_INVALID_DRM_FORMAT_MODIFIER_PLANE_LAYOUT_EXT:
+    std::fprintf(stderr,
+                 "VK_ERROR_INVALID_DRM_FORMAT_MODIFIER_PLANE_LAYOUT_EXT\n");
+    break;
+  case VK_ERROR_NOT_PERMITTED_KHR:
+    std::fprintf(stderr, "VK_ERROR_NOT_PERMITTED_KHR\n");
+    break;
+  case VK_ERROR_FULL_SCREEN_EXCLUSIVE_MODE_LOST_EXT:
+    std::fprintf(stderr, "VK_ERROR_FULL_SCREEN_EXCLUSIVE_MODE_LOST_EXT\n");
+    break;
+  case VK_THREAD_IDLE_KHR:
+    std::fprintf(stderr, "VK_THREAD_IDLE_KHR\n");
+    break;
+  case VK_THREAD_DONE_KHR:
+    std::fprintf(stderr, "VK_THREAD_DONE_KHR\n");
+    break;
+  case VK_OPERATION_DEFERRED_KHR:
+    std::fprintf(stderr, "VK_OPERATION_DEFERRED_KHR\n");
+    break;
+  case VK_OPERATION_NOT_DEFERRED_KHR:
+    std::fprintf(stderr, "VK_OPERATION_NOT_DEFERRED_KHR\n");
+    break;
+  case VK_ERROR_COMPRESSION_EXHAUSTED_EXT:
+    std::fprintf(stderr, "VK_ERROR_COMPRESSION_EXHAUSTED_EXT\n");
+    break;
+  case VK_ERROR_INCOMPATIBLE_SHADER_BINARY_EXT:
+    std::fprintf(stderr, "VK_ERROR_INCOMPATIBLE_SHADER_BINARY_EXT\n");
+    break;
+
+  case VK_RESULT_MAX_ENUM:
+    break;
+  }
+
+  std::abort();
+}
+
+bool vk::Context::hasDeviceExtension(std::string_view ext) {
+  return std::find(deviceExtensions.begin(), deviceExtensions.end(), ext) !=
+         deviceExtensions.end();
+}
+
+void vk::Context::createSwapchain() {
+  uint32_t formatCount;
+  VK_VERIFY(vkGetPhysicalDeviceSurfaceFormatsKHR(physicalDevice, surface,
+                                                 &formatCount, nullptr));
+
+  std::vector<VkSurfaceFormatKHR> surfaceFormats(formatCount);
+  VK_VERIFY(vkGetPhysicalDeviceSurfaceFormatsKHR(
+      physicalDevice, surface, &formatCount, surfaceFormats.data()));
+
+  if ((formatCount == 1) && (surfaceFormats[0].format == VK_FORMAT_UNDEFINED)) {
+    swapchainColorFormat = VK_FORMAT_B8G8R8A8_UNORM;
+    swapchainColorSpace = surfaceFormats[0].colorSpace;
+  } else {
+    bool found_B8G8R8A8_UNORM = false;
+    for (auto &&surfaceFormat : surfaceFormats) {
+      if (surfaceFormat.format == VK_FORMAT_B8G8R8A8_UNORM) {
+        swapchainColorFormat = surfaceFormat.format;
+        swapchainColorSpace = surfaceFormat.colorSpace;
+        found_B8G8R8A8_UNORM = true;
+        break;
+      }
+    }
+
+    if (!found_B8G8R8A8_UNORM) {
+      swapchainColorFormat = surfaceFormats[0].format;
+      swapchainColorSpace = surfaceFormats[0].colorSpace;
+    }
+  }
+
+  recreateSwapchain();
+
+  inFlightFences.resize(swapchainImages.size());
+
+  for (auto &fence : inFlightFences) {
+    VkFenceCreateInfo fenceInfo{};
+    fenceInfo.sType = VK_STRUCTURE_TYPE_FENCE_CREATE_INFO;
+    fenceInfo.flags = VK_FENCE_CREATE_SIGNALED_BIT;
+
+    VK_VERIFY(vkCreateFence(device, &fenceInfo, allocator, &fence));
+  }
+  {
+    VkSemaphoreCreateInfo semaphoreCreateInfo{};
+    semaphoreCreateInfo.sType = VK_STRUCTURE_TYPE_SEMAPHORE_CREATE_INFO;
+
+    VK_VERIFY(vkCreateSemaphore(device, &semaphoreCreateInfo, allocator,
+                                &presentCompleteSemaphore));
+    VK_VERIFY(vkCreateSemaphore(device, &semaphoreCreateInfo, allocator,
+                                &renderCompleteSemaphore));
+  }
+}
+
+void vk::Context::recreateSwapchain() {
+  VkSwapchainKHR oldSwapchain = swapchain;
+
+  VkSurfaceCapabilitiesKHR surfCaps;
+  VK_VERIFY(vkGetPhysicalDeviceSurfaceCapabilitiesKHR(physicalDevice, surface,
+                                                      &surfCaps));
+  uint32_t presentModeCount;
+  VK_VERIFY(vkGetPhysicalDeviceSurfacePresentModesKHR(physicalDevice, surface,
+                                                      &presentModeCount, NULL));
+
+  std::vector<VkPresentModeKHR> presentModes(presentModeCount);
+  VK_VERIFY(vkGetPhysicalDeviceSurfacePresentModesKHR(
+      physicalDevice, surface, &presentModeCount, presentModes.data()));
+
+  if (surfCaps.currentExtent.width != (uint32_t)-1) {
+    swapchainExtent = surfCaps.currentExtent;
+  }
+
+  VkPresentModeKHR swapchainPresentMode = VK_PRESENT_MODE_FIFO_KHR;
+  for (std::size_t i = 0; i < presentModeCount; i++) {
+    if (presentModes[i] == VK_PRESENT_MODE_IMMEDIATE_KHR) {
+      swapchainPresentMode = VK_PRESENT_MODE_IMMEDIATE_KHR;
+      continue;
+    }
+
+    if (presentModes[i] == VK_PRESENT_MODE_MAILBOX_KHR) {
+      swapchainPresentMode = VK_PRESENT_MODE_MAILBOX_KHR;
+      break;
+    }
+  }
+
+  uint32_t desiredNumberOfSwapchainImages = surfCaps.minImageCount;
+  if ((surfCaps.maxImageCount > 0) &&
+      (desiredNumberOfSwapchainImages > surfCaps.maxImageCount)) {
+    desiredNumberOfSwapchainImages = surfCaps.maxImageCount;
+  }
+
+  VkSurfaceTransformFlagsKHR preTransform;
+  if (surfCaps.supportedTransforms & VK_SURFACE_TRANSFORM_IDENTITY_BIT_KHR) {
+    preTransform = VK_SURFACE_TRANSFORM_IDENTITY_BIT_KHR;
+  } else {
+    preTransform = surfCaps.currentTransform;
+  }
+
+  VkCompositeAlphaFlagBitsKHR compositeAlpha =
+      VK_COMPOSITE_ALPHA_OPAQUE_BIT_KHR;
+  std::vector<VkCompositeAlphaFlagBitsKHR> compositeAlphaFlags = {
+      VK_COMPOSITE_ALPHA_OPAQUE_BIT_KHR,
+      VK_COMPOSITE_ALPHA_PRE_MULTIPLIED_BIT_KHR,
+      VK_COMPOSITE_ALPHA_POST_MULTIPLIED_BIT_KHR,
+      VK_COMPOSITE_ALPHA_INHERIT_BIT_KHR,
+  };
+
+  for (auto &compositeAlphaFlag : compositeAlphaFlags) {
+    if (surfCaps.supportedCompositeAlpha & compositeAlphaFlag) {
+      compositeAlpha = compositeAlphaFlag;
+      break;
+    }
+  }
+
+  VkSwapchainCreateInfoKHR swapchainCI = {};
+  swapchainCI.sType = VK_STRUCTURE_TYPE_SWAPCHAIN_CREATE_INFO_KHR;
+  swapchainCI.surface = surface;
+  swapchainCI.minImageCount = desiredNumberOfSwapchainImages;
+  swapchainCI.imageFormat = swapchainColorFormat;
+  swapchainCI.imageColorSpace = swapchainColorSpace;
+  swapchainCI.imageExtent = {swapchainExtent.width, swapchainExtent.height};
+  swapchainCI.imageUsage = VK_IMAGE_USAGE_COLOR_ATTACHMENT_BIT;
+  swapchainCI.preTransform = (VkSurfaceTransformFlagBitsKHR)preTransform;
+  swapchainCI.imageArrayLayers = 1;
+  swapchainCI.imageSharingMode = VK_SHARING_MODE_EXCLUSIVE;
+  swapchainCI.queueFamilyIndexCount = 0;
+  swapchainCI.presentMode = swapchainPresentMode;
+  swapchainCI.oldSwapchain = oldSwapchain;
+  swapchainCI.clipped = VK_TRUE;
+  swapchainCI.compositeAlpha = compositeAlpha;
+
+  if (surfCaps.supportedUsageFlags & VK_IMAGE_USAGE_TRANSFER_SRC_BIT) {
+    swapchainCI.imageUsage |= VK_IMAGE_USAGE_TRANSFER_SRC_BIT;
+  }
+
+  if (surfCaps.supportedUsageFlags & VK_IMAGE_USAGE_TRANSFER_DST_BIT) {
+    swapchainCI.imageUsage |= VK_IMAGE_USAGE_TRANSFER_DST_BIT;
+  }
+
+  VK_VERIFY(vkCreateSwapchainKHR(device, &swapchainCI, allocator, &swapchain));
+
+  if (oldSwapchain != VK_NULL_HANDLE) {
+    vkDestroySwapchainKHR(device, oldSwapchain, allocator);
+  }
+
+  uint32_t swapchainImageCount = 0;
+  VK_VERIFY(vkGetSwapchainImagesKHR(device, swapchain, &swapchainImageCount,
+                                    nullptr));
+
+  swapchainImages.resize(swapchainImageCount);
+  VK_VERIFY(vkGetSwapchainImagesKHR(device, swapchain, &swapchainImageCount,
+                                    swapchainImages.data()));
+
+  for (auto view : swapchainImageViews) {
+    vkDestroyImageView(device, view, allocator);
+  }
+
+  swapchainImageViews.resize(swapchainImageCount);
+  VkImageViewCreateInfo viewInfo{
+      .sType = VK_STRUCTURE_TYPE_IMAGE_VIEW_CREATE_INFO,
+      .viewType = VK_IMAGE_VIEW_TYPE_2D,
+      .format = swapchainColorFormat,
+      .subresourceRange =
+          {
+              .aspectMask =
+                  static_cast<VkImageAspectFlags>(VK_IMAGE_ASPECT_COLOR_BIT),
+              .baseMipLevel = 0,
+              .levelCount = 1,
+              .baseArrayLayer = 0,
+              .layerCount = 1,
+          },
+  };
+
+  for (std::size_t index = 0; auto &view : swapchainImageViews) {
+    viewInfo.image = swapchainImages[index++];
+    VK_VERIFY(vkCreateImageView(device, &viewInfo, allocator, &view));
+  }
+}
+
+void vk::Context::createDevice(VkSurfaceKHR surface, int gpuIndex,
+                               std::vector<const char *> requiredExtensions,
+                               std::vector<const char *> optionalExtensions) {
+  if (device != VK_NULL_HANDLE) {
+    std::abort();
+  }
+
+  auto getVkPhyDevice = [&](unsigned index) {
+    uint32_t count = 0;
+    VK_VERIFY(vkEnumeratePhysicalDevices(instance, &count, nullptr));
+    rx::dieIf(index >= count, "out of physical GPU devices");
+    std::vector<VkPhysicalDevice> devices(count);
+    VK_VERIFY(vkEnumeratePhysicalDevices(instance, &count, devices.data()));
+    return devices[index];
+  };
+
+  physicalDevice = getVkPhyDevice(gpuIndex);
+
+  descriptorBufferProps = {
+      .sType =
+          VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_DESCRIPTOR_BUFFER_PROPERTIES_EXT};
+
+  VkPhysicalDeviceProperties2 deviceProperties{
+      .sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_PROPERTIES_2,
+      .pNext = &descriptorBufferProps};
+  vkGetPhysicalDeviceProperties2(physicalDevice, &deviceProperties);
+  std::printf("VK: Selected physical device is %s\n",
+              deviceProperties.properties.deviceName);
+  vkGetPhysicalDeviceMemoryProperties(physicalDevice,
+                                      &physicalMemoryProperties);
+
+  // VkPhysicalDeviceDescriptorBufferFeaturesEXT descriptorBuffer = {
+  //     .sType =
+  //     VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_DESCRIPTOR_BUFFER_FEATURES_EXT,
+  // };
+
+  VkPhysicalDeviceFragmentShaderBarycentricFeaturesKHR fsBarycentric = {
+      .sType =
+          VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_FRAGMENT_SHADER_BARYCENTRIC_FEATURES_KHR,
+  };
+
+  VkPhysicalDeviceShaderObjectFeaturesEXT shaderObject = {
+      .sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_SHADER_OBJECT_FEATURES_EXT,
+      .pNext = &fsBarycentric,
+  };
+  VkPhysicalDeviceSynchronization2Features synchronization2 = {
+      .sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_SYNCHRONIZATION_2_FEATURES,
+      .pNext = &shaderObject,
+  };
+  VkPhysicalDeviceDynamicRenderingFeatures dynamicRendering = {
+      .sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_DYNAMIC_RENDERING_FEATURES,
+      .pNext = &synchronization2,
+  };
+  VkPhysicalDeviceVulkan12Features phyDevFeatures12{
+      .sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_VULKAN_1_2_FEATURES,
+      .pNext = &dynamicRendering,
+  };
+  VkPhysicalDevice8BitStorageFeatures storage_8bit = {
+      .sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_8BIT_STORAGE_FEATURES,
+      .pNext = &phyDevFeatures12,
+  };
+  VkPhysicalDevice16BitStorageFeatures storage_16bit = {
+      .sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_16BIT_STORAGE_FEATURES,
+      .pNext = &storage_8bit};
+  VkPhysicalDeviceShaderFloat16Int8Features float16_int8 = {
+      .sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_SHADER_FLOAT16_INT8_FEATURES,
+      .pNext = &storage_16bit};
+
+  VkPhysicalDeviceFeatures2 features2 = {
+      .sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_FEATURES_2,
+      .pNext = &float16_int8,
+  };
+  vkGetPhysicalDeviceFeatures2(physicalDevice, &features2);
+
+  supportsBarycentric = fsBarycentric.fragmentShaderBarycentric;
+  supportsInt8 =
+      storage_8bit.uniformAndStorageBuffer8BitAccess && float16_int8.shaderInt8;
+  supportsInt64Atomics = phyDevFeatures12.shaderBufferInt64Atomics;
+
+  rx::dieIf(!storage_16bit.uniformAndStorageBuffer16BitAccess,
+            "16-bit storage is unsupported by this GPU");
+  rx::dieIf(!float16_int8.shaderFloat16,
+            "16-bit float is unsupported by this GPU");
+  rx::dieIf(!phyDevFeatures12.bufferDeviceAddress,
+            "bufferDeviceAddress is unsupported by this GPU");
+  rx::dieIf(!phyDevFeatures12.descriptorIndexing,
+            "descriptorIndexing is unsupported by this GPU");
+  rx::dieIf(!phyDevFeatures12.timelineSemaphore,
+            "timelineSemaphore is unsupported by this GPU");
+
+  rx::dieIf(!synchronization2.synchronization2,
+            "synchronization2 is unsupported by this GPU");
+  rx::dieIf(!dynamicRendering.dynamicRendering,
+            "dynamicRendering is unsupported by this GPU");
+  rx::dieIf(!shaderObject.shaderObject,
+            "shaderObject is unsupported by this GPU");
+
+  std::vector<std::string> supportedExtensions;
+  {
+    uint32_t extCount = 0;
+    vkEnumerateDeviceExtensionProperties(physicalDevice, nullptr, &extCount,
+                                         nullptr);
+    if (extCount > 0) {
+      std::vector<VkExtensionProperties> extensions(extCount);
+      if (vkEnumerateDeviceExtensionProperties(physicalDevice, nullptr,
+                                               &extCount, extensions.data()) ==
+          VK_SUCCESS) {
+
+        supportedExtensions.reserve(extCount);
+
+        for (auto ext : extensions) {
+          supportedExtensions.push_back(ext.extensionName);
+        }
+      }
+    }
+  }
+
+  auto isExtensionSupported = [&](std::string_view extension) {
+    return std::find(supportedExtensions.begin(), supportedExtensions.end(),
+                     extension) != supportedExtensions.end();
+  };
+
+  for (const char *ext : requiredExtensions) {
+    if (!isExtensionSupported(ext)) {
+      std::fprintf(stderr,
+                   "Required device extension '%s' is not supported by GPU\n",
+                   ext);
+      std::abort();
+    }
+  }
+
+  for (auto optExt : optionalExtensions) {
+    if (isExtensionSupported(optExt)) {
+      requiredExtensions.push_back(optExt);
+    }
+  }
+
+  for (auto ext : requiredExtensions) {
+    deviceExtensions.push_back(ext);
+  }
+
+  std::vector<VkQueueFamilyProperties2> queueFamilyProperties;
+
+  {
+    uint32_t queueFamilyCount;
+    vkGetPhysicalDeviceQueueFamilyProperties(physicalDevice, &queueFamilyCount,
+                                             nullptr);
+    if (queueFamilyCount == 0) {
+      std::abort();
+    }
+    queueFamilyProperties.resize(queueFamilyCount);
+    for (auto &property : queueFamilyProperties) {
+      property.sType = VK_STRUCTURE_TYPE_QUEUE_FAMILY_PROPERTIES_2;
+    }
+
+    vkGetPhysicalDeviceQueueFamilyProperties2(physicalDevice, &queueFamilyCount,
+                                              queueFamilyProperties.data());
+  }
+
+  std::set<uint32_t> queueFamiliesWithPresentSupport;
+  std::set<uint32_t> queueFamiliesWithTransferSupport;
+  std::set<uint32_t> queueFamiliesWithComputeSupport;
+  std::set<uint32_t> queueFamiliesWithGraphicsSupport;
+
+  uint32_t queueFamiliesCount = 0;
+  for (auto &familyProperty : queueFamilyProperties) {
+    VkBool32 supportsPresent;
+    if (vkGetPhysicalDeviceSurfaceSupportKHR(physicalDevice, queueFamiliesCount,
+                                             surface,
+                                             &supportsPresent) == VK_SUCCESS &&
+        supportsPresent != 0) {
+      queueFamiliesWithPresentSupport.insert(queueFamiliesCount);
+    }
+
+    if (familyProperty.queueFamilyProperties.queueFlags &
+        VK_QUEUE_SPARSE_BINDING_BIT) {
+      if (familyProperty.queueFamilyProperties.queueFlags &
+          VK_QUEUE_GRAPHICS_BIT) {
+        queueFamiliesWithGraphicsSupport.insert(queueFamiliesCount);
+      }
+
+      if (familyProperty.queueFamilyProperties.queueFlags &
+          VK_QUEUE_COMPUTE_BIT) {
+        queueFamiliesWithComputeSupport.insert(queueFamiliesCount);
+      }
+    }
+
+    if (familyProperty.queueFamilyProperties.queueFlags &
+        VK_QUEUE_TRANSFER_BIT) {
+      queueFamiliesWithTransferSupport.insert(queueFamiliesCount);
+    }
+
+    queueFamiliesCount++;
+  }
+
+  this->surface = surface;
+
+  std::vector<VkDeviceQueueCreateInfo> requestedQueues;
+  std::vector<float> defaultQueuePriorities;
+  defaultQueuePriorities.resize(32);
+
+  for (uint32_t queueFamily = 0; queueFamily < queueFamiliesCount;
+       ++queueFamily) {
+    if (queueFamiliesWithGraphicsSupport.contains(queueFamily)) {
+      requestedQueues.push_back(
+          {.sType = VK_STRUCTURE_TYPE_DEVICE_QUEUE_CREATE_INFO,
+           .queueFamilyIndex = queueFamily,
+           .queueCount =
+               std::min<uint32_t>(queueFamilyProperties[queueFamily]
+                                      .queueFamilyProperties.queueCount,
+                                  defaultQueuePriorities.size()),
+           .pQueuePriorities = defaultQueuePriorities.data()});
+    } else if (queueFamiliesWithComputeSupport.contains(queueFamily) ||
+               queueFamiliesWithTransferSupport.contains(queueFamily)) {
+      requestedQueues.push_back(
+          {.sType = VK_STRUCTURE_TYPE_DEVICE_QUEUE_CREATE_INFO,
+           .queueFamilyIndex = queueFamily,
+           .queueCount =
+               std::min<uint32_t>(queueFamilyProperties[queueFamily]
+                                      .queueFamilyProperties.queueCount,
+                                  defaultQueuePriorities.size()),
+           .pQueuePriorities = defaultQueuePriorities.data()});
+    }
+  }
+
+  VkPhysicalDeviceVulkan11Features phyDevFeatures11{
+      .sType = VK_STRUCTURE_TYPE_PHYSICAL_DEVICE_VULKAN_1_1_FEATURES,
+      .pNext = &phyDevFeatures12,
+      .storageBuffer16BitAccess = VK_TRUE,
+      .uniformAndStorageBuffer16BitAccess = VK_TRUE,
+  };
+
+  VkDeviceCreateInfo deviceCreateInfo{
+      .sType = VK_STRUCTURE_TYPE_DEVICE_CREATE_INFO,
+      .pNext = &phyDevFeatures11,
+      .queueCreateInfoCount = static_cast<uint32_t>(requestedQueues.size()),
+      .pQueueCreateInfos = requestedQueues.data(),
+      .enabledExtensionCount = static_cast<uint32_t>(requiredExtensions.size()),
+      .ppEnabledExtensionNames = requiredExtensions.data(),
+      .pEnabledFeatures = &features2.features,
+  };
+
+  VK_VERIFY(
+      vkCreateDevice(physicalDevice, &deviceCreateInfo, allocator, &device));
+
+  for (auto &queueInfo : requestedQueues) {
+    if (queueFamiliesWithGraphicsSupport.contains(queueInfo.queueFamilyIndex) &&
+        graphicsQueues.empty()) {
+      for (uint32_t queueIndex = 0; queueIndex < queueInfo.queueCount;
+           ++queueIndex) {
+        if (presentQueue == VK_NULL_HANDLE &&
+            queueFamiliesWithPresentSupport.contains(
+                queueInfo.queueFamilyIndex)) {
+          presentQueueFamily = queueInfo.queueFamilyIndex;
+          vkGetDeviceQueue(device, queueInfo.queueFamilyIndex, 0,
+                           &presentQueue);
+
+          continue;
+        }
+
+        auto &[queue, index] = graphicsQueues.emplace_back();
+        index = queueInfo.queueFamilyIndex;
+        vkGetDeviceQueue(device, queueInfo.queueFamilyIndex, queueIndex,
+                         &queue);
+        break;
+      }
+
+      continue;
+    }
+
+    if (queueFamiliesWithComputeSupport.contains(queueInfo.queueFamilyIndex)) {
+      if (!queueFamiliesWithTransferSupport.contains(
+              queueInfo.queueFamilyIndex)) {
+        std::abort();
+      }
+
+      uint32_t queueIndex = 0;
+      for (; queueIndex < queueInfo.queueCount; ++queueIndex) {
+        auto &[queue, index] = computeQueues.emplace_back();
+        index = queueInfo.queueFamilyIndex;
+        vkGetDeviceQueue(device, queueInfo.queueFamilyIndex, queueIndex,
+                         &queue);
+      }
+
+      continue;
+    }
+  }
+
+  if (graphicsQueues.empty() && presentQueue != VK_NULL_HANDLE) {
+    graphicsQueues.push_back({presentQueue, presentQueueFamily});
+  }
+}
+
+vk::Context vk::Context::create(std::vector<const char *> requiredLayers,
+                                std::vector<const char *> optionalLayers,
+                                std::vector<const char *> requiredExtensions,
+                                std::vector<const char *> optionalExtensions) {
+  std::vector<std::string> supportedExtensions;
+
+  {
+    uint32_t count = 0;
+    vkEnumerateInstanceExtensionProperties(nullptr, &count, nullptr);
+
+    if (count > 0) {
+      std::vector<VkExtensionProperties> extensions(count);
+      if (vkEnumerateInstanceExtensionProperties(
+              nullptr, &count, extensions.data()) == VK_SUCCESS) {
+        supportedExtensions.reserve(extensions.size());
+        for (auto &extension : extensions) {
+          supportedExtensions.push_back(extension.extensionName);
+        }
+      }
+    }
+  }
+
+  auto isExtensionSupported = [&](std::string_view name) {
+    return std::find(supportedExtensions.begin(), supportedExtensions.end(),
+                     name) != supportedExtensions.end();
+  };
+
+  std::vector<std::string> supportedLayers;
+
+  {
+    uint32_t count = 0;
+    vkEnumerateInstanceLayerProperties(&count, nullptr);
+
+    if (count > 0) {
+      std::vector<VkLayerProperties> extensions(count);
+      if (vkEnumerateInstanceLayerProperties(&count, extensions.data()) ==
+          VK_SUCCESS) {
+        supportedLayers.reserve(extensions.size());
+        for (auto &layer : extensions) {
+          supportedLayers.push_back(layer.layerName);
+        }
+      }
+    }
+  }
+
+  auto isLayerSupported = [&](std::string_view name) {
+    return std::find(supportedLayers.begin(), supportedLayers.end(), name) !=
+           supportedLayers.end();
+  };
+
+  for (auto extension : requiredExtensions) {
+    if (!isExtensionSupported(extension)) {
+      std::fprintf(stderr, "Required instance extension '%s' is not supported",
+                   extension);
+      std::abort();
+    }
+  }
+
+  for (auto layer : requiredLayers) {
+    if (!isLayerSupported(layer)) {
+      std::fprintf(stderr, "Required instance layer '%s' is not supported",
+                   layer);
+      std::abort();
+    }
+  }
+
+  for (auto extension : optionalExtensions) {
+    if (isExtensionSupported(extension)) {
+      requiredExtensions.push_back(extension);
+    }
+  }
+
+  for (auto layer : optionalLayers) {
+    if (isLayerSupported(layer)) {
+      requiredLayers.push_back(layer);
+    }
+  }
+
+  VkApplicationInfo appInfo = {
+      .sType = VK_STRUCTURE_TYPE_APPLICATION_INFO,
+      .pApplicationName = "RPCSX",
+      .pEngineName = "none",
+      .apiVersion = VK_API_VERSION_1_3,
+  };
+
+  VkInstanceCreateInfo instanceCreateInfo = {};
+  instanceCreateInfo.sType = VK_STRUCTURE_TYPE_INSTANCE_CREATE_INFO;
+  instanceCreateInfo.pApplicationInfo = &appInfo;
+  instanceCreateInfo.enabledExtensionCount = requiredExtensions.size();
+  instanceCreateInfo.ppEnabledExtensionNames = requiredExtensions.data();
+  instanceCreateInfo.ppEnabledLayerNames = requiredLayers.data();
+  instanceCreateInfo.enabledLayerCount = requiredLayers.size();
+
+  Context result;
+  VK_VERIFY(vkCreateInstance(&instanceCreateInfo, nullptr, &result.instance));
+  return result;
+}
+
+std::uint32_t
+vk::Context::findPhysicalMemoryTypeIndex(std::uint32_t typeBits,
+                                         VkMemoryPropertyFlags properties) {
+  typeBits &= (1 << physicalMemoryProperties.memoryTypeCount) - 1;
+
+  while (typeBits != 0) {
+    auto typeIndex = std::countr_zero(typeBits);
+
+    if ((physicalMemoryProperties.memoryTypes[typeIndex].propertyFlags &
+         properties) == properties) {
+      return typeIndex;
+    }
+
+    typeBits &= ~(1 << typeIndex);
+  }
+
+  rx::die("Failed to find memory type with properties %x", properties);
+}
+
+vk::MemoryResource &vk::getHostVisibleMemory() { return g_hostVisibleMemory; }
+vk::MemoryResource &vk::getDeviceLocalMemory() { return g_deviceLocalMemory; }
+
+static auto importVkProc(VkDevice device, const char *name) {
+  auto result = vkGetDeviceProcAddr(device, name);
+  rx::dieIf(result == nullptr,
+            "vkGetDeviceProcAddr: failed to get address of '%s'", name);
+  return result;
+}
+
+VkResult vk::CreateShadersEXT(VkDevice device, uint32_t createInfoCount,
+                              const VkShaderCreateInfoEXT *pCreateInfos,
+                              const VkAllocationCallbacks *pAllocator,
+                              VkShaderEXT *pShaders) {
+  static auto fn = (PFN_vkCreateShadersEXT)importVkProc(context->device,
+                                                        "vkCreateShadersEXT");
+  return fn(device, createInfoCount, pCreateInfos, pAllocator, pShaders);
+}
+
+void vk::DestroyShaderEXT(VkDevice device, VkShaderEXT shader,
+                          const VkAllocationCallbacks *pAllocator) {
+  static auto fn = (PFN_vkDestroyShaderEXT)importVkProc(context->device,
+                                                        "vkDestroyShaderEXT");
+
+  fn(device, shader, pAllocator);
+}
+
+void vk::CmdBindShadersEXT(VkCommandBuffer commandBuffer, uint32_t stageCount,
+                           const VkShaderStageFlagBits *pStages,
+                           const VkShaderEXT *pShaders) {
+  static PFN_vkCmdBindShadersEXT fn = (PFN_vkCmdBindShadersEXT)importVkProc(
+      context->device, "vkCmdBindShadersEXT");
+
+  return fn(commandBuffer, stageCount, pStages, pShaders);
+}
+
+void vk::CmdSetColorBlendEnableEXT(VkCommandBuffer commandBuffer,
+                                   uint32_t firstAttachment,
+                                   uint32_t attachmentCount,
+                                   const VkBool32 *pColorBlendEnables) {
+  static auto fn = (PFN_vkCmdSetColorBlendEnableEXT)importVkProc(
+      context->device, "vkCmdSetColorBlendEnableEXT");
+
+  return fn(commandBuffer, firstAttachment, attachmentCount,
+            pColorBlendEnables);
+}
+void vk::CmdSetColorBlendEquationEXT(
+    VkCommandBuffer commandBuffer, uint32_t firstAttachment,
+    uint32_t attachmentCount,
+    const VkColorBlendEquationEXT *pColorBlendEquations) {
+  static auto fn = (PFN_vkCmdSetColorBlendEquationEXT)importVkProc(
+      context->device, "vkCmdSetColorBlendEquationEXT");
+
+  return fn(commandBuffer, firstAttachment, attachmentCount,
+            pColorBlendEquations);
+}
+
+void vk::CmdSetDepthClampEnableEXT(VkCommandBuffer commandBuffer,
+                                   VkBool32 depthClampEnable) {
+  static auto fn = (PFN_vkCmdSetDepthClampEnableEXT)importVkProc(
+      context->device, "vkCmdSetDepthClampEnableEXT");
+
+  return fn(commandBuffer, depthClampEnable);
+}
+
+void vk::CmdSetLogicOpEXT(VkCommandBuffer commandBuffer, VkLogicOp logicOp) {
+  static auto fn = (PFN_vkCmdSetLogicOpEXT)importVkProc(context->device,
+                                                        "vkCmdSetLogicOpEXT");
+
+  return fn(commandBuffer, logicOp);
+}
+
+void vk::CmdSetPolygonModeEXT(VkCommandBuffer commandBuffer,
+                              VkPolygonMode polygonMode) {
+  static auto fn = (PFN_vkCmdSetPolygonModeEXT)importVkProc(
+      context->device, "vkCmdSetPolygonModeEXT");
+
+  return fn(commandBuffer, polygonMode);
+}
+
+void vk::CmdSetAlphaToOneEnableEXT(VkCommandBuffer commandBuffer,
+                                   VkBool32 alphaToOneEnable) {
+  static auto fn = (PFN_vkCmdSetAlphaToOneEnableEXT)importVkProc(
+      context->device, "vkCmdSetAlphaToOneEnableEXT");
+
+  return fn(commandBuffer, alphaToOneEnable);
+}
+
+void vk::CmdSetLogicOpEnableEXT(VkCommandBuffer commandBuffer,
+                                VkBool32 logicOpEnable) {
+  static auto fn = (PFN_vkCmdSetLogicOpEnableEXT)importVkProc(
+      context->device, "vkCmdSetLogicOpEnableEXT");
+
+  return fn(commandBuffer, logicOpEnable);
+}
+void vk::CmdSetRasterizationSamplesEXT(
+    VkCommandBuffer commandBuffer, VkSampleCountFlagBits rasterizationSamples) {
+  static auto fn = (PFN_vkCmdSetRasterizationSamplesEXT)importVkProc(
+      context->device, "vkCmdSetRasterizationSamplesEXT");
+
+  return fn(commandBuffer, rasterizationSamples);
+}
+void vk::CmdSetSampleMaskEXT(VkCommandBuffer commandBuffer,
+                             VkSampleCountFlagBits samples,
+                             const VkSampleMask *pSampleMask) {
+  static auto fn = (PFN_vkCmdSetSampleMaskEXT)importVkProc(
+      context->device, "vkCmdSetSampleMaskEXT");
+
+  return fn(commandBuffer, samples, pSampleMask);
+}
+void vk::CmdSetTessellationDomainOriginEXT(
+    VkCommandBuffer commandBuffer, VkTessellationDomainOrigin domainOrigin) {
+  static auto fn = (PFN_vkCmdSetTessellationDomainOriginEXT)importVkProc(
+      context->device, "vkCmdSetTessellationDomainOriginEXT");
+
+  return fn(commandBuffer, domainOrigin);
+}
+void vk::CmdSetAlphaToCoverageEnableEXT(VkCommandBuffer commandBuffer,
+                                        VkBool32 alphaToCoverageEnable) {
+  static auto fn = (PFN_vkCmdSetAlphaToCoverageEnableEXT)importVkProc(
+      context->device, "vkCmdSetAlphaToCoverageEnableEXT");
+
+  return fn(commandBuffer, alphaToCoverageEnable);
+}
+void vk::CmdSetVertexInputEXT(
+    VkCommandBuffer commandBuffer, uint32_t vertexBindingDescriptionCount,
+    const VkVertexInputBindingDescription2EXT *pVertexBindingDescriptions,
+    uint32_t vertexAttributeDescriptionCount,
+    const VkVertexInputAttributeDescription2EXT *pVertexAttributeDescriptions) {
+  static auto fn = (PFN_vkCmdSetVertexInputEXT)importVkProc(
+      context->device, "vkCmdSetVertexInputEXT");
+
+  return fn(commandBuffer, vertexBindingDescriptionCount,
+            pVertexBindingDescriptions, vertexAttributeDescriptionCount,
+            pVertexAttributeDescriptions);
+}
+void vk::CmdSetColorWriteMaskEXT(
+    VkCommandBuffer commandBuffer, uint32_t firstAttachment,
+    uint32_t attachmentCount, const VkColorComponentFlags *pColorWriteMasks) {
+  static auto fn = (PFN_vkCmdSetColorWriteMaskEXT)importVkProc(
+      context->device, "vkCmdSetColorWriteMaskEXT");
+
+  return fn(commandBuffer, firstAttachment, attachmentCount, pColorWriteMasks);
+}
+
+void vk::GetDescriptorSetLayoutSizeEXT(VkDevice device,
+                                       VkDescriptorSetLayout layout,
+                                       VkDeviceSize *pLayoutSizeInBytes) {
+  static auto fn = (PFN_vkGetDescriptorSetLayoutSizeEXT)importVkProc(
+      context->device, "vkGetDescriptorSetLayoutSizeEXT");
+
+  return fn(device, layout, pLayoutSizeInBytes);
+}
+
+void vk::GetDescriptorSetLayoutBindingOffsetEXT(VkDevice device,
+                                                VkDescriptorSetLayout layout,
+                                                uint32_t binding,
+                                                VkDeviceSize *pOffset) {
+  static auto fn = (PFN_vkGetDescriptorSetLayoutBindingOffsetEXT)importVkProc(
+      context->device, "vkGetDescriptorSetLayoutBindingOffsetEXT");
+
+  return fn(device, layout, binding, pOffset);
+}
+void vk::GetDescriptorEXT(VkDevice device,
+                          const VkDescriptorGetInfoEXT *pDescriptorInfo,
+                          size_t dataSize, void *pDescriptor) {
+  static auto fn = (PFN_vkGetDescriptorEXT)importVkProc(context->device,
+                                                        "vkGetDescriptorEXT");
+
+  return fn(device, pDescriptorInfo, dataSize, pDescriptor);
+}
+
+void vk::CmdBindDescriptorBuffersEXT(
+    VkCommandBuffer commandBuffer, uint32_t bufferCount,
+    const VkDescriptorBufferBindingInfoEXT *pBindingInfos) {
+  static auto fn = (PFN_vkCmdBindDescriptorBuffersEXT)importVkProc(
+      context->device, "vkCmdBindDescriptorBuffersEXT");
+
+  return fn(commandBuffer, bufferCount, pBindingInfos);
+}
+
+void vk::CmdSetDescriptorBufferOffsetsEXT(VkCommandBuffer commandBuffer,
+                                          VkPipelineBindPoint pipelineBindPoint,
+                                          VkPipelineLayout layout,
+                                          uint32_t firstSet, uint32_t setCount,
+                                          const uint32_t *pBufferIndices,
+                                          const VkDeviceSize *pOffsets) {
+  static auto fn = (PFN_vkCmdSetDescriptorBufferOffsetsEXT)importVkProc(
+      context->device, "vkCmdSetDescriptorBufferOffsetsEXT");
+
+  return fn(commandBuffer, pipelineBindPoint, layout, firstSet, setCount,
+            pBufferIndices, pOffsets);
+}
+
+void vk::CmdBindDescriptorBufferEmbeddedSamplersEXT(
+    VkCommandBuffer commandBuffer, VkPipelineBindPoint pipelineBindPoint,
+    VkPipelineLayout layout, uint32_t set) {
+  static auto fn =
+      (PFN_vkCmdBindDescriptorBufferEmbeddedSamplersEXT)importVkProc(
+          context->device, "vkCmdBindDescriptorBufferEmbeddedSamplersEXT");
+
+  return fn(commandBuffer, pipelineBindPoint, layout, set);
+}
diff --git a/rpcsx-gpu2/main.cpp b/rpcsx-gpu2/main.cpp
new file mode 100644
index 00000000..543a29fe
--- /dev/null
+++ b/rpcsx-gpu2/main.cpp
@@ -0,0 +1,629 @@
+#include "rx/atScopeExit.hpp"
+#include "rx/die.hpp"
+#include <amdgpu/bridge/bridge.hpp>
+#include <chrono>
+#include <fstream>
+#include <iostream>
+#include <rx/MemoryTable.hpp>
+
+#include <shader/gcn.hpp>
+#include <shader/glsl.hpp>
+#include <shader/spv.hpp>
+#include <vulkan/vulkan.h>
+
+#include <csignal>
+#include <cstddef>
+#include <cstdint>
+#include <cstdio>
+#include <cstdlib>
+#include <filesystem>
+#include <span>
+#include <thread>
+#include <unordered_map>
+
+#include <fcntl.h>
+#include <sys/mman.h>
+#include <sys/stat.h>
+#include <unistd.h>
+
+#include <GLFW/glfw3.h>
+#include <gnm/pm4.hpp>
+#include <vulkan/vulkan_core.h>
+
+#include "vk.hpp"
+#include <amdgpu/tiler.hpp>
+#include <shaders/rdna-semantic-spirv.hpp>
+
+#include "Device.hpp"
+
+static void saveImage(const char *name, const void *data, std::uint32_t width,
+                      std::uint32_t height) {
+  std::ofstream file(name, std::ios::out | std::ios::binary);
+
+  file << "P6\n" << width << "\n" << height << "\n" << 255 << "\n";
+
+  auto ptr = (unsigned int *)data;
+  for (uint32_t y = 0; y < height; y++) {
+    for (uint32_t x = 0; x < width; x++) {
+      file.write((char *)ptr++, 3);
+    }
+  }
+}
+
+void transitionImageLayout(VkCommandBuffer commandBuffer, VkImage image,
+                           VkImageLayout oldLayout, VkImageLayout newLayout,
+                           const VkImageSubresourceRange &subresourceRange) {
+  VkImageMemoryBarrier barrier{};
+  barrier.sType = VK_STRUCTURE_TYPE_IMAGE_MEMORY_BARRIER;
+  barrier.oldLayout = oldLayout;
+  barrier.newLayout = newLayout;
+  barrier.srcQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED;
+  barrier.dstQueueFamilyIndex = VK_QUEUE_FAMILY_IGNORED;
+  barrier.image = image;
+  barrier.subresourceRange = subresourceRange;
+
+  auto layoutToStageAccess = [](VkImageLayout layout)
+      -> std::pair<VkPipelineStageFlags, VkAccessFlags> {
+    switch (layout) {
+    case VK_IMAGE_LAYOUT_UNDEFINED:
+    case VK_IMAGE_LAYOUT_PRESENT_SRC_KHR:
+    case VK_IMAGE_LAYOUT_GENERAL:
+      return {VK_PIPELINE_STAGE_TOP_OF_PIPE_BIT, 0};
+
+    case VK_IMAGE_LAYOUT_TRANSFER_DST_OPTIMAL:
+      return {VK_PIPELINE_STAGE_TRANSFER_BIT, VK_ACCESS_TRANSFER_WRITE_BIT};
+
+    case VK_IMAGE_LAYOUT_TRANSFER_SRC_OPTIMAL:
+      return {VK_PIPELINE_STAGE_TRANSFER_BIT, VK_ACCESS_TRANSFER_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_SHADER_READ_ONLY_OPTIMAL:
+      return {VK_PIPELINE_STAGE_FRAGMENT_SHADER_BIT, VK_ACCESS_SHADER_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_DEPTH_STENCIL_ATTACHMENT_OPTIMAL:
+      return {VK_PIPELINE_STAGE_EARLY_FRAGMENT_TESTS_BIT,
+              VK_ACCESS_DEPTH_STENCIL_ATTACHMENT_WRITE_BIT |
+                  VK_ACCESS_DEPTH_STENCIL_ATTACHMENT_READ_BIT};
+
+    case VK_IMAGE_LAYOUT_COLOR_ATTACHMENT_OPTIMAL:
+      return {VK_PIPELINE_STAGE_COLOR_ATTACHMENT_OUTPUT_BIT,
+              VK_ACCESS_COLOR_ATTACHMENT_WRITE_BIT |
+                  VK_ACCESS_COLOR_ATTACHMENT_READ_BIT};
+
+    default:
+      std::abort();
+    }
+  };
+
+  auto [sourceStage, sourceAccess] = layoutToStageAccess(oldLayout);
+  auto [destinationStage, destinationAccess] = layoutToStageAccess(newLayout);
+
+  barrier.srcAccessMask = sourceAccess;
+  barrier.dstAccessMask = destinationAccess;
+
+  vkCmdPipelineBarrier(commandBuffer, sourceStage, destinationStage, 0, 0,
+                       nullptr, 0, nullptr, 1, &barrier);
+}
+
+void transitionImageLayout(VkCommandBuffer commandBuffer, VkImage image,
+                           VkImageAspectFlags aspectFlags,
+                           VkImageLayout oldLayout, VkImageLayout newLayout) {
+  transitionImageLayout(commandBuffer, image, oldLayout, newLayout,
+                        VkImageSubresourceRange{
+                            .aspectMask = aspectFlags,
+                            .levelCount = 1,
+                            .layerCount = 1,
+                        });
+}
+
+static void submit(VkQueue queue, VkCommandBuffer cmdBuffer) {
+  VkSubmitInfo submit{
+      .sType = VK_STRUCTURE_TYPE_SUBMIT_INFO,
+      .commandBufferCount = 1,
+      .pCommandBuffers = &cmdBuffer,
+  };
+
+  VK_VERIFY(vkQueueSubmit(queue, 1, &submit, nullptr));
+  vkQueueWaitIdle(queue);
+}
+
+static void usage(std::FILE *out, const char *argv0) {
+  std::fprintf(out, "usage: %s [options...]\n", argv0);
+  std::fprintf(out, "  options:\n");
+  std::fprintf(out, "  --version, -v - print version\n");
+  std::fprintf(out,
+               "    --cmd-bridge <name> - setup command queue bridge name\n");
+  std::fprintf(out, "    --shm <name> - setup shared memory name\n");
+  std::fprintf(
+      out,
+      "    --gpu <index> - specify physical gpu index to use, default is 0\n");
+  std::fprintf(out,
+               "    --presenter <presenter mode> - set flip engine target\n");
+  std::fprintf(out, "    --validate - enable validation layers\n");
+  std::fprintf(out, "    -h, --help - show this message\n");
+  std::fprintf(out, "\n");
+  std::fprintf(out, "  presenter mode:\n");
+  std::fprintf(out, "     window - create and use native window (default)\n");
+}
+
+int main(int argc, const char *argv[]) {
+  const char *cmdBridgeName = "/rpcsx-gpu-cmds";
+  const char *shmName = "/rpcsx-os-memory";
+
+  unsigned long gpuIndex = 0;
+  // auto presenter = PresenterMode::Window;
+  bool enableValidation = false;
+
+  for (int i = 1; i < argc; ++i) {
+    if (argv[i] == std::string_view("--cmd-bridge")) {
+      if (argc <= i + 1) {
+        usage(stderr, argv[0]);
+        return 1;
+      }
+
+      cmdBridgeName = argv[++i];
+      continue;
+    }
+
+    if (argv[i] == std::string_view("--shm")) {
+      if (argc <= i + 1) {
+        usage(stderr, argv[0]);
+        return 1;
+      }
+      shmName = argv[++i];
+      continue;
+    }
+
+    if (argv[i] == std::string_view("--presenter")) {
+      if (argc <= i + 1) {
+        usage(stderr, argv[0]);
+        return 1;
+      }
+
+      auto presenterText = std::string_view(argv[++i]);
+
+      if (presenterText == "window") {
+        // presenter = PresenterMode::Window;
+      } else {
+        usage(stderr, argv[0]);
+        return 1;
+      }
+      continue;
+    }
+
+    if (argv[i] == std::string_view("--gpu")) {
+      if (argc <= i + 1) {
+        usage(stderr, argv[0]);
+        return 1;
+      }
+
+      char *endPtr = nullptr;
+      gpuIndex = std::strtoul(argv[++i], &endPtr, 10);
+      if (endPtr == nullptr || *endPtr != '\0') {
+        usage(stderr, argv[0]);
+        return 1;
+      }
+
+      continue;
+    }
+
+    if (argv[i] == std::string_view("--validate")) {
+      enableValidation = true;
+      continue;
+    }
+
+    usage(stderr, argv[0]);
+    return 1;
+  }
+
+  auto bridge = amdgpu::bridge::openShmCommandBuffer(cmdBridgeName);
+  if (bridge == nullptr) {
+    bridge = amdgpu::bridge::createShmCommandBuffer(cmdBridgeName);
+  }
+
+  if (bridge->pullerPid > 0 && ::kill(bridge->pullerPid, 0) == 0) {
+    // another instance of rpcsx-gpu on the same bridge, kill self after that
+
+    std::fprintf(stderr, "Another instance already exists\n");
+    return 1;
+  }
+
+  bridge->pullerPid = ::getpid();
+
+  int dmemFd[3];
+
+  for (std::size_t i = 0; i < std::size(dmemFd); ++i) {
+    auto path = "/dev/shm/rpcsx-dmem-" + std::to_string(i);
+    if (!std::filesystem::exists(path)) {
+      std::printf("Waiting for dmem %zu\n", i);
+      while (!std::filesystem::exists(path)) {
+        std::this_thread::sleep_for(std::chrono::milliseconds(300));
+      }
+    }
+
+    dmemFd[i] = ::shm_open(("/rpcsx-dmem-" + std::to_string(i)).c_str(), O_RDWR,
+                           S_IRUSR | S_IWUSR);
+
+    if (dmemFd[i] < 0) {
+      std::printf("failed to open dmem shared memory %zu\n", i);
+      return 1;
+    }
+  }
+
+  glfwInit();
+  glfwWindowHint(GLFW_CLIENT_API, GLFW_NO_API);
+  auto window = glfwCreateWindow(1280, 720, "RPCSX", nullptr, nullptr);
+
+  rx::atScopeExit _{[window] { glfwDestroyWindow(window); }};
+
+  const char **glfwExtensions;
+  uint32_t glfwExtensionCount = 0;
+  glfwExtensions = glfwGetRequiredInstanceExtensions(&glfwExtensionCount);
+
+  std::vector<const char *> requiredExtensions(
+      glfwExtensions, glfwExtensions + glfwExtensionCount);
+
+  std::vector<const char *> optionalLayers;
+
+  if (enableValidation) {
+    optionalLayers.push_back("VK_LAYER_KHRONOS_validation");
+  }
+
+  auto vkContext =
+      vk::Context::create({}, optionalLayers, requiredExtensions, {});
+  vk::context = &vkContext;
+
+  VkSurfaceKHR vkSurface;
+  glfwCreateWindowSurface(vkContext.instance, window, nullptr, &vkSurface);
+
+  vkContext.createDevice(vkSurface, gpuIndex,
+                         {
+                             // VK_EXT_DEPTH_RANGE_UNRESTRICTED_EXTENSION_NAME,
+                             // VK_EXT_DEPTH_CLIP_ENABLE_EXTENSION_NAME,
+                             // VK_EXT_INLINE_UNIFORM_BLOCK_EXTENSION_NAME,
+                             // VK_EXT_DESCRIPTOR_BUFFER_EXTENSION_NAME,
+                             // VK_EXT_EXTERNAL_MEMORY_HOST_EXTENSION_NAME,
+                             // VK_KHR_EXTERNAL_MEMORY_FD_EXTENSION_NAME,
+                             VK_EXT_SEPARATE_STENCIL_USAGE_EXTENSION_NAME,
+                             VK_KHR_SWAPCHAIN_EXTENSION_NAME,
+                             VK_EXT_SHADER_OBJECT_EXTENSION_NAME,
+                             VK_KHR_SYNCHRONIZATION_2_EXTENSION_NAME,
+                             VK_KHR_DYNAMIC_RENDERING_EXTENSION_NAME,
+                             VK_EXT_BUFFER_DEVICE_ADDRESS_EXTENSION_NAME,
+                         },
+                         {VK_KHR_FRAGMENT_SHADER_BARYCENTRIC_EXTENSION_NAME});
+
+  auto getTotalMemorySize = [&](int memoryType) -> VkDeviceSize {
+    auto deviceLocalMemoryType =
+        vkContext.findPhysicalMemoryTypeIndex(~0, memoryType);
+
+    if (deviceLocalMemoryType < 0) {
+      return 0;
+    }
+
+    auto heapIndex =
+        vkContext.physicalMemoryProperties.memoryTypes[deviceLocalMemoryType]
+            .heapIndex;
+
+    return vkContext.physicalMemoryProperties.memoryHeaps[heapIndex].size;
+  };
+
+  auto localMemoryTotalSize =
+      getTotalMemorySize(VK_MEMORY_PROPERTY_DEVICE_LOCAL_BIT);
+  auto hostVisibleMemoryTotalSize =
+      getTotalMemorySize(VK_MEMORY_PROPERTY_HOST_VISIBLE_BIT |
+                         VK_MEMORY_PROPERTY_HOST_COHERENT_BIT);
+
+  vk::getHostVisibleMemory().initHostVisible(
+      std::min(hostVisibleMemoryTotalSize / 2, 1ul * 1024 * 1024 * 1024));
+  vk::getDeviceLocalMemory().initDeviceLocal(std::min(localMemoryTotalSize / 2, 4ul * 1024 * 1024 * 1024));
+
+  auto commandPool =
+      vk::CommandPool::Create(vkContext.presentQueueFamily,
+                              VK_COMMAND_POOL_CREATE_RESET_COMMAND_BUFFER_BIT);
+
+  vkContext.createSwapchain();
+  std::vector<vk::CommandBuffer> presentCmdBuffers(
+      vkContext.swapchainImages.size());
+
+  for (auto &cmdBuffer : presentCmdBuffers) {
+    cmdBuffer = commandPool.createPrimaryBuffer({});
+  }
+
+  amdgpu::bridge::BridgePuller bridgePuller{bridge};
+  amdgpu::bridge::Command commandsBuffer[1];
+
+  amdgpu::Device device;
+  device.bridge = bridge;
+
+  for (int i = 0; i < std::size(device.dmemFd); ++i) {
+    device.dmemFd[i] = dmemFd[i];
+  }
+
+  uint32_t imageIndex = 0;
+  bool isImageAcquired = false;
+  uint32_t gpIndex = -1;
+  GLFWgamepadstate gpState;
+
+  rx::atScopeExit __{[] {
+    vk::getHostVisibleMemory().free();
+    vk::getDeviceLocalMemory().free();
+  }};
+
+  while (!glfwWindowShouldClose(window)) {
+    glfwPollEvents();
+
+    while (true) {
+      bool allProcessed = false;
+
+      for (int i = 0; i < 1000; ++i) {
+        if (device.processPipes()) {
+          allProcessed = true;
+          break;
+        }
+      }
+
+      if (allProcessed) {
+        break;
+      }
+
+      glfwPollEvents();
+
+      if (glfwWindowShouldClose(window)) {
+        break;
+      }
+    }
+
+    std::size_t pulledCount =
+        bridgePuller.pullCommands(commandsBuffer, std::size(commandsBuffer));
+
+    if (gpIndex > GLFW_JOYSTICK_LAST) {
+      for (int i = 0; i <= GLFW_JOYSTICK_LAST; ++i) {
+        if (glfwJoystickIsGamepad(i) == GLFW_TRUE) {
+          std::printf("Gamepad \"%s\" activated", glfwGetGamepadName(i));
+          gpIndex = i;
+          break;
+        }
+      }
+    } else if (gpIndex <= GLFW_JOYSTICK_LAST) {
+      if (!glfwJoystickIsGamepad(gpIndex)) {
+        gpIndex = -1;
+      }
+    }
+
+    if (gpIndex <= GLFW_JOYSTICK_LAST) {
+      if (glfwGetGamepadState(gpIndex, &gpState) == GLFW_TRUE) {
+        bridge->kbPadState.leftStickX =
+            gpState.axes[GLFW_GAMEPAD_AXIS_LEFT_X] * 127.5f + 127.5f;
+        bridge->kbPadState.leftStickY =
+            gpState.axes[GLFW_GAMEPAD_AXIS_LEFT_Y] * 127.5f + 127.5f;
+        bridge->kbPadState.rightStickX =
+            gpState.axes[GLFW_GAMEPAD_AXIS_RIGHT_X] * 127.5f + 127.5f;
+        bridge->kbPadState.rightStickY =
+            gpState.axes[GLFW_GAMEPAD_AXIS_RIGHT_Y] * 127.5f + 127.5f;
+        bridge->kbPadState.l2 =
+            (gpState.axes[GLFW_GAMEPAD_AXIS_LEFT_TRIGGER] + 1.0f) * 127.5f;
+        bridge->kbPadState.r2 =
+            (gpState.axes[GLFW_GAMEPAD_AXIS_RIGHT_TRIGGER] + 1.0f) * 127.5f;
+        bridge->kbPadState.buttons = 0;
+
+        if (bridge->kbPadState.l2 == 0xFF) {
+          bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnL2;
+        }
+
+        if (bridge->kbPadState.r2 == 0xFF) {
+          bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnR2;
+        }
+
+        static const uint32_t gpmap[GLFW_GAMEPAD_BUTTON_LAST + 1] = {
+            [GLFW_GAMEPAD_BUTTON_A] = amdgpu::bridge::kPadBtnCross,
+            [GLFW_GAMEPAD_BUTTON_B] = amdgpu::bridge::kPadBtnCircle,
+            [GLFW_GAMEPAD_BUTTON_X] = amdgpu::bridge::kPadBtnSquare,
+            [GLFW_GAMEPAD_BUTTON_Y] = amdgpu::bridge::kPadBtnTriangle,
+            [GLFW_GAMEPAD_BUTTON_LEFT_BUMPER] = amdgpu::bridge::kPadBtnL1,
+            [GLFW_GAMEPAD_BUTTON_RIGHT_BUMPER] = amdgpu::bridge::kPadBtnR1,
+            [GLFW_GAMEPAD_BUTTON_BACK] = 0,
+            [GLFW_GAMEPAD_BUTTON_START] = amdgpu::bridge::kPadBtnOptions,
+            [GLFW_GAMEPAD_BUTTON_GUIDE] = 0,
+            [GLFW_GAMEPAD_BUTTON_LEFT_THUMB] = amdgpu::bridge::kPadBtnL3,
+            [GLFW_GAMEPAD_BUTTON_RIGHT_THUMB] = amdgpu::bridge::kPadBtnR3,
+            [GLFW_GAMEPAD_BUTTON_DPAD_UP] = amdgpu::bridge::kPadBtnUp,
+            [GLFW_GAMEPAD_BUTTON_DPAD_RIGHT] = amdgpu::bridge::kPadBtnRight,
+            [GLFW_GAMEPAD_BUTTON_DPAD_DOWN] = amdgpu::bridge::kPadBtnDown,
+            [GLFW_GAMEPAD_BUTTON_DPAD_LEFT] = amdgpu::bridge::kPadBtnLeft};
+
+        for (int i = 0; i <= GLFW_GAMEPAD_BUTTON_LAST; ++i) {
+          if (gpState.buttons[i] == GLFW_PRESS) {
+            bridge->kbPadState.buttons |= gpmap[i];
+          }
+        }
+      }
+    } else {
+      bridge->kbPadState.leftStickX = 0x80;
+      bridge->kbPadState.leftStickY = 0x80;
+      bridge->kbPadState.rightStickX = 0x80;
+      bridge->kbPadState.rightStickY = 0x80;
+      bridge->kbPadState.buttons = 0;
+
+      if (glfwGetKey(window, GLFW_KEY_A) == GLFW_PRESS) {
+        bridge->kbPadState.leftStickX = 0;
+      } else if (glfwGetKey(window, GLFW_KEY_D) == GLFW_PRESS) {
+        bridge->kbPadState.leftStickX = 0xff;
+      }
+      if (glfwGetKey(window, GLFW_KEY_W) == GLFW_PRESS) {
+        bridge->kbPadState.leftStickY = 0;
+      } else if (glfwGetKey(window, GLFW_KEY_S) == GLFW_PRESS) {
+        bridge->kbPadState.leftStickY = 0xff;
+      }
+
+      if (glfwGetKey(window, GLFW_KEY_O) == GLFW_PRESS) {
+        bridge->kbPadState.rightStickX = 0;
+      } else if (glfwGetKey(window, GLFW_KEY_L) == GLFW_PRESS) {
+        bridge->kbPadState.rightStickX = 0xff;
+      }
+      if (glfwGetKey(window, GLFW_KEY_K) == GLFW_PRESS) {
+        bridge->kbPadState.rightStickY = 0;
+      } else if (glfwGetKey(window, GLFW_KEY_SEMICOLON) == GLFW_PRESS) {
+        bridge->kbPadState.rightStickY = 0xff;
+      }
+
+      if (glfwGetKey(window, GLFW_KEY_UP) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnUp;
+      }
+      if (glfwGetKey(window, GLFW_KEY_DOWN) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnDown;
+      }
+      if (glfwGetKey(window, GLFW_KEY_LEFT) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnLeft;
+      }
+      if (glfwGetKey(window, GLFW_KEY_RIGHT) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnRight;
+      }
+      if (glfwGetKey(window, GLFW_KEY_Z) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnSquare;
+      }
+      if (glfwGetKey(window, GLFW_KEY_X) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnCross;
+      }
+      if (glfwGetKey(window, GLFW_KEY_C) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnCircle;
+      }
+      if (glfwGetKey(window, GLFW_KEY_V) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnTriangle;
+      }
+
+      if (glfwGetKey(window, GLFW_KEY_Q) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnL1;
+      }
+      if (glfwGetKey(window, GLFW_KEY_E) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnL2;
+        bridge->kbPadState.l2 = 0xff;
+      }
+      if (glfwGetKey(window, GLFW_KEY_F) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnL3;
+      }
+      if (glfwGetKey(window, GLFW_KEY_ESCAPE) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnPs;
+      }
+      if (glfwGetKey(window, GLFW_KEY_I) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnR1;
+      }
+      if (glfwGetKey(window, GLFW_KEY_P) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnR2;
+        bridge->kbPadState.r2 = 0xff;
+      }
+      if (glfwGetKey(window, GLFW_KEY_APOSTROPHE) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnR3;
+      }
+
+      if (glfwGetKey(window, GLFW_KEY_ENTER) == GLFW_PRESS) {
+        bridge->kbPadState.buttons |= amdgpu::bridge::kPadBtnOptions;
+      }
+    }
+
+    bridge->kbPadState.timestamp =
+        std::chrono::high_resolution_clock::now().time_since_epoch().count();
+
+    if (pulledCount == 0) {
+      std::this_thread::sleep_for(std::chrono::microseconds(1));
+      continue;
+    }
+
+    for (auto cmd : std::span(commandsBuffer, pulledCount)) {
+      switch (cmd.id) {
+      case amdgpu::bridge::CommandId::ProtectMemory: {
+        device.protectMemory(cmd.memoryProt.pid, cmd.memoryProt.address,
+                             cmd.memoryProt.size, cmd.memoryProt.prot);
+        break;
+      }
+      case amdgpu::bridge::CommandId::CommandBuffer: {
+        device.onCommandBuffer(cmd.commandBuffer.pid, cmd.commandBuffer.queue,
+                               cmd.commandBuffer.address,
+                               cmd.commandBuffer.size);
+
+        break;
+      }
+
+      case amdgpu::bridge::CommandId::Flip: {
+        if (!isImageAcquired) {
+          vkWaitForFences(vkContext.device, 1,
+                          &vkContext.inFlightFences[imageIndex], VK_TRUE,
+                          UINT64_MAX);
+
+          while (true) {
+            auto acquireNextImageResult = vkAcquireNextImageKHR(
+                vkContext.device, vkContext.swapchain, UINT64_MAX,
+                vkContext.presentCompleteSemaphore, nullptr, &imageIndex);
+            if (acquireNextImageResult == VK_ERROR_OUT_OF_DATE_KHR) {
+              vkContext.recreateSwapchain();
+              continue;
+            }
+
+            VK_VERIFY(acquireNextImageResult);
+            break;
+          }
+
+          vkResetFences(vkContext.device, 1,
+                        &vkContext.inFlightFences[imageIndex]);
+        }
+
+        vkResetCommandBuffer(presentCmdBuffers[imageIndex], 0);
+
+        if (!device.flip(cmd.flip.pid, cmd.flip.bufferIndex, cmd.flip.arg,
+                         presentCmdBuffers[imageIndex],
+                         vkContext.swapchainImages[imageIndex],
+                         vkContext.swapchainImageViews[imageIndex],
+                         vkContext.inFlightFences[imageIndex])) {
+          isImageAcquired = true;
+          break;
+        }
+
+        VkPresentInfoKHR presentInfo{
+            .sType = VK_STRUCTURE_TYPE_PRESENT_INFO_KHR,
+            .waitSemaphoreCount = 1,
+            .pWaitSemaphores = &vkContext.renderCompleteSemaphore,
+            .swapchainCount = 1,
+            .pSwapchains = &vkContext.swapchain,
+            .pImageIndices = &imageIndex,
+        };
+
+        auto vkQueuePresentResult =
+            vkQueuePresentKHR(vkContext.presentQueue, &presentInfo);
+
+        if (vkQueuePresentResult == VK_ERROR_OUT_OF_DATE_KHR) {
+          vkContext.recreateSwapchain();
+        } else {
+          VK_VERIFY(vkQueuePresentResult);
+        }
+        break;
+      }
+
+      case amdgpu::bridge::CommandId::MapProcess:
+        device.mapProcess(cmd.mapProcess.pid, cmd.mapProcess.vmId, shmName);
+        break;
+
+      case amdgpu::bridge::CommandId::UnmapProcess:
+        device.unmapProcess(cmd.mapProcess.pid);
+        break;
+
+      case amdgpu::bridge::CommandId::MapMemory:
+        device.mapMemory(cmd.mapMemory.pid, cmd.mapMemory.address,
+                         cmd.mapMemory.size, cmd.mapMemory.memoryType,
+                         cmd.mapMemory.dmemIndex, cmd.mapMemory.prot,
+                         cmd.mapMemory.offset);
+        break;
+
+      case amdgpu::bridge::CommandId::RegisterBuffer:
+        device.registerBuffer(cmd.buffer.pid, cmd.buffer);
+        break;
+
+      case amdgpu::bridge::CommandId::RegisterBufferAttribute:
+        device.registerBufferAttribute(cmd.bufferAttribute.pid,
+                                       cmd.bufferAttribute);
+        break;
+
+      default:
+        rx::die("Unexpected command id %u\n", (unsigned)cmd.id);
+      }
+    }
+  }
+}
diff --git a/rpcsx-gpu2/shaders/fill_red.frag.glsl b/rpcsx-gpu2/shaders/fill_red.frag.glsl
new file mode 100644
index 00000000..b34ed63f
--- /dev/null
+++ b/rpcsx-gpu2/shaders/fill_red.frag.glsl
@@ -0,0 +1,8 @@
+#version 450
+
+layout(location = 0) out vec4 result;
+
+void main()
+{
+  result = vec4(1, 0, 0, 1);
+}
diff --git a/rpcsx-gpu2/shaders/flip.frag.glsl b/rpcsx-gpu2/shaders/flip.frag.glsl
new file mode 100644
index 00000000..3670b384
--- /dev/null
+++ b/rpcsx-gpu2/shaders/flip.frag.glsl
@@ -0,0 +1,11 @@
+#version 450
+
+layout(location = 0) in vec2 coord;
+layout(location = 0) out vec4 color;
+layout(set = 0, binding = 1) uniform sampler samp[];
+layout(set = 0, binding = 3) uniform texture2D tex[];
+
+void main()
+{
+  color = vec4(texture(sampler2D(tex[0], samp[0]), coord.xy).xyz, 1);
+}
diff --git a/rpcsx-gpu2/shaders/flip.vert.glsl b/rpcsx-gpu2/shaders/flip.vert.glsl
new file mode 100644
index 00000000..6d045149
--- /dev/null
+++ b/rpcsx-gpu2/shaders/flip.vert.glsl
@@ -0,0 +1,15 @@
+#version 450
+
+layout(location = 0) out vec2 coord;
+
+
+void main()
+{
+  float x = float(((gl_VertexIndex + 2) / 3) & 1) * 2 - 1; 
+  float y = float(((gl_VertexIndex + 1) / 3) & 1) * 2 - 1; 
+
+  gl_Position = vec4(x, y, 0, 1);
+
+  coord.x = x < 0 ? 0 : 1;
+  coord.y = y < 0 ? 0 : 1;
+}
diff --git a/rpcsx-gpu2/shaders/rect_list.geom.glsl b/rpcsx-gpu2/shaders/rect_list.geom.glsl
new file mode 100644
index 00000000..79e9fdf7
--- /dev/null
+++ b/rpcsx-gpu2/shaders/rect_list.geom.glsl
@@ -0,0 +1,39 @@
+#version 450
+
+layout (triangles, invocations = 1) in;
+layout (triangle_strip, max_vertices = 4) out;
+
+void main(void)
+{
+  vec4 topLeft = gl_in[0].gl_Position;
+  vec4 right = gl_in[1].gl_Position;
+  vec4 bottomLeft = gl_in[2].gl_Position;
+
+  vec4 topRight = vec4(
+      right.x,
+      topLeft.y,
+      topLeft.z,
+      topLeft.w
+  );
+
+  vec4 bottomRight = vec4(
+      right.x,
+      bottomLeft.y,
+      topLeft.z,
+      topLeft.w
+  );
+
+  gl_Position = topLeft;
+  EmitVertex();
+
+  gl_Position = bottomLeft;
+  EmitVertex();
+
+  gl_Position = topRight;
+  EmitVertex();
+
+  gl_Position = bottomRight;
+  EmitVertex();
+
+  EndPrimitive();
+}
diff --git a/rx/include/rx/FunctionRef.hpp b/rx/include/rx/FunctionRef.hpp
new file mode 100644
index 00000000..c6c41ce8
--- /dev/null
+++ b/rx/include/rx/FunctionRef.hpp
@@ -0,0 +1,37 @@
+#pragma once
+
+#include <compare>
+#include <utility>
+
+namespace rx {
+template <typename> class FunctionRef;
+template <typename RT, typename... ArgsT> class FunctionRef<RT(ArgsT...)> {
+  void *context = nullptr;
+  RT (*invoke)(void *, ArgsT...) = nullptr;
+
+public:
+  constexpr FunctionRef() = default;
+
+  template <typename T>
+  constexpr FunctionRef(T &&object)
+    requires requires(ArgsT... args) { RT(object(args...)); }
+      : context(
+            const_cast<std::remove_const_t<std::remove_cvref_t<T>> *>(&object)),
+        invoke(+[](void *context, ArgsT... args) -> RT {
+          return (*reinterpret_cast<T *>(context))(std::move(args)...);
+        }) {}
+
+  template <typename... InvokeArgsT>
+  constexpr RT operator()(InvokeArgsT &&...args) const
+    requires requires(void *context) {
+      invoke(context, std::forward<InvokeArgsT>(args)...);
+    }
+  {
+    return invoke(context, std::forward<InvokeArgsT>(args)...);
+  }
+
+  constexpr explicit operator bool() const { return invoke != nullptr; }
+  constexpr bool operator==(std::nullptr_t) const { return invoke == nullptr; }
+  constexpr auto operator<=>(const FunctionRef &) const = default;
+};
+} // namespace rx
diff --git a/rx/include/rx/TypeId.hpp b/rx/include/rx/TypeId.hpp
new file mode 100644
index 00000000..1943493e
--- /dev/null
+++ b/rx/include/rx/TypeId.hpp
@@ -0,0 +1,41 @@
+#pragma once
+
+#include <compare>
+#include <cstddef>
+#include <functional>
+
+namespace rx {
+namespace detail {
+template <typename> char mRawTypeId = 0;
+template <typename T> constexpr const void *getTypeIdImpl() {
+  return &mRawTypeId<T>;
+}
+} // namespace detail
+
+class TypeId {
+  const void *mId = detail::getTypeIdImpl<void>();
+
+public:
+  constexpr const void *getOpaque() const { return mId; }
+
+  constexpr static TypeId createFromOpaque(const void *id) {
+    TypeId result;
+    result.mId = id;
+    return result;
+  }
+
+  template <typename T> constexpr static TypeId get() {
+    return createFromOpaque(detail::getTypeIdImpl<T>());
+  }
+
+  constexpr auto operator<=>(const TypeId &other) const = default;
+};
+} // namespace rx
+
+namespace std {
+template <> struct hash<rx::TypeId> {
+  constexpr std::size_t operator()(const rx::TypeId &id) const noexcept {
+    return std::hash<const void *>{}(id.getOpaque());
+  }
+};
+} // namespace std
diff --git a/rx/include/rx/bits.hpp b/rx/include/rx/bits.hpp
new file mode 100644
index 00000000..c2762efd
--- /dev/null
+++ b/rx/include/rx/bits.hpp
@@ -0,0 +1,12 @@
+#pragma once
+
+namespace rx {
+template <typename T>
+inline constexpr T getBits(T value, unsigned end, unsigned begin) {
+  return (value >> begin) & ((1ull << (end - begin + 1)) - 1);
+}
+
+template <typename T> inline constexpr T getBit(T value, unsigned bit) {
+  return (value >> bit) & 1;
+}
+} // namespace rx
diff --git a/tools/CMakeLists.txt b/tools/CMakeLists.txt
index 941fcdd5..50a403c6 100644
--- a/tools/CMakeLists.txt
+++ b/tools/CMakeLists.txt
@@ -1 +1,2 @@
+add_subdirectory(shader-tool)
 add_subdirectory(spv-gen)
diff --git a/tools/shader-tool/CMakeLists.txt b/tools/shader-tool/CMakeLists.txt
new file mode 100644
index 00000000..e4c11ad7
--- /dev/null
+++ b/tools/shader-tool/CMakeLists.txt
@@ -0,0 +1,8 @@
+add_executable(shader-tool shader-tool.cpp)
+target_link_libraries(shader-tool PUBLIC gcn-shader rx)
+
+add_executable(gcn-shader-tool shader-tool.cpp)
+target_link_libraries(gcn-shader-tool PUBLIC gcn-shader rx rdna-semantic-spirv)
+target_compile_definitions(gcn-shader-tool PUBLIC GCN)
+install(TARGETS gcn-shader-tool RUNTIME DESTINATION bin)
+set_target_properties(gcn-shader-tool PROPERTIES RUNTIME_OUTPUT_DIRECTORY ${CMAKE_BINARY_DIR}/bin)
diff --git a/tools/shader-tool/shader-tool.cpp b/tools/shader-tool/shader-tool.cpp
new file mode 100644
index 00000000..1b5c0471
--- /dev/null
+++ b/tools/shader-tool/shader-tool.cpp
@@ -0,0 +1,620 @@
+
+#include <cstddef>
+#include <cstdio>
+#include <filesystem>
+#include <fstream>
+#include <iostream>
+#include <optional>
+#include <ostream>
+#include <rx/Version.hpp>
+#include <shader/dialect.hpp>
+#include <shader/glsl.hpp>
+#include <shader/ir.hpp>
+#include <shader/spv.hpp>
+#include <string_view>
+#include <vector>
+
+#ifdef GCN
+#include <shader/GcnConverter.hpp>
+#include <shader/gcn.hpp>
+#include <shaders/rdna-semantic-spirv.hpp>
+#endif
+
+enum class OutputType {
+  SpirvBinary,
+  SpirvHeader,
+  SpirvAssembly,
+  Glsl,
+  Ir,
+};
+
+enum class InputType {
+  Glsl,
+  SpirvBinary,
+  Sb,
+  Isa,
+};
+
+static std::optional<shader::glsl::Stage>
+parseGlslStage(std::string_view stage) {
+  if (stage == "library") {
+    return shader::glsl::Stage::Library;
+  }
+  if (stage == "vertex") {
+    return shader::glsl::Stage::Vertex;
+  }
+  if (stage == "tess-control") {
+    return shader::glsl::Stage::TessControl;
+  }
+  if (stage == "tess-evaluation") {
+    return shader::glsl::Stage::TessEvaluation;
+  }
+  if (stage == "geometry") {
+    return shader::glsl::Stage::Geometry;
+  }
+  if (stage == "fragment") {
+    return shader::glsl::Stage::Fragment;
+  }
+  if (stage == "compute") {
+    return shader::glsl::Stage::Compute;
+  }
+  if (stage == "ray-gen") {
+    return shader::glsl::Stage::RayGen;
+  }
+  if (stage == "intersect") {
+    return shader::glsl::Stage::Intersect;
+  }
+  if (stage == "any-hit") {
+    return shader::glsl::Stage::AnyHit;
+  }
+  if (stage == "closest-hit") {
+    return shader::glsl::Stage::ClosestHit;
+  }
+  if (stage == "miss") {
+    return shader::glsl::Stage::Miss;
+  }
+  if (stage == "callable") {
+    return shader::glsl::Stage::Callable;
+  }
+  if (stage == "task") {
+    return shader::glsl::Stage::Task;
+  }
+  if (stage == "mesh") {
+    return shader::glsl::Stage::Mesh;
+  }
+
+  return {};
+}
+
+static std::optional<InputType> parseInputType(std::string_view type) {
+  if (type == "glsl") {
+    return InputType::Glsl;
+  }
+  if (type == "spirv-bin") {
+    return InputType::SpirvBinary;
+  }
+  if (type == "sb") {
+    return InputType::Sb;
+  }
+  if (type == "isa") {
+    return InputType::Isa;
+  }
+  return {};
+}
+
+static std::optional<OutputType> parseOutputType(std::string_view type) {
+  if (type == "glsl") {
+    return OutputType::Glsl;
+  }
+  if (type == "spirv-bin") {
+    return OutputType::SpirvBinary;
+  }
+  if (type == "spirv-header") {
+    return OutputType::SpirvHeader;
+  }
+  if (type == "spirv-asm") {
+    return OutputType::SpirvAssembly;
+  }
+  if (type == "ir") {
+    return OutputType::Ir;
+  }
+  return {};
+}
+
+#ifdef GCN
+static std::optional<shader::gcn::Stage> parseGcnStage(std::string_view stage) {
+  if (stage == "ps") {
+    return shader::gcn::Stage::Ps;
+  }
+  if (stage == "vs-vs") {
+    return shader::gcn::Stage::VsVs;
+  }
+  if (stage == "vs-es") {
+    return shader::gcn::Stage::VsEs;
+  }
+  if (stage == "vs-ls") {
+    return shader::gcn::Stage::VsLs;
+  }
+  if (stage == "cs") {
+    return shader::gcn::Stage::Cs;
+  }
+  if (stage == "gs") {
+    return shader::gcn::Stage::Gs;
+  }
+  if (stage == "gs-vs") {
+    return shader::gcn::Stage::GsVs;
+  }
+  if (stage == "hs") {
+    return shader::gcn::Stage::Hs;
+  }
+  if (stage == "ds-vs") {
+    return shader::gcn::Stage::DsVs;
+  }
+  if (stage == "ds-es") {
+    return shader::gcn::Stage::DsEs;
+  }
+
+  return {};
+}
+#endif
+
+struct InputParam {
+  std::optional<InputType> type;
+  std::optional<shader::glsl::Stage> glslStage;
+  bool validate = false;
+
+#ifdef GCN
+  std::string semanticPath;
+  std::optional<shader::gcn::Stage> gcnStage;
+#endif
+};
+
+struct OutputParam {
+  std::string varName;
+  std::optional<OutputType> type;
+  bool validate = false;
+  int optLevel = 0;
+};
+
+static std::optional<std::vector<std::byte>>
+readFile(const std::filesystem::path &path) {
+  std::ifstream f(path, std::ios::binary | std::ios::ate);
+
+  if (!f) {
+    return {};
+  }
+
+  std::vector<std::byte> data(f.tellg());
+  f.seekg(0, std::ios::beg);
+  f.read(reinterpret_cast<char *>(data.data()), data.size());
+  return data;
+}
+
+static void writeSpvHeader(OutputParam &outputParam, std::ostream &out,
+                           std::span<const std::uint32_t> spv) {
+  out << "#pragma once\n"
+      << "#include <cstdint>\n\n"
+      << "static const std::uint32_t " << outputParam.varName << "[] = {";
+
+  for (auto word : spv) {
+    out << "0x" << std::hex << word << ", ";
+  }
+
+  out << "};\n";
+}
+
+static bool writeOutput(OutputParam &outputParam, std::ostream &out,
+                        shader::ir::Region region) {
+  switch (*outputParam.type) {
+  case OutputType::SpirvBinary:
+  case OutputType::SpirvHeader:
+  case OutputType::SpirvAssembly:
+  case OutputType::Glsl: {
+    auto spv = shader::spv::serialize(region);
+
+    if (outputParam.validate) {
+      if (!shader::spv::validate(spv)) {
+        return false;
+      }
+    }
+
+    if (outputParam.optLevel >= 3) {
+      if (auto opt = shader::spv::optimize(spv)) {
+        spv = *opt;
+      }
+    }
+
+    if (outputParam.type == OutputType::SpirvBinary) {
+      out.write(reinterpret_cast<const char *>(spv.data()),
+                spv.size() * sizeof(spv[0]));
+    } else if (outputParam.type == OutputType::SpirvHeader) {
+      writeSpvHeader(outputParam, out, spv);
+    } else if (outputParam.type == OutputType::SpirvAssembly) {
+      out << shader::spv::disassembly(spv);
+    } else if (outputParam.type == OutputType::Glsl) {
+      out << shader::glsl::decompile(spv);
+    } else {
+      return false;
+    }
+
+    return true;
+  }
+
+  case OutputType::Ir: {
+    shader::ir::NameStorage ns;
+    region.print(out, ns);
+    return true;
+  }
+  }
+
+  return false;
+}
+
+#ifdef GCN
+static shader::ir::Region parseIsa(shader::ir::Context &context,
+                                   InputParam &inputParam,
+                                   OutputParam &outputParam,
+                                   shader::ir::Location loc,
+                                   std::span<const std::byte> bytes) {
+  shader::gcn::Context semanticContext;
+  shader::spv::BinaryLayout semanticLayout;
+
+  if (!inputParam.gcnStage) {
+    inputParam.gcnStage = shader::gcn::Stage::Cs;
+  }
+
+  if (!inputParam.semanticPath.empty()) {
+    if (auto result = shader::glsl::parseFile(
+            semanticContext, *inputParam.glslStage, inputParam.semanticPath)) {
+      semanticLayout = *result;
+    } else {
+      std::fprintf(stderr, "Failed to parse semantic '%s'\n",
+                   inputParam.semanticPath.c_str());
+      return {};
+    }
+  } else {
+    if (auto result = shader::spv::deserialize(semanticContext,
+                                               g_rdna_semantic_spirv, loc)) {
+      semanticLayout = *result;
+    } else {
+      std::fprintf(stderr, "Failed to parse builtin semantic\n");
+      return {};
+    }
+  }
+
+  shader::gcn::canonicalizeSemantic(semanticContext, semanticLayout);
+  shader::gcn::SemanticModuleInfo gcnSemanticModuleInfo;
+  shader::gcn::collectSemanticModuleInfo(gcnSemanticModuleInfo, semanticLayout);
+  auto gcnSemanticInfo =
+      shader::gcn::collectSemanticInfo(gcnSemanticModuleInfo);
+
+  shader::gcn::Context isaContext;
+  shader::gcn::Environment env;
+  auto ir = shader::gcn::deserialize(
+      isaContext, env, gcnSemanticInfo, 0,
+      [&](std::uint64_t address) -> std::uint32_t {
+        return *reinterpret_cast<const std::uint32_t *>(bytes.data() + address);
+      });
+
+  if (outputParam.type == OutputType::Ir) {
+    return ir;
+  }
+
+  if (auto converted = shader::gcn::convertToSpv(
+          isaContext, ir, gcnSemanticModuleInfo, *inputParam.gcnStage, env)) {
+    if (auto result = shader::spv::deserialize(context, converted->spv, loc)) {
+      return result->merge(context);
+    }
+  }
+  return {};
+}
+
+static shader::ir::Region parseSb(shader::ir::Context &context,
+                                  InputParam &inputParam,
+                                  OutputParam &outputParam,
+                                  shader::ir::Location loc,
+                                  std::span<std::byte> bytes) {
+  auto headerSize = static_cast<std::uint32_t>(bytes[45]) * 4;
+  auto instOffset = 52 + headerSize;
+  if (!inputParam.gcnStage) {
+    inputParam.gcnStage =
+        static_cast<shader::gcn::Stage>(unsigned(bytes[8] >> 2) & 0xf);
+  }
+
+  return parseIsa(context, inputParam, outputParam, loc,
+                  bytes.subspan(instOffset));
+}
+#endif
+
+static std::optional<shader::ir::Region>
+parseFile(shader::ir::Context &context, InputParam &inputParam,
+          OutputParam &outputParam, const std::filesystem::path &path) {
+
+  if (!inputParam.type) {
+    auto ext = path.extension();
+    if (ext == ".glsl") {
+      inputParam.type = InputType::Glsl;
+    } else if (ext == ".spirv" || ext == ".spv") {
+      inputParam.type = InputType::SpirvBinary;
+    } else if (ext == ".sb") {
+      inputParam.type = InputType::Sb;
+    } else {
+      return {};
+    }
+  }
+
+  if (inputParam.type == InputType::Glsl) {
+    if (!inputParam.glslStage) {
+      auto stageText =
+          std::filesystem::path(path).replace_extension().extension();
+      if (stageText == ".vert") {
+        inputParam.glslStage = shader::glsl::Stage::Vertex;
+      } else if (stageText == ".comp") {
+        inputParam.glslStage = shader::glsl::Stage::Compute;
+      } else if (stageText == ".frag") {
+        inputParam.glslStage = shader::glsl::Stage::Fragment;
+      } else if (stageText == ".geom") {
+        inputParam.glslStage = shader::glsl::Stage::Geometry;
+      } else {
+        inputParam.glslStage = shader::glsl::Stage::Library;
+      }
+    }
+
+    if (auto result =
+            shader::glsl::parseFile(context, *inputParam.glslStage, path)) {
+      return result->merge(context);
+    }
+
+    return {};
+  }
+
+  if (inputParam.type == InputType::SpirvBinary) {
+    auto optFileContent = readFile(path);
+    if (!optFileContent.has_value()) {
+      return {};
+    }
+    auto fileContent = std::move(*optFileContent);
+    auto data =
+        std::span{reinterpret_cast<const std::uint32_t *>(fileContent.data()),
+                  fileContent.size() / sizeof(std::uint32_t)};
+    auto loc = context.getPathLocation(path.string());
+    if (auto result = shader::spv::deserialize(context, data, loc)) {
+      return result->merge(context);
+    }
+  }
+
+#ifdef GCN
+  if (inputParam.type == InputType::Sb) {
+    auto loc = context.getPathLocation(path.string());
+    auto optFileContent = readFile(path);
+    if (!optFileContent.has_value()) {
+      return {};
+    }
+    auto fileContent = std::move(*optFileContent);
+    return parseSb(context, inputParam, outputParam, loc, fileContent);
+  }
+
+  if (inputParam.type == InputType::Isa) {
+    auto loc = context.getPathLocation(path.string());
+    auto optFileContent = readFile(path);
+    if (!optFileContent.has_value()) {
+      return {};
+    }
+    auto fileContent = std::move(*optFileContent);
+    return parseIsa(context, inputParam, outputParam, loc, fileContent);
+  }
+#endif
+
+  return {};
+}
+
+void usage(std::FILE *out, const char *argv0) {
+  std::fprintf(out, "usage: %s [options] -i <input file> [-o <output file>]\n",
+               argv0);
+  std::fprintf(out, "\n");
+  std::fprintf(out, "  options:\n");
+
+#ifdef GCN
+  std::fprintf(out, "    --input-type <glsl|spirv-bin|sb|isa>\n");
+  std::fprintf(out, "    --semantic <semantic file>\n");
+  std::fprintf(out, "    --input-isa-stage <isa-stage>\n");
+#else
+  std::fprintf(out, "    --input-type <glsl|spirv-bin>\n");
+#endif
+
+  std::fprintf(out, "    --input-glsl-stage <glsl-stage>\n");
+  std::fprintf(
+      out, "    --output-type <glsl|spirv-bin|spirv-header|spirv-asm|ir>\n");
+  std::fprintf(out, "    --validate - validate output spirv\n");
+  std::fprintf(out, "    --output-var-name <name> - specify variable name for "
+                    "spirv-header\n");
+  std::fprintf(out, "    -O<0|1|2|3> - optimize spirv\n");
+  std::fprintf(out, "\n");
+  std::fprintf(out, "  glsl-stage:\n");
+  std::fprintf(out, "    library\n");
+  std::fprintf(out, "    vertex\n");
+  std::fprintf(out, "    tess-control\n");
+  std::fprintf(out, "    tess-evaluation\n");
+  std::fprintf(out, "    geometry\n");
+  std::fprintf(out, "    fragment\n");
+  std::fprintf(out, "    compute\n");
+  std::fprintf(out, "    ray-gen\n");
+  std::fprintf(out, "    intersect\n");
+  std::fprintf(out, "    any-hit\n");
+  std::fprintf(out, "    closest-hit\n");
+  std::fprintf(out, "    miss\n");
+  std::fprintf(out, "    callable\n");
+  std::fprintf(out, "    task\n");
+  std::fprintf(out, "    mesh\n");
+#ifdef GCN
+  std::fprintf(out, "\n");
+  std::fprintf(out, "  isa-stage:\n");
+  std::fprintf(out, "    ps\n");
+  std::fprintf(out, "    vs-vs\n");
+  std::fprintf(out, "    vs-es\n");
+  std::fprintf(out, "    vs-ls\n");
+  std::fprintf(out, "    cs\n");
+  std::fprintf(out, "    gs\n");
+  std::fprintf(out, "    gs-vs\n");
+  std::fprintf(out, "    hs\n");
+  std::fprintf(out, "    ds-vs\n");
+  std::fprintf(out, "    ds-es\n");
+#endif
+}
+
+int main(int argc, const char *argv[]) {
+  const char *inputFile = nullptr;
+  const char *outputFile = nullptr;
+  InputParam inputParam;
+  OutputParam outputParam;
+
+  for (int i = 1; i < argc; ++i) {
+    if (argv[i] == std::string_view("-h") ||
+        argv[i] == std::string_view("--help")) {
+      usage(stdout, argv[0]);
+      return 0;
+    }
+    if (argv[i] == std::string_view("-v") ||
+        argv[i] == std::string_view("--version")) {
+      std::printf("%s\n", rx::getVersion().toString().c_str());
+      return 0;
+    }
+
+    if (argv[i] == std::string_view{"--validate"}) {
+      outputParam.validate = true;
+      continue;
+    }
+
+    if (argv[i] == std::string_view{"-O0"}) {
+      outputParam.optLevel = 0;
+      continue;
+    }
+    if (argv[i] == std::string_view{"-O1"}) {
+      outputParam.optLevel = 1;
+      continue;
+    }
+    if (argv[i] == std::string_view{"-O2"}) {
+      outputParam.optLevel = 2;
+      continue;
+    }
+    if (argv[i] == std::string_view{"-O3"}) {
+      outputParam.optLevel = 3;
+      continue;
+    }
+
+    if (i + 1 < argc) {
+      const char *key = argv[i];
+      const char *value = argv[++i];
+
+      if (key == std::string_view{"-i"} || key == std::string_view{"--input"}) {
+        inputFile = value;
+        continue;
+      }
+      if (key == std::string_view{"-o"} ||
+          key == std::string_view{"--output"}) {
+        outputFile = value;
+        continue;
+      }
+
+      if (key == std::string_view{"--input-type"}) {
+        if (auto inputType = parseInputType(value)) {
+          inputParam.type = *inputType;
+          continue;
+        }
+      }
+
+      if (key == std::string_view{"--output-type"}) {
+        if (auto outputType = parseOutputType(value)) {
+          outputParam.type = *outputType;
+          continue;
+        }
+      }
+
+      if (key == std::string_view{"--input-glsl-stage"}) {
+        if (auto glslStage = parseGlslStage(value)) {
+          inputParam.glslStage = *glslStage;
+          continue;
+        }
+      }
+
+      if (key == std::string_view{"--output-var-name"}) {
+        outputParam.varName = value;
+        continue;
+      }
+
+#ifdef GCN
+      if (key == std::string_view{"--semantic"}) {
+        inputParam.semanticPath = value;
+        continue;
+      }
+
+      if (key == std::string_view{"--input-isa-stage"}) {
+        if (auto stage = parseGcnStage(value)) {
+          inputParam.gcnStage = *stage;
+          continue;
+        }
+      }
+#endif
+    }
+
+    usage(stderr, argv[0]);
+    return 1;
+  }
+
+  if (outputFile == nullptr) {
+    outputFile = "-";
+  }
+
+  if (inputFile == nullptr) {
+    usage(stderr, argv[0]);
+    return 1;
+  }
+
+  if (!outputParam.type) {
+    outputParam.type = OutputType::Ir;
+  }
+
+  if (outputParam.varName.empty()) {
+    outputParam.varName = std::filesystem::path(inputFile)
+                              .filename()
+                              .replace_extension()
+                              .string();
+    for (auto &c : outputParam.varName) {
+      if (c == '.') {
+        c = '_';
+      }
+    }
+  }
+
+  shader::ir::Context context;
+  auto ir = parseFile(context, inputParam, outputParam, inputFile);
+  if (!ir) {
+    std::fprintf(stderr, "failed to parse '%s'\n", inputFile);
+    return 1;
+  }
+
+  std::ofstream outputFileStream;
+
+  if (outputFile != std::string_view("-")) {
+    outputFileStream = std::ofstream(outputFile, std::ios::binary);
+  }
+
+  std::ostream &ostream =
+      (outputFile == std::string_view("-") ? std::cout : outputFileStream);
+
+  if (!ostream) {
+    std::fprintf(stderr, "failed to create '%s'\n", outputFile);
+    return 1;
+  }
+
+  if (!writeOutput(outputParam, ostream, *ir)) {
+    return 1;
+  }
+
+  if (!ostream) {
+    std::fprintf(stderr, "failed to write to '%s'\n", outputFile);
+    return 1;
+  }
+
+  return 0;
+}
diff --git a/tools/spv-gen/spv-gen.cpp b/tools/spv-gen/spv-gen.cpp
index f802d750..1a132395 100644
--- a/tools/spv-gen/spv-gen.cpp
+++ b/tools/spv-gen/spv-gen.cpp
@@ -466,6 +466,13 @@ inline void generateInstructions(std::set<std::string> &composites,
         instructionDecoderBody += std::to_string(opcode);
         instructionDecoderBody += ");\n";
       }
+      if (inst["opname"] == "OpTypeVoid") {
+        instructionDecoderBody += "      if (voidType != nullptr) {\n";
+        instructionDecoderBody += "        voidType.replaceAllUsesWith(inst);\n";
+        instructionDecoderBody += "        voidType.remove();\n";
+        instructionDecoderBody += "      }\n";
+        instructionDecoderBody += "      voidType = inst;\n";
+      }
       instructionDecoderBody += "      break;\n";
       instructionDecoderBody += "    }\n";
     }
@@ -593,10 +600,21 @@ inline bool deserialize(Context &context, Location loc, auto &layout, std::span<
     return value;
   };
 
+  ir::Value voidType;
+
+  auto getVoidType = [&] {
+    if (voidType == nullptr) {
+      auto builder = ir::Builder<Builder>::createAppend(context, layout.getOrCreateGlobals(context));
+      voidType = builder.createSpvTypeVoid(loc);
+    }
+    return voidType;
+  };
+
   auto findValue = [&](std::uint32_t id) {
     auto [it, inserted] = values.emplace(id, nullptr);
     if (inserted) {
-      it->second = ir::Builder<Builder>::createAppend(context, layout.getOrCreateFunctions(context)).createSpvUndef(loc, nullptr);
+      auto builder = ir::Builder<Builder>::createAppend(context, layout.getOrCreateFunctions(context));
+      it->second = builder.createSpvUndef(loc, getVoidType());
     }
     return it->second;
   };
@@ -633,6 +651,8 @@ inline bool deserialize(Context &context, Location loc, auto &layout, std::span<
             std::printf("std::bit_cast<float>(instWords[wordIndex++])");
           } else if (param == "std::string") {
             std::printf("readString(instWords[wordIndex++])");
+          } else if (param == "IdRef") {
+            std::printf("findValue(instWords[wordIndex++])");
           } else {
             std::printf("instWords[wordIndex++]");
           }
@@ -648,6 +668,8 @@ inline bool deserialize(Context &context, Location loc, auto &layout, std::span<
             std::printf("std::bit_cast<float>(instWords[wordIndex++])");
           } else if (param == "std::string") {
             std::printf("readString(instWords[wordIndex++])");
+          } else if (param == "IdRef") {
+            std::printf("findValue(instWords[wordIndex++])");
           } else {
             std::printf("instWords[wordIndex++]");
           }