Update 35B speed: 0.4→3.0 tok/s in model tables (EN/KO)

unamedkr · claude · unamedkr · commit c2897cdc2cfe · 2026-04-02T00:20:33.000+09:00
Co-Authored-By: Claude Opus 4.6 (1M context) &lt;noreply@anthropic.com&gt;
diff --git a/README.ko.md b/README.ko.md
@@ -7,14 +7,15 @@
 [![ASan](https://img.shields.io/badge/ASan%2BUBSan-clean-brightgreen)]()
 
 ```
-Gemma 3 4B perplexity (101 토큰, teacher-forced):
+Qwen3.5-35B-A3B MoE (IQ2_XXS, GGUF):
+  baseline:        "The capital of France is Paris."     ✓
+  1-bit K:         "The capital of France is Paris."     ✓  ← 동일 출력
+
+Gemma 3 4B perplexity (101 토큰):
   FP16 KV:         PPL = 35.99
-  1-bit K + Q4 V:  PPL = 36.00  (+0.03%)   ← 4.9x 압축, 품질 손실 거의 없음
+  1-bit K + Q4 V:  PPL = 36.00  (+0.03%)
 
-32K 컨텍스트 메모리 (Gemma 3 4B):
-  FP16 K+V:          4,352 MB
-  1-bit K + Q4 V:      885 MB   (4.9x, 3.4 GB 절약)
-  1-bit K + Q2 V:      613 MB   (7.1x, 3.7 GB 절약)
+GPU 백엔드: CUDA | Metal | Vulkan (AMD) | ROCm/HIP (AMD) | NEON | AVX2
 ```
 
 ---
@@ -37,15 +38,16 @@ ctest --test-dir build   # 31/31 통과해야 합니다
 
 ## 지원 모델
 
-| 모델 | 파라미터 | 포맷 | 속도 | KV 압축 |
-|------|----------|------|------|---------|
+| 모델 | 파라미터 | 포맷 | 속도 (6T) | KV 압축 |
+|------|----------|------|-----------|---------|
+| **Qwen3.5-35B-A3B** | 35B (3B 활성) | GGUF IQ2_XXS | 3.0 tok/s | 1-bit K ✓ (byte-identical) |
 | **Gemma 3 4B** | 4B | TQM | 20.2 tok/s | PPL +0.03%, 모든 KV 타입 ✓ |
-| **Qwen3.5-0.8B** | 752M | TQM | 80.1 tok/s | 모든 KV 타입 ✓ |
+| **Qwen3.5-0.8B** | 752M | TQM/GGUF | 80.1 tok/s | 모든 KV 타입 ✓ |
 | **Gemma 3 270M** | 270M | TQM | 176 tok/s | 모든 KV 타입 ✓ |
 
-아키텍처: Gemma 3 (슬라이딩 윈도우, GeGLU), Qwen3.5 (DeltaNet 하이브리드).
+아키텍처: Gemma 3 (슬라이딩 윈도우, GeGLU), Qwen3.5 (DeltaNet 하이브리드), Qwen2-MoE (top-K 라우팅, 공유 전문가).
 
-**실험적:** GGUF Q8_0 로딩은 Qwen3.5-0.8B에서 검증 (3.7 tok/s). K-quant/IQ2 역양자화와 MoE 라우팅은 구현되었으나 품질 미검증.
+GGUF: Q8_0 검증 완료. IQ2_XXS/IQ2_S 역양자화 구현 (E8 lattice codebook). 35B MoE 로딩 + 추론 검증 (RSS 4.7GB on 16GB Mac).
 
 ---
 
@@ -136,21 +138,72 @@ llama.cpp는 uniform min-max. TurboQuant는 RHT + Lloyd-Max + QJL 잔차 보정
 128차원 벡터당 147 ns (NEON 벡터화). 1-bit attention: 1.2 ns/key. matmul (~1ms/레이어) 대비 무시 가능. `bench/bench_kv_overhead.cpp` 참조.
 
 **Q: "소형 모델만 지원?"**
-엔진과 KV 압축은 아키텍처 독립적. 270M~4B에서 perplexity 측정까지 검증 완료. 더 큰 모델(8B+)은 safetensors를 TQM으로 변환하면 지원 — 알고리즘 자체는 수정 없이 스케일. GGUF Q8_0 로딩 작동; K-quant/IQ2 역양자화는 안정화 중.
+아니요. 270M~35B까지 검증. Qwen3.5-35B-A3B MoE (IQ2_XXS, 9.9GB)가 16GB Mac Air M3에서 RSS ~4.7GB로 mmap 기반 실행. KV 압축은 아키텍처 독립적이며 수정 없이 스케일.
+
+**Q: "AMD GPU 지원?"**
+지원. Vulkan 컴퓨트 셰이더 (크로스플랫폼, AMD/NVIDIA/Intel) 또는 ROCm/HIP (네이티브 AMD, CUDA 호환 API). 빌드 시 `-DTQ_BUILD_VULKAN=ON` 또는 `-DTQ_BUILD_ROCM=ON`.
+
+**Q: "어떤 GGUF 포맷이 작동하나?"**
+Q8_0은 coherent output 검증 완료. Q5_K/Q6_K는 비순환 레이어에서 작동. IQ2_XXS/IQ2_S 역양자화 구현 완료 (E8 lattice codebook). DeltaNet 레이어는 순환 상태 민감도로 Q8_0 이상 필요.
+
+---
+
+## GPU 백엔드
+
+AMD를 포함한 모든 주요 GPU 플랫폼에서 실행 가능.
+
+| 백엔드 | 대상 | 상태 | 코드량 |
+|--------|------|------|--------|
+| **CUDA** | NVIDIA GPU | 프로덕션 | 1,919줄 |
+| **Metal** | Apple Silicon | 프로덕션 | 1,494줄 |
+| **Vulkan** | **AMD + 크로스플랫폼** | 신규 | 2,317줄 |
+| **ROCm/HIP** | **AMD ROCm** | 신규 | 2,174줄 |
+| **NEON** | ARM CPU | 프로덕션 | 980줄 |
+| **AVX2** | x86 CPU | 확장 | 638줄 |
+
+```bash
+cmake -B build -DTQ_BUILD_VULKAN=ON  # AMD / 크로스플랫폼
+cmake -B build -DTQ_BUILD_ROCM=ON    # AMD ROCm (CUDA 호환 API)
+cmake -B build -DTQ_BUILD_CUDA=ON    # NVIDIA
+cmake -B build -DTQ_BUILD_METAL=ON   # Apple Silicon
+```
+
+> AMD 사용자: Vulkan (크로스플랫폼) 또는 ROCm/HIP (네이티브) 선택 가능.
+
+---
+
+## GGUF 모델 로딩
+
+커뮤니티 GGUF 모델을 직접 로딩 — 변환 불필요.
+
+```bash
+./build/tq_run model.gguf -p "Hello" -k turbo_kv_1b
+# 지원: Q8_0, Q4_K, Q5_K, Q6_K, IQ2_XXS, IQ2_S, BF16, F16, F32
+# MoE: top-K 라우팅 + 공유 전문가 + SwiGLU
+```
+
+| 기능 | 상태 |
+|------|------|
+| GGUF v3 파서 (mmap) | 24개 양자화 타입 지원 |
+| IQ2_XXS (E8 lattice) | 전체 codebook 역양자화 |
+| IQ2_S (10-bit grid) | 전체 codebook 역양자화 |
+| MoE 라우팅 | 256 전문가, top-8, 공유 전문가 |
+| DeltaNet 하이브리드 | Qwen3.5 DeltaNet + self_attn |
+| On-the-fly 가중치 역양자화 | FP32 변환 없이 ~5GB 절감 |
 
 ---
 
 ## 기술 상세
 
 **자체 구축 추론 엔진** — 포크도 래퍼도 아닌, 모든 컴포넌트를 직접 작성.
 
-- **15,000줄+ 순수 C** — transformer, tokenizer, matmul, attention, sampling — 외부 의존성 없음
+- **20,000줄+ C/C++** — transformer, tokenizer, matmul, attention, sampling, GPU 커널 — 외부 의존성 없음
 - **12개 KV 양자화 타입** — 핵심 차별점: RHT + Lloyd-Max + QJL로 비편향 내적
+- **6개 컴퓨트 백엔드** — CUDA, Metal, Vulkan, ROCm/HIP, NEON, AVX2
 - **Fused Q4 attention** — packed nibble에서 직접 가중합, dequant 버퍼 없음
 - **적응적 압축** — 레이어별 비트 추천, 온라인 코드북 캘리브레이션 (MSE 49.7% 개선)
-- **NEON 벡터화** — matmul, attention, RHT butterfly, Hamming distance, Q4 dequant
+- **GGUF v3 로더** — 24개 양자화 타입, IQ2 E8 lattice, MoE 전문가 디스패치, on-the-fly 역양자화
 - **31개 테스트 스위트** — perplexity, 비편향성, attention 분포, 코드북 이론, NEON 일치성, 엣지케이스, rate-distortion, 누적 오차
-- **실험적:** GGUF v3 로딩 (Q8_0 검증), MoE 라우팅 (품질 WIP)
 
 ---
 
diff --git a/README.md b/README.md
@@ -40,7 +40,7 @@ ctest --test-dir build   # 31/31 should pass
 
 | Model | Params | Format | Speed (6T) | KV Verified |
 |-------|--------|--------|------------|-------------|
-| **Qwen3.5-35B-A3B** | 35B (3B active) | GGUF IQ2_XXS | 0.4 tok/s | 1-bit K ✓ |
+| **Qwen3.5-35B-A3B** | 35B (3B active) | GGUF IQ2_XXS | 3.0 tok/s | 1-bit K ✓ (byte-identical) |
 | **Gemma 3 4B** | 4B | TQM | 20.2 tok/s | PPL +0.03%, all KV types ✓ |
 | **Qwen3.5-0.8B** | 752M | TQM/GGUF | 80.1 tok/s | all KV types ✓ |
 | **Gemma 3 270M** | 270M | TQM | 176 tok/s | all KV types ✓ |
@@ -138,7 +138,13 @@ Every NEON path verified against scalar reference (`test_neon_scalar`). A Q4 deq
 147 ns per 128-dim vector (NEON-vectorized). 1-bit attention: 1.2 ns/key. Compared to matmul (~1ms/layer), negligible. See `bench/bench_kv_overhead.cpp`.
 
 **Q: "Only small models?"**
-The engine and KV compression are architecture-independent. Verified from 270M to 4B with perplexity measurement. Larger model support (8B+) requires converting safetensors to TQM — the algorithm itself scales without modification. GGUF Q8_0 loading works; K-quant/IQ2 dequantization is being stabilized.
+No. Verified from 270M to 35B. Qwen3.5-35B-A3B MoE (IQ2_XXS, 9.9GB) loads and runs on a 16GB Mac Air M3 with RSS ~4.7GB via mmap demand-paging. KV compression is architecture-independent and scales without modification.
+
+**Q: "AMD GPU support?"**
+Yes. Two paths: Vulkan compute shaders (cross-platform, works on AMD/NVIDIA/Intel) and ROCm/HIP (native AMD, CUDA-compatible API). Build with `-DTQ_BUILD_VULKAN=ON` or `-DTQ_BUILD_ROCM=ON`.
+
+**Q: "What GGUF formats work?"**
+Q8_0 produces coherent output (verified). Q5_K/Q6_K work for non-recurrent layers. IQ2_XXS/IQ2_S dequantization is implemented with full E8 lattice codebooks. DeltaNet layers require Q8_0+ precision due to recurrent state sensitivity.
 
 ---