quantumaikr
diff --git a/‎docs/prd_v0.5.md‎
Lines changed: 117 additions & 0 deletions b/‎docs/prd_v0.5.md‎
Lines changed: 117 additions & 0 deletions
diff --git a/‎docs/wbs_v0.5.md‎
Lines changed: 124 additions & 0 deletions b/‎docs/wbs_v0.5.md‎
Lines changed: 124 additions & 0 deletions
diff --git a/‎src/backend/cpu/tq_avx2.c‎
Lines changed: 7 additions & 7 deletions b/‎src/backend/cpu/tq_avx2.c‎
Lines changed: 7 additions & 7 deletions
@@ -0,0 +1,117 @@
+# TurboQuant.cpp — Product Requirements Document v0.5
+
+**Version**: 0.5
+**Date**: 2026-03-29
+**Focus**: 극한 품질 최적화 — refs 코드와의 차이를 0으로 만든다
+
+---
+
+## 1. v0.5 Goal
+
+v0.4까지 프로덕션 안정성을 확보했다. v0.5는 **논문 구현과의 알고리즘 차이를 좁혀 품질을 극한까지 끌어올린다**. 모든 개선은 A/B 테스트로 측정하고, 측정 불가능한 변경은 하지 않는다.
+
+### 발견된 알고리즘 차이 (refs 코드 대비)
+
+| # | 차이 | 파일 | 예상 임팩트 | 난이도 |
+|---|------|------|-----------|--------|
+| ALG-1 | PolarQuant 각도 범위 [-π,π] → [0,2π] 미적용 | tq_polar.c | MSE -5% | 1줄 |
+| ALG-2 | 역양자화 시 +0.5 중심 보정 미적용 | tq_polar.c | MSE -15~20% | 1줄 |
+| ALG-3 | QJL inlier/outlier 이중 스트림 스코어 미적용 | tq_qjl.c | Cosine +10~15% | 중 |
+| ALG-4 | QJL 그룹 기반 아웃라이어 (개별→그룹) | tq_qjl.c | Cosine +5% | 중 |
+| ALG-5 | Value 양자화 per-tile 스케일링 (vLLM 패턴) | tq_uniform.c | Value MSE -10% | 중 |
+| ALG-6 | Key/Value 분리 양자화 전략 | tq_types.h | 아키텍처 정확성 | 소 |
+
+**핵심 원칙**: ALG-1, ALG-2는 각각 1줄 수정으로 즉시 품질 개선이 가능. 먼저 적용하고 측정한다.
+
+---
+
+## 2. Functional Requirements
+
+### FR-V5-1: PolarQuant 정밀도 개선 (ALG-1 + ALG-2)
+
+**각도 범위 수정** (ALG-1):
+```c
+// Before (tq_polar.c):
+float t = atan2f(y, x);  // [-π, π]
+
+// After:
+float t = atan2f(y, x);
+if (t < 0.0f) t += 2.0f * TQ_PI;  // [0, 2π]
+```
+이유: [-π,π]에서 min-max 양자화하면 π 근처에서 wrap-around 오차 발생. [0,2π]로 이동하면 연속적.
+
+**중심 보정** (ALG-2):
+```c
+// Before (dequantize):
+float theta_f = tscale * (float)theta_idx + tmn;
+
+// After:
+float theta_f = tscale * ((float)theta_idx + 0.5f) + tmn;
+float radius_f = rscale * ((float)rho_idx + 0.5f) + rmn;
+```
+이유: 양자화 bin의 가장자리가 아닌 중심으로 복원하면 평균 오차가 절반.
+
+**검증**: MSE 측정 — before vs after on 실제 모델 데이터.
+
+### FR-V5-2: QJL 이중 스트림 스코어 (ALG-3)
+
+현재: `score = sqrt(π/2)/S × norm × (S - 2×hamming)`
+목표: `score = sqrt(π/2)/S × norm_inlier × hamming_inlier + sqrt(π/2)/S_out × norm_outlier × hamming_outlier`
+
+핵심 변경:
+1. 양자화 시: inlier와 outlier를 분리하여 각각 별도 hash 생성
+2. 쿼리 투영 시: 전체 sketch에서 outlier 기여분을 빼서 inlier sketch 계산
+3. 점수 계산: 두 스트림의 점수를 각각 norm-weighted하여 합산
+
+참조: `refs/QJL/qjl_kernel/csrc/qjl_score_kernel.cu` line 130
+
+**검증**: Cosine similarity — QJL attention on 실제 모델 데이터.
+
+### FR-V5-3: Value Per-Tile Scaling (ALG-5)
+
+현재: 128개 요소에 단일 scale
+목표: 128개 요소를 32개씩 4개 타일로 나눠 각각 scale
+
+```c
+typedef struct {
+    uint16_t scale[4];        // 4 tiles × fp16 scale
+    uint16_t zero_point[4];   // 4 tiles × fp16 zero
+    uint8_t  qs[TQ_BK / 2];  // 4-bit packed values
+} block_tq_value_tiled;
+```
+
+참조: `refs/vllm/csrc/cache_kernels.cu` line 400-418
+
+**검증**: Value roundtrip MSE — per-tile vs per-block on 실제 모델 데이터.
+
+### FR-V5-4: Key/Value 분리 전략 (ALG-6)
+
+Progressive config에 별도 key_type, value_type 설정:
+```c
+typedef struct {
+    tq_type  key_warm_type;    // Keys: PolarQuant or TurboQuant
+    tq_type  value_warm_type;  // Values: Uniform (amplitude preservation)
+    tq_type  key_cold_type;
+    tq_type  value_cold_type;
+    ...
+} tq_progressive_config_t;
+```
+
+이유: 키는 방향 보존이 중요 (PolarQuant/QJL), 값은 진폭 보존이 중요 (Uniform).
+
+---
+
+## 3. Success Criteria
+
+모든 측정은 `build/real_model_validation` 기준:
+
+| 지표 | v0.4 현재 | v0.5 목표 |
+|------|----------|----------|
+| uniform_4b real cosine | 0.991 | > 0.993 |
+| polar_4b real cosine | 0.786 | > 0.85 (ALG-1+2 적용) |
+| turbo_3b real cosine | 0.939 | > 0.95 |
+| QJL real cosine | 0.857 | > 0.90 (ALG-3 적용) |
+| uniform_4b real MSE | 0.0025 | < 0.002 |
+| polar_4b real MSE | 0.053 | < 0.03 (ALG-1+2 적용) |
+
+**모든 개선은 A/B 테스트 증거가 있어야 머지한다.**
@@ -0,0 +1,124 @@
+# TurboQuant.cpp — Work Breakdown Structure v0.5
+
+**Version**: 0.5
+**Date**: 2026-03-29
+**Focus**: 극한 품질 최적화 — 모든 변경을 A/B 테스트로 측정
+
+---
+
+## Phase 1: 1줄 수정 고임팩트 (ALG-1 + ALG-2)
+
+### 1.1 PolarQuant 각도 범위 [0, 2π]
+
+- [ ] `src/core/tq_polar.c` — quantize 함수에서 atan2 결과 보정
+  - [ ] `if (t < 0.0f) t += 2.0f * TQ_PI;` 추가
+- [ ] A/B 측정: `build/real_model_validation` 실행
+  - [ ] Before polar_4b MSE: ____
+  - [ ] After polar_4b MSE: ____
+  - [ ] 개선율: ____%
+
+### 1.2 중심 보정 (+0.5 offset)
+
+- [ ] `src/core/tq_polar.c` — dequantize 함수에서 +0.5 추가
+  - [ ] theta: `tscale * ((float)tq + 0.5f) + tmn`
+  - [ ] radius: `rscale * ((float)rq + 0.5f) + rmn`
+- [ ] `src/core/tq_polar.c` — attention 함수의 LUT에도 +0.5 반영
+  - [ ] `cos_lut[q] = cosf(tscale * ((float)q + 0.5f) + tmn)`
+- [ ] `src/core/tq_uniform.c` — uniform dequantize에도 +0.5 추가
+  - [ ] `val = scale * ((float)q + 0.5f) + zero_point`
+- [ ] A/B 측정
+  - [ ] Before uniform_4b MSE: ____
+  - [ ] After uniform_4b MSE: ____
+
+### 1.3 검증
+
+- [ ] 모든 기존 테스트 통과 (테스트 tolerance 조정 필요할 수 있음)
+- [ ] `build/tq_quality` 결과 개선 확인
+- [ ] `build/ab_test` 결과 개선 확인
+
+---
+
+## Phase 2: QJL 이중 스트림 (ALG-3)
+
+### 2.1 양자화 분리
+
+- [ ] `src/core/tq_qjl.c` — `tq_qjl_quantize_ref()` 수정
+  - [ ] 아웃라이어 차원에 대해 별도 hash 계산 (outlier_hash)
+  - [ ] 인라이어 = 전체 투영에서 아웃라이어 투영을 뺀 것
+  - [ ] `block_tq_qjl`에 outlier hash 추가 (또는 기존 hash와 분리)
+
+### 2.2 어텐션 이중 스트림
+
+- [ ] `src/core/tq_qjl.c` — `tq_qjl_attention_ref()` 수정
+  - [ ] Query sketch 계산
+  - [ ] Query outlier sketch 계산 (outlier 차원만)
+  - [ ] Inlier sketch = query_sketch - query_outlier_sketch
+  - [ ] Inlier score = sqrt(π/2)/S × norm_inlier × (S - 2×hamming_inlier)
+  - [ ] Outlier score = sqrt(π/2)/S_out × norm_outlier × (S_out - 2×hamming_outlier)
+  - [ ] Total = inlier_score + outlier_score
+
+### 2.3 검증
+
+- [ ] A/B 측정: QJL cosine on real model data
+  - [ ] Before: ____
+  - [ ] After: ____
+- [ ] 모든 QJL 테스트 통과
+
+---
+
+## Phase 3: Value Per-Tile Scaling (ALG-5)
+
+### 3.1 타일 구조 추가
+
+- [ ] `include/turboquant/tq_types.h` — `block_tq_value_tiled` 구조체 정의
+  - [ ] 4개 타일 × (scale + zero_point) = 16 bytes metadata
+  - [ ] qs[TQ_BK/2] = 64 bytes data
+  - [ ] 총 80 bytes (기존 68 bytes 대비 12 bytes 증가)
+
+### 3.2 타일 양자화 구현
+
+- [ ] `src/core/tq_value_quant.c` — `tq_value_quantize_tiled()` 구현
+  - [ ] 128 요소를 32개씩 4개 타일로 분할
+  - [ ] 각 타일마다 독립 min/max → scale/zero_point
+  - [ ] 4-bit 양자화 + 패킹
+
+### 3.3 검증
+
+- [ ] A/B 측정: Value roundtrip MSE
+  - [ ] Per-block MSE: ____
+  - [ ] Per-tile MSE: ____
+  - [ ] 개선율: ____%
+
+---
+
+## Phase 4: 통합 + 최종 벤치마크
+
+### 4.1 Key/Value 분리 설정
+
+- [ ] `include/turboquant/tq_types.h` — progressive config 확장
+  - [ ] `key_warm_type`, `value_warm_type` 분리
+  - [ ] `tq_progressive_default_config()` 업데이트
+
+### 4.2 최종 A/B 비교 벤치마크
+
+- [ ] `bench/ab_comparison_v05.cpp` — v0.4 vs v0.5 비교 벤치마크
+  - [ ] 모든 타입 × 실제 모델 데이터
+  - [ ] Before/After MSE, Cosine 비교 테이블
+  - [ ] 개선율 요약
+
+### 4.3 문서 업데이트
+
+- [ ] `docs/real_model_results.md` — v0.5 결과 추가
+- [ ] README — 최신 수치 반영
+
+---
+
+## 완료 기준
+
+- [ ] polar_4b real cosine > 0.85 (현재 0.786)
+- [ ] QJL real cosine > 0.90 (현재 0.857)
+- [ ] turbo_3b real cosine > 0.95 (현재 0.939)
+- [ ] uniform_4b real MSE < 0.002 (현재 0.0025)
+- [ ] 모든 개선에 A/B 측정 수치 기록
+- [ ] 13+ C++ 테스트 전체 통과
+- [ ] score.sh ≥ 0.99 유지
@@ -98,7 +98,7 @@ void tq_uniform_4b_quantize_avx2(const float* src, void* dst, int n) {
 
     float range = mx - mn;
     if (range < 1e-8f) range = 1e-8f;
-    float scale = range / 15.0f;
+    float scale = range / 16.0f; /* 16 bins of width range/16 */
     float inv_scale = 1.0f / scale;
 
     block->scale      = avx_fp32_to_fp16(scale);
@@ -116,8 +116,8 @@ void tq_uniform_4b_quantize_avx2(const float* src, void* dst, int n) {
         __m256 v = _mm256_loadu_ps(src + i);
         __m256 shifted = _mm256_sub_ps(v, v_mn);
         __m256 scaled  = _mm256_mul_ps(shifted, v_invs);
-        /* Round to nearest: _mm256_round_ps with _MM_FROUND_TO_NEAREST_INT */
-        __m256 rounded = _mm256_round_ps(scaled, _MM_FROUND_TO_NEAREST_INT | _MM_FROUND_NO_EXC);
+        /* Floor: _mm256_round_ps with _MM_FROUND_TO_NEG_INF */
+        __m256 rounded = _mm256_round_ps(scaled, _MM_FROUND_TO_NEG_INF | _MM_FROUND_NO_EXC);
         /* Clamp to [0, 15] */
         rounded = _mm256_max_ps(rounded, v_zero);
         rounded = _mm256_min_ps(rounded, v_15);
@@ -139,7 +139,7 @@ void tq_uniform_4b_quantize_avx2(const float* src, void* dst, int n) {
 
     /* Scalar tail */
     for (; i < count; i++) {
-        int q = (int)roundf((src[i] - mn) * inv_scale);
+        int q = (int)floorf((src[i] - mn) * inv_scale);
         if (q < 0)  q = 0;
         if (q > 15) q = 15;
         if (i % 2 == 0) {
@@ -172,11 +172,11 @@ void tq_uniform_4b_dequantize_avx2(const void* src, float* dst, int n) {
         for (int k = 0; k < 8; k++) {
             int idx = i + k;
             uint8_t byte = block->qs[idx / 2];
-            q_arr[k] = (float)((idx % 2 == 0) ? (byte & 0x0F) : (byte >> 4));
+            q_arr[k] = (float)((idx % 2 == 0) ? (byte & 0x0F) : (byte >> 4)) + 0.5f;
         }
 
         __m256 q = _mm256_loadu_ps(q_arr);
-        /* dst = mn + q * scale using FMA */
+        /* dst = mn + (q + 0.5) * scale using FMA (0.5 already added above) */
         __m256 result = _mm256_fmadd_ps(q, v_scale, v_mn);
         _mm256_storeu_ps(dst + i, result);
     }
@@ -185,7 +185,7 @@ void tq_uniform_4b_dequantize_avx2(const void* src, float* dst, int n) {
     for (; i < count; i++) {
         uint8_t byte = block->qs[i / 2];
         int q = (i % 2 == 0) ? (byte & 0x0F) : (byte >> 4);
-        dst[i] = mn + q * scale;
+        dst[i] = mn + ((float)q + 0.5f) * scale;
     }
 }