-
Differential Transformer V2(DIFF V2) 기술적 혁신 분석: Microsoft의 차세대 LLM 아키텍처 (2026년 1월)AI 뉴스 2026. 1. 24. 15:30반응형
Differential Transformer V2(DIFF V2) 기술적 혁신 분석: Microsoft의 차세대 LLM 아키텍처
2025년 AI 분야에서 가장 주목받는 기술적 혁신 중 하나로 Microsoft와 칭화대학교가 공동 개발한 Differential Transformer(DIFF Transformer)가 ICLR 2025 학회에서 Oral 논문으로 발표되었습니다. 특히 최근 공개된 DIFF V2는 기존 버전의 한계를 극복하고 실제 대규모 LLM 학습에 적용 가능한 수준의 안정성과 효율성을 달성하여 업계의 큰 관심을 받고 있습니다. 본 글에서는 DIFF V2의 핵심 기술적 혁신과 그 의미를 상세히 분석해 드리겠습니다.

Differential Transformer의 탄생 배경
기존 Transformer 아키텍처는 2017년 Google의 "Attention Is All You Need" 논문 이후 자연어 처리 분야의 표준으로 자리 잡았습니다. 하지만 표준 Transformer는 근본적인 한계를 가지고 있었습니다. 바로 불필요한 컨텍스트에 과도한 주의(attention)를 할당하는 문제입니다.
Softmax 함수를 사용하는 기존 어텐션 메커니즘은 모든 토큰에 대해 0이 아닌 확률값을 할당해야 하므로, 실제로 중요하지 않은 토큰에도 어느 정도의 attention이 분산됩니다. 이는 모델이 핵심 정보에 집중하지 못하고 노이즈에 의해 방해받는 결과를 초래합니다. 특히 긴 문맥을 처리할 때 이 문제가 더욱 심각해집니다.
Microsoft Research와 칭화대학교 연구진(Tianzhu Ye, Li Dong, Yuqing Xia, Yutao Sun, Yi Zhu, Gao Huang, Furu Wei)은 이 문제를 해결하기 위해 완전히 새로운 접근 방식을 제안했습니다. 바로 차등 어텐션(Differential Attention) 메커니즘입니다.
차등 어텐션 메커니즘의 핵심 원리
Differential Transformer의 핵심 아이디어는 전자공학의 차동 증폭기(Differential Amplifier)와 노이즈 캔슬링 헤드폰의 원리에서 영감을 받았습니다. 두 개의 신호 차이를 계산하면 공통 모드 노이즈가 상쇄되는 원리를 어텐션 메커니즘에 적용한 것입니다.
기존 Transformer의 어텐션 계산 방식은 다음과 같습니다:
Attention(Q, K, V) = Softmax(QK^T / √d) × V반면 Differential Transformer는 두 개의 별도 Softmax 어텐션 맵의 차이를 계산합니다:
DiffAttn(Q, K, V) = [Softmax(Q1K1^T) - λ × Softmax(Q2K2^T)] × V이 방식에서 두 개의 쿼리(Q1, Q2)와 키(K1, K2)를 사용하여 각각 어텐션 스코어를 계산한 후, 그 차이를 구합니다. λ(람다)는 학습 가능한 스칼라 파라미터로, 두 어텐션 맵 간의 상쇄 정도를 조절합니다. 이 뺄셈 연산을 통해 두 어텐션 맵에서 공통으로 나타나는 노이즈 성분이 상쇄되고, 실제로 중요한 정보에만 집중하는 희소한(sparse) 어텐션 패턴이 자연스럽게 형성됩니다.

DIFF V1의 한계와 문제점
2024년 10월 처음 발표된 DIFF V1은 혁신적인 아이디어에도 불구하고 실제 대규모 LLM 학습에 적용하기에는 몇 가지 중요한 한계가 있었습니다.
첫째, 느린 디코딩 속도 문제가 있었습니다. DIFF V1은 기존 Transformer와 동일한 파라미터 수를 유지하기 위해 Value 캐시를 2번 로드해야 했습니다. LLM 추론은 메모리 대역폭이 병목이 되는 작업이므로, 이는 디코딩 속도를 상당히 저하시켰습니다.
둘째, 커스텀 커널 의존성이 있었습니다. 표준 FlashAttention 커널을 직접 사용할 수 없어 별도의 커스텀 어텐션 커널을 개발해야 했습니다. 이는 구현 복잡성을 증가시키고 기존 인프라와의 호환성을 저해했습니다.
셋째, 학습 불안정성 문제가 있었습니다. Softmax 어텐션의 출력은 컨텍스트 RMS(Root Mean Square)가 [1/√n, 1) 범위로 제한됩니다. 시퀀스 길이 n이 8192인 경우, 하한은 약 1/90.5가 됩니다. DIFF V1에서는 이를 보정하기 위해 Per-head RMSNorm을 적용했는데, RMS가 매우 작은 경우(1/√n에 가까울 때) 정규화 과정에서 약 90배에 달하는 과도한 스케일링이 발생하여 그래디언트 폭발 문제가 나타났습니다. 이로 인해 사전학습 후기 단계에서 학습이 불안정해지는 현상이 발생했습니다.
넷째, 복잡한 λ 매개변수화가 있었습니다. DIFF V1의 λ 초기화는 다음과 같이 복잡한 지수 함수를 사용했습니다:
λ_init = 0.8 - 0.6 × exp(-0.3 × (layer_index - 1)) λ = exp(Σ(λ_q1 × λ_k1)) - exp(Σ(λ_q2 × λ_k2)) + λ_init이러한 복잡한 초기화 방식은 구현과 튜닝을 어렵게 만들었습니다.
DIFF V2의 핵심 기술적 혁신
DIFF V2는 위에서 언급한 DIFF V1의 모든 한계를 체계적으로 해결했습니다. 주요 혁신 사항을 하나씩 살펴보겠습니다.
1. 디코딩 속도 최적화
DIFF V2는 아키텍처를 재설계하여 기존 Transformer와 동일한 디코딩 속도를 달성했습니다. 핵심 변화는 다음과 같습니다:
구분 DIFF V1 DIFF V2 Query 헤드 수 h (기존과 동일) 2h (2배) KV 헤드 수 2h (2배 필요) h (기존과 동일) KV 캐시 로드 2회 1회 디코딩 속도 느림 Transformer와 동일 DIFF V2에서는 Q2(두 번째 쿼리)에 추가 파라미터를 할당하되, KV 헤드 수는 증가시키지 않았습니다. LLM 디코딩에서 병목은 메모리 대역폭이며, Query 연산은 연산 집약적(compute-bound)입니다. 따라서 Query 헤드를 2배로 늘려 산술 강도(arithmetic intensity)를 높이면서도 KV 캐시 로드는 1회로 유지하여 디코딩 속도 저하 없이 차등 어텐션의 이점을 얻을 수 있게 되었습니다.
2. 커스텀 커널 제거
DIFF V2의 새로운 아키텍처에서는 Query와 Key/Value의 헤드 차원이 표준적으로 정렬되어 있어, FlashAttention을 직접 사용할 수 있습니다. 커스텀 커널 개발 없이도 기존의 최적화된 어텐션 구현을 그대로 활용할 수 있으므로, 실제 프로덕션 환경에 훨씬 쉽게 적용할 수 있습니다.
def DiffAttnV2(q, k, v, lam): # FlashAttention을 직접 호출 attn = flash_attn_func(q, k, v) # 짝수/홀수 헤드로 분리 attn1, attn2 = (attn[:, 0::2], attn[:, 1::2]) # Sigmoid로 정규화된 λ 적용 lam_val = sigmoid(lam) attn = attn1 - lam_val * attn2 return attn3. Softmax 크기 제약 극복
DIFF V2의 가장 중요한 혁신 중 하나는 컨텍스트 RMS 범위의 확장입니다:
버전 컨텍스트 RMS 범위 하한 의미 표준 Transformer [1/√n, 1) n=8192일 때 약 0.011 DIFF V1 [1/√n, 1) RMSNorm으로 과도한 스케일링 DIFF V2 (0, √2) 0까지 내려갈 수 있음 DIFF V2에서는 차등 연산(뺄셈)을 통해 컨텍스트 RMS의 하한이 0까지 내려갈 수 있습니다. 이로 인해 Per-head RMSNorm이 더 이상 필요하지 않으며, 과도한 그래디언트 스케일링 문제가 해결되었습니다. 결과적으로 대규모 모델의 후기 사전학습 단계에서도 안정적인 학습이 가능해졌습니다.
4. Attention Sinks 제거
Attention Sinks는 기존 Transformer에서 발생하는 잘 알려진 문제입니다. 모델이 첫 번째 토큰(BOS 토큰)에 과도한 어텐션을 할당하는 현상으로, 이는 Softmax의 특성상 어텐션 가중치의 합이 항상 1이 되어야 하기 때문에 발생합니다. 모델이 어떤 토큰에도 집중하고 싶지 않을 때, 그 "여분의" 어텐션이 첫 번째 토큰으로 몰리는 것입니다.
DIFF V2에서는 두 Softmax 어텐션 맵의 차이를 사용하므로, 작은 값들이 서로 상쇄됩니다. 컨텍스트 RMS가 0에 가까워질 수 있다는 것은 모델이 필요할 때 모든 토큰의 어텐션을 효과적으로 "끌 수" 있다는 것을 의미합니다. 이로 인해 Attention Sinks 현상이 자연스럽게 해결됩니다.

5. 간소화된 λ 매개변수화
DIFF V2에서는 λ의 매개변수화가 크게 단순화되었습니다:
# DIFF V1: 복잡한 지수 함수 기반 초기화 λ = exp(Σ(λ_q1 × λ_k1)) - exp(Σ(λ_q2 × λ_k2)) + λ_init # DIFF V2: 간단한 Sigmoid 함수 λ = sigmoid(λ) # [0, 1] 범위로 자동 정규화Sigmoid 함수를 사용함으로써 λ 값이 자동으로 [0, 1] 범위로 제한되며, 토큰별, 헤드별로 유연하게 학습됩니다. 이는 구현을 단순화하고 하이퍼파라미터 튜닝의 부담을 줄여줍니다.
GQA(Grouped Query Attention)와의 호환성
DIFF V2의 또 다른 중요한 설계 원칙은 GQA(Grouped Query Attention)와의 올바른 호환성입니다. GQA는 현재 대부분의 대규모 LLM에서 사용되는 기법으로, 여러 Query 헤드가 동일한 Key-Value 헤드를 공유합니다.
DIFF V2에서는 같은 GQA 그룹 내의 헤드 쌍에서 차등을 계산해야 합니다:
# 올바른 구현: 같은 GQA 그룹 내 헤드 차감 attn1, attn2 = (attn[:, 0::2], attn[:, 1::2]) # 짝수/홀수 인덱스 # 잘못된 구현: 다른 KV를 공유하는 헤드 차감 attn1, attn2 = (attn[:, :nh//2], attn[:, nh//2:]) # 전반/후반 분리실험 결과, 잘못된 구현 방식은 높은 손실과 심각한 학습 불안정성을 초래했습니다. 이는 같은 Key-Value를 공유하는 헤드 쌍에서 차등을 계산해야 노이즈 상쇄 효과가 제대로 작동하기 때문입니다.
파라미터 효율성 향상
DIFF V2의 차등 구조는 약 25%의 어텐션 모듈 파라미터 절약을 가능하게 합니다. 기존 Transformer에서 출력 투영(WO) 레이어가 음수 관계를 학습하기 위해서는 상당한 파라미터가 필요합니다. 반면 DIFF V2는 차등 연산을 통해 이를 명시적으로 구현하므로, WO 파라미터의 약 50%를 절약할 수 있습니다.
절약된 파라미터 예산은 모델의 다른 부분(예: FFN 레이어)에 재할당하여 전체적인 모델 성능을 향상시킬 수 있습니다.
실험 결과 및 성능 벤치마크
Microsoft 연구진은 Dense 모델과 30A3 MoE(Mixture of Experts) 모델을 포함한 다양한 규모에서 수조 개의 토큰을 사용하여 DIFF V2를 검증했습니다. 주요 실험 결과는 다음과 같습니다:
평가 항목 결과 언어 모델링 손실 1T 토큰 기준 0.02~0.03 더 낮음 수학적 추론 정확도 평균 7.5% 향상 손실 스파이크 상당히 감소 그래디언트 스파이크 감소 활성화 아웃라이어 크기 감소 모델 크기/학습 토큰 효율 동등 성능 달성에 약 65%만 필요 특히 높은 학습률(6e-4 ~ 1e-3) 조건에서 DIFF V2는 기존 Transformer 대비 훨씬 안정적인 학습을 보여주었습니다. 수학적 추론 벤치마크(GSM-8K, MATH, SVAMP, ASDiv, MAWPS, CARP, TABMWP 등)에서 평균 7.5%의 정확도 향상을 달성했으며, 추론 과정의 평균 길이도 6913 토큰에서 6144 토큰으로 줄어들었습니다.
실용적 활용 이점
DIFF V2는 다양한 실용적 측면에서 이점을 제공합니다:
긴 문맥 처리: 불필요한 컨텍스트에 대한 어텐션이 감소하여 긴 문서를 처리할 때 핵심 정보에 더 효과적으로 집중할 수 있습니다. YOCO(You Only Cache Once)와 결합하면 시퀀스 길이에 대해 선형 시간복잡도를 달성할 수 있습니다.
환각(Hallucination) 감소: 관련 없는 컨텍스트에 덜 방해받으므로, 질문 응답과 텍스트 요약 작업에서 환각 현상이 감소합니다.
인컨텍스트 학습 개선: few-shot 예제의 순서에 더 강건하며, 예제 순서 변경에 따른 성능 변동이 줄어듭니다.
양자화 오류 완화: 어텐션 로짓의 아웃라이어가 감소하여 모델 양자화 시 반올림 오류가 줄어들어, 양자화된 모델의 성능 저하가 적습니다.
Sparse Attention 호환성: DIFF V2는 기존의 Sparse Attention 프레임워크와 완전히 호환됩니다. GQA 그룹 내에서 차등 헤드 쌍을 처리하고, 헤드 쌍별로 블록을 선택하는 방식으로 효율적인 희소 어텐션을 구현할 수 있습니다.
DIFF V2의 성공 요인 분석
최근 연구(arXiv:2505.16333)에서는 Differential Transformer의 성공 요인을 심층 분석하여 세 가지 핵심 요소를 밝혀냈습니다:
1. 음수 어텐션을 통한 표현력 향상: 차등 연산을 통해 음수 어텐션 값이 가능해지며, 이는 모델의 표현력을 크게 확장합니다.
2. 어텐션 헤드 간 중복성 감소: 서로 다른 헤드가 더 다양한 패턴을 학습하게 되어, 전체적인 모델 용량이 효율적으로 활용됩니다.
3. 개선된 학습 역학: 분석 결과 DIFF Transformer는 표준 Transformer 대비 음의 고유값이 상당히 적어, 최적화 역학이 개선되었음을 보여줍니다.
V1과 V2 주요 차이점 종합 비교
측면 DIFF V1 DIFF V2 디코딩 속도 느림 (캐시 2회 로드) 빠름 (캐시 1회 로드) 커스텀 커널 필수 불필요 (FlashAttention 직접 사용) 학습 안정성 낮음 (후기 단계) 높음 Per-head RMSNorm 필요 (불안정 요인) 제거 λ 매개변수화 복잡 (지수형) 간단 (Sigmoid) 컨텍스트 RMS 범위 [1/√n, 1) (0, √2) 파라미터 절약 없음 약 25% Attention Sinks 존재 제거됨 향후 전망 및 연구 방향
DIFF V2의 발표는 LLM 아키텍처 연구의 새로운 방향을 제시합니다. 연구진은 다음과 같은 향후 연구 방향을 제안했습니다:
효율적인 저비트 어텐션 커널 개발: 활성화 아웃라이어가 감소함에 따라, 더 공격적인 양자화가 가능해집니다. 이를 활용한 효율적인 저비트 어텐션 커널 개발이 기대됩니다.
KV 캐시 압축: 어텐션 패턴이 더 희소해지므로, 이 특성을 활용하여 KV 캐시를 효과적으로 압축할 수 있습니다. 이는 긴 문맥 처리 시 메모리 효율성을 크게 향상시킬 수 있습니다.
멀티모달 확장: 현재 언어 모델에 초점이 맞춰져 있지만, 비전-언어 모델 등 멀티모달 영역으로의 확장이 기대됩니다.
결론
Differential Transformer V2는 LLM 아키텍처 분야에서 의미 있는 진전을 보여주고 있습니다. 노이즈 캔슬링 원리를 어텐션 메커니즘에 적용한 혁신적인 아이디어에서 출발하여, V2에서는 실제 대규모 모델 학습에 필요한 실용성과 안정성을 갖추게 되었습니다.
동일 성능 달성에 약 65%의 모델 크기 또는 학습 토큰만 필요하다는 점은 학습 비용 절감 측면에서 상당한 의미를 가집니다. 또한 수학적 추론 성능 7.5% 향상, 환각 감소, 긴 문맥 처리 개선 등 다양한 실용적 이점은 DIFF V2가 단순한 아키텍처 개선을 넘어 실질적인 성능 향상을 가져올 수 있음을 보여줍니다.
Microsoft의 지속적인 연구 개발과 오픈소스 공개를 통해, DIFF Transformer 아키텍처가 차세대 LLM의 표준으로 자리 잡을 가능성이 있습니다. AI 분야 종사자들과 연구자들은 이 기술의 발전 동향을 주목할 필요가 있습니다.
[참고 자료]
- Microsoft Research - Differential Transformer
- Hugging Face Blog - Differential Transformer V2
- arXiv:2410.05258 - Differential Transformer (ICLR 2025)
- GitHub - microsoft/unilm/Diff-Transformer
반응형'AI 뉴스' 카테고리의 다른 글