ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • DeepSeek V4 출시 임박, 중국 오픈소스 AI 생태계의 MoE 아키텍처 혁신 동향 및 전망은? (2026년 2월)
    AI 트렌드 2026. 2. 2. 14:06
    반응형

    2026년 2월, 글로벌 AI 업계의 이목이 중국으로 집중되고 있습니다. 중국의 대표 AI 스타트업 DeepSeek이 차세대 대형 언어 모델 DeepSeek V4 출시를 앞두고 있으며, 이와 함께 중국 전역의 AI 기업들이 MoE(Mixture of Experts) 아키텍처를 중심으로 한 기술 혁신 경쟁에 본격적으로 뛰어들고 있습니다. 본 글에서는 DeepSeek V4의 MODEL1 아키텍처 깃허브 공개 현황부터 mHC 훈련 안정화 기술, DeepSeek-V3의 671B MoE 구조, DeepSeek-OCR 2의 Visual Causal Flow 메커니즘, 그리고 Kimi K2, MiniMax M2, Qwen 등 중국 주요 AI 기업들의 MoE 채택 동향과 바이트댄스, 알리바바의 2월 모델 출시 경쟁, 중국 국산 칩 기반 훈련 TeleChat3 사례까지 상세히 분석해 드리겠습니다.

    DeepSeek V4 출시 임박: MODEL1 아키텍처 깃허브 공개 현황

    DeepSeek은 2026년 2월 중순(약 2월 17일경) V4 모델 출시를 앞두고 FlashMLA 코드베이스를 통해 차세대 아키텍처의 청사진을 공개했습니다. 깃허브 업데이트에서 발견된 "MODEL1"이라는 식별자는 114개 파일에 걸쳐 28회 등장하며, 이는 DeepSeek R1 출시 1주년을 기념하는 시점에 이루어진 공개입니다.

    개발자들의 코드베이스 분석 결과, MODEL1은 기존 DeepSeek-V3.2(리포지토리 내 코드명 "V32")와는 확연히 다른 아키텍처를 갖추고 있는 것으로 확인되었습니다. 주요 변경 사항으로는 키-밸류 캐시 레이아웃의 재구성, 희소성(sparsity) 처리 방식의 변화, FP8 데이터 포맷 디코딩 로직의 개선 등이 포함되어 있으며, 이는 메모리 최적화와 연산 효율성 향상을 목표로 한 구조적 개편으로 해석됩니다.

    특히 주목할 만한 점은 MODEL1이 통합된 512 표준 차원으로 회귀하면서 "Value Vector Position Awareness" 기능을 도입했다는 것입니다. 또한 DeepSeek이 최근 발표한 "Engram" 조건부 메모리 시스템의 구현 가능성도 제기되고 있습니다. Engram은 2026년 1월 13일 발표된 연구로, 정적 패턴 검색과 동적 추론을 분리하여 100만 토큰 이상의 컨텍스트에서 효율적인 검색을 가능하게 하는 기술입니다.

    DeepSeek V4는 MoE(Mixture of Experts)와 Engram을 결합한 이중 희소성(dual-sparsity) 아키텍처를 채택할 것으로 예상됩니다. 이를 통해 동적 추론에는 MoE를, 정적 지식 검색에는 Engram을 활용하는 혁신적인 구조가 구현될 전망입니다. 내부 테스트 결과에 따르면, V4는 특히 긴 코드 프롬프트를 다루는 코딩 벤치마크에서 Anthropic과 OpenAI의 경쟁 모델들을 능가하는 성능을 보일 것으로 예상됩니다.

    mHC(Manifold-Constrained Hyper-Connections) 훈련 안정화 기술 심층 분석

    DeepSeek은 2026년 새해를 맞아 창립자 량원펑(Liang Wenfeng)이 공동 저자로 참여한 혁신적인 기술 논문을 발표했습니다. mHC(Manifold-Constrained Hyper-Connections)는 지난 10년간 AI 모델 훈련의 표준으로 자리 잡은 잔차 연결(residual connection) 패러다임을 근본적으로 재설계한 프레임워크입니다.

    기존의 Hyper-Connections(HC) 기술은 잔차 스트림 너비를 확장하고 연결 패턴을 다양화함으로써 상당한 성능 향상을 가져왔지만, 동시에 잔차 연결 고유의 항등 매핑(identity mapping) 특성을 훼손하는 문제가 있었습니다. 이로 인해 심각한 훈련 불안정성과 확장성 제한이 발생했습니다. DeepSeek 연구진은 실제로 270억 파라미터 모델 훈련 중 신호가 3000배까지 증폭되어 학습이 완전히 발산하는 치명적인 상황을 목격했습니다.

    mHC는 이 문제를 해결하기 위해 연결 행렬을 Birkhoff 다면체(Birkhoff polytope)에 투영하는 방식을 채택했습니다. Birkhoff 다면체는 각 행과 열의 합이 1이 되는 추상적 기하학적 객체로, 이를 통해 신호 전파를 특성들의 볼록 조합(convex combination)으로 처리합니다. 실제 구현에서는 Sinkhorn-Knopp 알고리즘을 사용하여 행과 열을 번갈아가며 정규화하는 반복적 방법을 적용하며, 실험 결과 20회 반복으로 충분한 근사치를 얻을 수 있음이 확인되었습니다.

    mHC의 효과는 실험 결과에서 명확하게 드러납니다. 기존 HC 방식에서는 약 12,000 스텝 부근에서 손실 급증(loss spike)과 기울기 폭발이 발생했으나, mHC를 적용한 경우 기울기 노름이 전체 훈련 과정에서 안정적으로 유지되었습니다. 270억 파라미터 모델 벤치마크에서 mHC는 BBH 점수 51.0(기준선 43.8, HC 48.9), DROP, GSM8K, MMLU 등 전반적인 태스크에서 기준선과 HC 모두를 상회하는 성능을 기록했습니다. 더불어 4배 넓은 잔차 스트림을 사용하면서도 훈련 시간 오버헤드는 단 6.7%에 불과했습니다.

    DeepSeek-V3의 671B MoE 구조와 Multi-head Latent Attention 분석

    DeepSeek-V3는 총 6,710억 파라미터 규모의 MoE(Mixture of Experts) 언어 모델로, 각 토큰당 370억 파라미터만 활성화되는 효율적인 구조를 갖추고 있습니다. 이 모델은 DeepSeek-V2에서 검증된 Multi-head Latent Attention(MLA)과 DeepSeekMoE 아키텍처를 채택하여 효율적인 추론과 비용 효과적인 훈련을 실현했습니다.

    MLA(Multi-head Latent Attention)는 DeepSeek-V3의 핵심 어텐션 메커니즘으로, 잠재 공간(latent space)을 활용하여 KV 캐시 메모리 요구량을 대폭 줄이면서도 모델 성능을 유지합니다. 구체적으로 키-밸류 연산을 위한 저순위 투영(low-rank projection)과 회전 위치 임베딩(rotary positional embedding)의 특수 처리를 통해 연산 및 메모리 요구 사항을 최적화합니다. 모델 구성을 살펴보면, 트랜스포머 디코더에 61개의 은닉층, 각 어텐션 레이어당 128개의 어텐션 헤드, 그리고 그룹 쿼리 어텐션(Grouped Query Attention)을 구현하는 128개의 키-밸류 헤드를 갖추고 있습니다.

    DeepSeek-V3의 또 다른 혁신은 보조 손실 없는(auxiliary-loss-free) 로드 밸런싱 전략입니다. 기존 MoE 모델들은 전문가 간 부하 균형을 맞추기 위해 보조 손실 함수를 사용했는데, 이는 종종 모델 성능에 부정적인 영향을 미쳤습니다. DeepSeek-V3는 이를 제거하면서도 효과적인 로드 밸런싱을 달성했습니다. 또한 더 강력한 성능을 위해 멀티 토큰 예측(Multi-Token Prediction, MTP) 훈련 목표를 설정했으며, Hugging Face에서 제공되는 전체 모델 크기 6,850억 파라미터 중 140억이 MTP 모듈에 할당되어 있습니다.

    훈련 측면에서 DeepSeek-V3는 14.8조 개의 다양하고 고품질의 토큰으로 사전 훈련되었으며, 이후 지도 미세 조정(Supervised Fine-Tuning)과 강화 학습 단계를 거쳤습니다. 전체 훈련에 소요된 시간은 단 278.8만 H800 GPU 시간으로, 탁월한 비용 효율성을 보여주었습니다. 주요 기술 혁신으로는 MLA를 통한 메모리 효율성 향상, MoE 아키텍처를 통한 연산-통신 트레이드오프 최적화, FP8 혼합 정밀도 훈련을 통한 하드웨어 성능 극대화, 그리고 클러스터 수준 네트워크 오버헤드를 최소화하는 다중 평면 네트워크 토폴로지가 있습니다.

    DeepSeek-OCR 2: Visual Causal Flow 메커니즘의 혁신

    DeepSeek은 2026년 1월 27일 DeepSeek-OCR 2를 공식 오픈소스로 공개했습니다. 이 30억 파라미터 규모의 비전-언어 모델은 OmniDocBench v1.5 문서 이해 벤치마크에서 91.09%의 점수를 기록하며, 전작 대비 3.73% 향상된 성능을 보여주었습니다.

    DeepSeek-OCR 2의 핵심 혁신은 Visual Causal Flow 기술입니다. 기존의 비전-언어 모델(VLM)은 시각 토큰을 처리할 때 고정된 래스터 스캔 순서(좌상단에서 우하단)와 고정된 위치 인코딩을 사용했습니다. 그러나 이는 인간의 시각 인지 방식과 모순됩니다. 인간은 내재된 논리 구조에 따라 유연하면서도 의미론적으로 일관된 스캐닝 패턴을 따르기 때문입니다. Visual Causal Flow는 콘텐츠에 기반하여 시각 토큰을 동적으로 재정렬하는 기술로, 고정된 스캐닝 패턴에서 벗어난 혁신적인 접근 방식입니다.

    DeepSeek-OCR 2의 또 다른 핵심 구성 요소는 DeepEncoder V2입니다. 기존의 CLIP 인코더를 알리바바의 오픈소스 Qwen2-0.5B 모델로 대체함으로써, 고정된 스캐닝 패턴에서 의미론적 추론으로의 근본적인 전환을 이루었습니다. 어텐션 마스크 설계가 핵심인데, 시각 토큰 간에는 ViT와 유사한 양방향 어텐션을 사용하여 전역 인식 능력을 유지하면서, 쿼리 토큰에는 인과적 어텐션을 적용하여 각 쿼리 토큰이 이전 토큰들만 참조할 수 있도록 합니다.

    이러한 수정을 통해 DeepSeek-OCR 2는 인간의 독서 습관을 시뮬레이션할 수 있게 되었습니다. 제목을 먼저 스캔하고, 본문 텍스트를 읽은 후, 테이블을 열별 또는 행별로 탐색하며, 다단 레이아웃을 자동으로 탐색합니다. 최종적으로 인코더 출력의 후반부인 인과적 흐름 토큰만 LLM 디코더에 전달되어 연쇄적인 인과 인식 시각 이해를 가능하게 합니다. 이 기술은 OCR을 넘어 문서 이해, 시각적 질의응답, 이미지 캡셔닝 등 다양한 VLM 태스크에 적용될 수 있는 패러다임 전환으로 평가받고 있습니다.

    Kimi K2, MiniMax M2, Qwen: 중국 AI 기업들의 MoE 아키텍처 채택 동향

    지난 1년간 중국 AI 커뮤니티의 선도 모델들은 거의 만장일치로 MoE(Mixture of Experts) 아키텍처로 이동했습니다. Kimi K2, MiniMax M2, Qwen3 등 주요 모델들이 모두 MoE를 채택했으며, 이는 중국의 현실적 제약 조건(높은 성능을 유지하면서 비용 통제) 하에서 MoE가 자연스러운 해결책으로 부상했기 때문입니다. MoE는 태스크 복잡성에 따라 서로 다른 수의 전문가를 동적으로 활성화하여 요청 간 연산 자원을 효율적으로 배분하는 제어 가능한 연산 분배 시스템으로 작동합니다.

    문샷AI(Moonshot AI)의 Kimi K2는 총 1조 파라미터에 활성화 파라미터 320억 규모의 MoE 언어 모델입니다. Muon 옵티마이저로 훈련되었으며, 프론티어 지식, 추론, 코딩 태스크에서 탁월한 성능을 보이면서 에이전틱 기능에 최적화되어 있습니다. 2026년 1월에는 Kimi K2.5가 출시되었으며, 동일한 1조 파라미터 MoE 구조에 320억 활성화 파라미터를 유지합니다. Kimi K2 Thinking은 추론 및 에이전틱 능력에 최적화되어 있으며, 256K 컨텍스트 윈도우를 지원하고 INT4 양자화를 사용합니다. 훈련 비용이 단 460만 달러에 불과한 것으로 알려져 비용 효율성 측면에서도 주목받고 있습니다.

    MiniMax의 M2는 MIT 라이선스로 공개된 오픈소스 MoE 모델로, 코딩과 에이전틱 워크플로우에 특화되어 있습니다. M2의 특징적인 기능은 "인터리브드 씽킹(interleaved thinking)"으로, 인간이 실제로 일하는 방식을 모방합니다. 행동을 취하고, 결과를 성찰하고, 올바른 방향인지 평가한 후 다음 행동을 결정합니다. MiniMax M2는 SWE-bench에서 69.4점을 달성하면서 Claude 비용의 8%만 소요되어 뛰어난 가성비를 입증했습니다.

    알리바바 클라우드의 Qwen 3는 4,800억 파라미터(활성화 350억)로 확장되었으며, 이중 사고 모드(dual thinking modes)를 사용하고 컨텍스트 윈도우를 256K~1M 토큰까지 확장하여 리포지토리 규모의 태스크를 처리합니다. Qwen 3 Coder는 SWE-bench에서 67%로 리드하고 있으며, Kimi K2가 65.8%로 뒤를 잇고 GPT-4.1의 54.6%를 크게 상회합니다. 중국 모델들은 서구 대안 대비 50~90%의 비용 절감을 제공하면서도 경쟁력 있는 성능을 보여주고 있습니다.

    바이트댄스와 알리바바의 2월 모델 출시 경쟁

    2026년 2월 중순 춘절(설날) 연휴 기간을 앞두고, 중국 테크 대기업 바이트댄스와 알리바바가 차세대 AI 모델 출시를 준비하며 중국 내 AI 주도권 경쟁이 격화되고 있습니다. 이 시기의 전략적 의미는 대부분의 중국인이 1주일간 휴가를 즐기며 뉴스와 엔터테인먼트 콘텐츠에 충분한 시간을 할애하는 "캡티브 오디언스"를 확보할 수 있다는 점입니다.

    바이트댄스는 2월 중 세 가지 새로운 AI 모델을 출시할 예정입니다. Doubao 2.0(대형 언어 모델), Seedream 5.0(이미지 생성 모델), SeedDance 2.0(비디오 생성 모델)이 그것입니다. 바이트댄스의 Doubao 챗봇은 2025년 12월 기준 월간 활성 사용자 1억 6,300만 명을 기록하며 사용자 수 기준 중국 최대 AI 애플리케이션으로 자리매김했습니다. 바이트댄스는 Doubao 챗봇을 Douyin(틱톡의 중국 버전) 앱에도 통합했습니다.

    알리바바는 같은 시기에 복잡한 추론 태스크에 특화된 새로운 플래그십 AI 모델 Qwen 3.5를 출시할 계획입니다. 이 새 모델은 강력한 수학 및 코딩 기능을 제공할 것으로 알려져 있습니다. 춘절 기간 동안 알리바바는 Qwen 소비자 버전에 대한 대규모 마케팅 캠페인을 전개하여 바이트댄스의 인기 있는 Doubao 챗봇과 직접 경쟁할 예정입니다. 알리바바의 내부 목표는 2026년 상반기 중 모든 알리바바 생태계 서비스를 Qwen 앱에 통합하는 것입니다.

    DeepSeek 또한 같은 시기에 차세대 주요 모델을 출시할 계획인 것으로 알려져 있습니다. 최근 DeepSeek 깃허브 리포지토리 업데이트에서 발견된 새로운 아키텍처 식별자 "MODEL1"은 차세대 플래그십 모델 DeepSeek V4의 기술적 토대로 해석되며, 2월 중순(약 2월 17일경) 출시 가능성이 제기되고 있습니다. 중국 기업들은 미국의 OpenAI, Anthropic, Google과의 경쟁이 심화되면서 새로운 AI 모델 출시를 가속화하고 있습니다.

    TeleChat3: 중국 국산 칩 기반 AI 훈련의 이정표

    국영 기업 차이나 텔레콤(China Telecom)은 MoE 아키텍처를 기반으로 하고 화웨이 테크놀로지스의 국산 칩에서 전적으로 훈련된 중국 최초의 대규모 AI 모델을 공개했습니다. 차이나 텔레콤 인공지능 연구소(TeleAI)가 발표한 기술 논문에 따르면, TeleChat3 모델은 1,050억에서 수조 파라미터 규모로, 화웨이의 어센드 910B 칩과 오픈소스 딥러닝 AI 프레임워크 MindSpore에서 훈련되었습니다.

    TeleChat3의 성공은 2026년 초 즈푸AI(Zhipu AI)의 GLM-Image와 함께 국산 컴퓨팅이 더 이상 추론에만 국한되지 않고 훈련 파이프라인의 핵심 단계에 진입하기 시작했음을 보여줍니다. 차이나 텔레콤 연구진은 화웨이의 어센드 910B 칩과 MindSpore 프레임워크가 복잡한 병렬 처리, 칩 간 통신, 훈련 안정성 문제 등 이 아키텍처를 대규모로 지원할 수 있음을 입증했다고 밝혔습니다. 연구진은 "이러한 기여들이 프론티어 규모 모델 훈련의 중요한 병목 현상을 해결하며, 국내 컴퓨팅 생태계에 맞춤화된 성숙한 풀스택 솔루션을 구축했다"고 평가했습니다.

    물론 현실적인 한계도 존재합니다. 차이나 텔레콤이 자체 보고한 TeleChat3 모델의 성능 점수는 OpenAI의 GPT-OSS-120B(2024년 8월 출시)에 비해 여러 벤치마크에서 뒤처지는 것으로 나타났습니다. 또한 DeepSeek의 경우 R2 훈련 과정에서 중국 당국이 화웨이 어센드 칩 사용을 권장했으나 지속적인 기술적 문제로 인해 결국 엔비디아 칩으로 교체한 것으로 알려져 있습니다. 화웨이의 최신 어센드 910C 칩은 과열로 인한 작동 불안정 문제가 지적되고 있으며, 추론에서는 성과를 내고 있지만 전반적인 성능과 개발 생태계에서 엔비디아의 벽을 넘기 어려운 상황입니다.

    그럼에도 불구하고 TeleChat3와 같은 사례는 중국 기업들이 미국 기술로부터의 독립성을 확보하기 위해 일부 성능 트레이드오프를 감수하려는 의지가 커지고 있음을 시사합니다. 중국 정부는 향후 5년간 AI 스택 전반에 걸친 자립을 핵심 경제 및 국가 안보 목표로 설정했으며, 칩 설계, AI 프레임워크, 그리고 저성능 하드웨어에서 더 많은 출력을 끌어내는 모델 최적화 기술에 대한 투자를 확대하고 있습니다. MoE 아키텍처는 무차별적인 연산 능력보다 소프트웨어 정교함에 보상을 주는 특성으로 인해 이러한 전략에 적합한 것으로 평가받고 있습니다.

    결론 및 전망

    2026년 2월, 중국 오픈소스 AI 생태계는 그 어느 때보다 역동적인 변화를 맞이하고 있습니다. DeepSeek V4의 MODEL1 아키텍처와 mHC 훈련 안정화 기술은 대형 언어 모델의 확장성과 효율성에 새로운 지평을 열 것으로 기대됩니다. DeepSeek-V3의 671B MoE 구조와 Multi-head Latent Attention은 이미 업계 표준으로 자리 잡았으며, DeepSeek-OCR 2의 Visual Causal Flow는 비전-언어 모델의 새로운 패러다임을 제시하고 있습니다.

    Kimi K2, MiniMax M2, Qwen 등 중국 주요 AI 기업들의 MoE 아키텍처 채택은 이 기술이 비용 효율성과 성능 사이의 최적의 균형점을 제공한다는 것을 입증합니다. 바이트댄스와 알리바바의 2월 모델 출시 경쟁은 중국 AI 시장의 치열한 경쟁 구도를 보여주며, TeleChat3와 같은 국산 칩 기반 훈련 사례는 중국의 기술 자립 노력이 구체적인 성과로 이어지고 있음을 시사합니다.

    물론 아직 과제도 남아 있습니다. 알리바바 Qwen 개발을 총괄하는 저스틴 린은 향후 3~5년 내 중국 기업이 OpenAI나 Anthropic을 제치고 AI 선두에 설 가능성을 20% 이하로 평가했습니다. 그러나 중국 모델들이 서구 대안 대비 50~90%의 비용 절감을 제공하면서 SWE-bench 등 주요 벤치마크에서 GPT-4.1을 상회하는 성능을 보여주고 있다는 점은 분명히 주목할 만합니다. 2026년 2월 중순 춘절 연휴를 기점으로 DeepSeek V4, Doubao 2.0, Qwen 3.5 등 새로운 모델들이 어떤 혁신을 가져올지 귀추가 주목됩니다.

    카테고리: AI 뉴스

    반응형
Designed by Tistory.