-
NVIDIA Cosmos Policy 로봇 비전모터 제어 모델 기술 분석: LIBERO 98.5% 성공률과 CES 2026 발표 내용 (2026년 2월)AI 개발 2026. 2. 3. 10:09반응형
NVIDIA가 CES 2026에서 발표한 Cosmos Policy는 로봇 제어 분야에 혁신적인 변화를 가져오고 있습니다. 기존의 비전-언어 모델(VLM) 기반 접근 방식과 달리, 세계 기반 모델(World Foundation Model)을 활용하여 로봇의 동작, 물리적 상태, 성공 점수를 비디오 프레임처럼 인코딩하는 독창적인 방식을 채택했습니다. 이 기술은 LIBERO 벤치마크에서 98.5%, RoboCasa에서 67.1%의 성공률을 달성하며 업계 최고 수준의 성능을 입증했습니다. 특히 실제 ALOHA 양팔 로봇 조작 실험에서도 최고 점수를 기록하여 실용성까지 검증받았습니다.

Cosmos Policy의 핵심 원리: 세계 기반 모델 기반 로봇 제어
Cosmos Policy는 NVIDIA의 Cosmos Predict-2 세계 기반 모델을 기반으로 합니다. 세계 기반 모델(World Foundation Model, WFM)은 시간에 따라 장면이 어떻게 변화하는지 예측하고, 비디오를 통해 시간적 역학을 생성하도록 훈련된 모델입니다. 이는 기존의 비전-언어 모델과 근본적으로 다른 접근 방식입니다.
기존의 로봇 조작 접근 방식 대부분은 대규모 이미지-텍스트 데이터셋으로 훈련된 비전-언어 모델(VLM)을 기반으로 하며, 이를 미세 조정하여 로봇 동작을 예측합니다. 이러한 모델들은 비디오를 이해하고 보이는 것을 설명하는 방법은 학습하지만, 실제로 물리적 동작을 수행하는 방법은 학습하지 않습니다. VLM은 "왼쪽으로 돌아라" 또는 "보라색 컵을 집어라"와 같은 고수준 동작을 제안할 수 있지만, 이를 정밀하게 수행하는 방법은 알지 못합니다.
반면, Cosmos Policy가 기반하는 세계 기반 모델은 물리학, 중력, 장면이 시간에 따라 어떻게 변화하는지에 대한 사전 학습된 이해를 활용할 수 있습니다. Cosmos Predict는 연속적인 시공간 잠재 표현에 대한 확산(diffusion) 목표를 사용하여 물리적 AI를 위해 훈련되었으며, 긴 시간 범위에 걸쳐 복잡하고 고차원적이며 다중 모달적인 분포를 모델링할 수 있습니다.
비디오 프레임처럼 로봇 데이터를 인코딩하는 혁신적 방식
Cosmos Policy의 가장 혁신적인 부분은 데이터 표현 방식입니다. 로봇의 인식과 제어를 위한 별도의 신경망을 구축하는 대신, 로봇의 동작, 물리적 상태, 성공 점수를 마치 비디오의 프레임처럼 처리합니다. 이 모든 것이 추가적인 잠재 프레임(latent frame)으로 인코딩되며, 비디오 생성과 동일한 확산 프로세스를 사용하여 학습됩니다.
구체적인 기술 과정을 살펴보면, 먼저 여러 카메라 시점의 이미지 시퀀스와 함께 새로운 모달리티를 주입할 자리 표시자 역할을 하는 빈(모두 0인) 이미지가 입력됩니다. 비디오 모델의 VAE 토크나이저가 이 이미지 시퀀스를 잠재 프레임으로 변환하면, 잠재 주입(latent injection)을 수행합니다. 이 과정에서 빈 자리 표시자 이미지에 해당하는 잠재 프레임을 로봇 고유 수용성 감각(proprioception), 동작 청크(action chunk), 가치(value)의 정규화되고 복제된 사본으로 덮어씁니다.
정규화는 각 모달리티를 [-1, +1] 범위로 재조정하고, 복제는 저차원 벡터와 대상 잠재 볼륨 간의 형태 불일치를 해결합니다. 이러한 방식으로 Cosmos Policy는 비디오 모델의 잠재 확산 프로세스 내에서 로봇 동작을 잠재 프레임으로 직접 생성하는 방법을 학습하여, 모델의 사전 훈련된 프라이어와 핵심 학습 알고리즘을 활용하여 복잡한 동작 분포를 포착합니다.

벤치마크 성능: LIBERO 98.5%, RoboCasa 67.1% 달성
Cosmos Policy는 주요 시뮬레이션 벤치마크에서 최첨단 성능을 달성했습니다. LIBERO 벤치마크에서 98.5%, RoboCasa 벤치마크에서 67.1%의 평균 성공률을 기록하여, 처음부터 훈련된 확산 기반 정책, 비디오 기반 정책(UVA, Video Policy 등), 미세 조정된 VLA 모델(UniVLA, DP-VLA, GR00T-N1.5 등)을 모두 능가했습니다.
벤치마크 Cosmos Policy 성공률 특징 LIBERO 98.5% 정밀한 시간적 조정과 다단계 실행이 필요한 작업 RoboCasa 67.1% 다양한 가정용 조작 시나리오에서의 일반화 실제 양팔 조작 93.6% 도전적인 실세계 양팔 조작 작업에서 최고 평균 성공률 LIBERO에서 Cosmos Policy는 특히 정밀한 시간적 조정과 다단계 실행이 필요한 작업에서 이전의 확산 정책과 VLA 기반 접근 방식을 일관되게 능가했습니다. RoboCasa에서는 처음부터 훈련된 기준선보다 높은 성공률을 달성하여, 다양한 가정용 조작 시나리오에서 향상된 일반화 능력을 보여주었습니다.
실제 ALOHA 양팔 로봇에서의 최고 성능
Cosmos Policy는 시뮬레이션뿐만 아니라 실제 로봇 플랫폼에서도 그 우수성을 입증했습니다. ALOHA 로봇 플랫폼을 사용한 실세계 양팔 조작 작업에서 평가되었으며, 시각 관찰만으로 긴 시간 범위의 조작 작업을 성공적으로 수행했습니다.
도전적인 실세계 양팔 조작 작업에서 최첨단 정책들 중 최고 평균 성공률(93.6%)을 달성했습니다. 특히 주목할 점은 모델 기반 계획(model-based planning)을 통해 성능이 더욱 향상된다는 것입니다. 두 가지 도전적인 실세계 조작 작업에서 모델 기반 계획을 적용했을 때 평균 12.5% 더 높은 작업 완료율을 관찰했습니다.
Cosmos Policy는 동작 청크뿐만 아니라 미래 상태 이미지와 가치(예상 총 누적 보상)도 생성합니다. 이들도 마찬가지로 잠재 프레임으로 인코딩되어, 테스트 시 더 높은 성공 가능성을 가진 동작 궤적을 계획할 수 있습니다. 이러한 실험에서 Cosmos Policy는 정책 롤아웃의 과거 경험을 통합하여 세계 모델과 가치 함수를 개선하고 더 효과적으로 계획할 수 있습니다.
VLA 모델 및 확산 정책 대비 성능 우위
Cosmos Policy는 시뮬레이션 벤치마크와 실세계 로봇 조작 작업 전반에 걸쳐 처음부터 훈련된 확산 기반 정책, 비디오 기반 로봇 정책, 미세 조정된 비전-언어-액션(VLA) 모델과 비교 평가되었습니다. 모든 비교에서 Cosmos Policy가 우수한 성능을 보여주었습니다.
최근 비디오 생성 모델들은 복잡한 물리적 상호작용과 시간에 따른 장면 진화를 포착하는 놀라운 능력을 보여주고 있습니다. 이러한 시공간 프라이어를 활용하기 위해 로봇 공학 연구에서는 비디오 모델을 정책 학습에 적용해 왔지만, 동작 생성을 위한 여러 단계의 후훈련과 새로운 아키텍처 구성 요소를 필요로 하여 복잡성이 증가했습니다.
반면, Cosmos Policy는 단일 단계의 후훈련만으로 대규모 사전 훈련된 비디오 모델(Cosmos-Predict2)을 효과적인 로봇 정책으로 적응시키는 간단한 접근 방식입니다. 아키텍처 수정 없이 대상 플랫폼에서 수집된 로봇 시연 데이터로만 후훈련을 수행합니다. 두 벤치마크 모두에서 Cosmos Predict로부터 초기화하면 비디오 사전 훈련 없이 동등한 아키텍처를 훈련하는 것보다 상당한 성능 이점을 제공합니다.

CES 2026 발표: NVIDIA 로봇 파운데이션 모델 스택
NVIDIA는 CES 2026에서 물리적 AI를 위한 새로운 오픈 모델, 프레임워크, AI 인프라를 발표했으며, 글로벌 파트너들의 차세대 로봇을 공개했습니다. NVIDIA 창업자이자 CEO인 젠슨 황은 기조연설에서 "물리적 AI의 발전이 실세계 응용의 새로운 물결을 열고 있다"며 "로봇 공학의 ChatGPT 순간이 도래했다"고 선언했습니다.
CES 2026에서 발표된 새로운 모델들은 다음과 같습니다:
NVIDIA Cosmos Predict 2.5: 물리적 AI를 위한 물리 기반 합성 데이터 생성과 시뮬레이션에서의 로봇 정책 평가를 가능하게 하는 오픈형 완전 맞춤화 가능 세계 모델입니다.
NVIDIA Cosmos Reason 2: 지능형 기계가 인간처럼 물리적 세계를 보고, 이해하고, 행동할 수 있게 하는 오픈 추론 비전 언어 모델(VLM)입니다.
NVIDIA Isaac GR00T N1.6: 휴머노이드 로봇을 위해 특별히 설계된 오픈 추론 비전 언어 액션(VLA) 모델로, 전신 제어를 가능하게 하고 더 나은 추론과 맥락 이해를 위해 NVIDIA Cosmos Reason을 사용합니다.
또한 NVIDIA Isaac Lab-Arena는 GitHub에서 제공되는 오픈소스 프레임워크로, 시뮬레이션에서 대규모 로봇 정책 평가와 벤치마킹을 위한 협업 시스템을 제공합니다. Isaac Lab-Arena는 LIBERO와 RoboCasa와 같은 업계 선도 벤치마크와 연결되어 테스트를 표준화하고, 로봇 기술이 물리적 하드웨어에 배포되기 전에 견고하고 신뢰할 수 있는지 확인합니다.
오픈소스 코드, 모델, 훈련 데이터 공개 현황
NVIDIA는 Cosmos Policy의 코드, 모델, 훈련 데이터를 모두 공개했습니다. GitHub의 NVlabs/cosmos-policy 저장소에서 전체 소스 코드에 접근할 수 있으며, Hugging Face에서는 모델과 데이터셋을 다운로드할 수 있습니다.
NVIDIA는 오픈소스 훈련 프레임워크와 함께 세계 최대 규모의 오픈 멀티모달 데이터 컬렉션 중 하나를 제공합니다. 이 데이터에는 다음이 포함됩니다:
데이터 유형 규모 언어 훈련용 토큰 10조 개 로보틱스 궤적 데이터 50만 개 단백질 구조 데이터 45만 5천 개 차량 센서 데이터 100TB 로봇 개발자를 위한 활용 가이드
로봇 개발자들은 Cosmos Policy를 다양한 방식으로 활용할 수 있습니다. 먼저 Cosmos Cookbook을 통해 실용적인 가이드를 제공받을 수 있습니다. Cosmos Cookbook은 Cosmos 오픈 모델에 대한 단계별 워크플로우, 기술 레시피, 구체적인 예제를 제공합니다. Cosmos 생태계는 사전 훈련된 모델을 사용한 추론부터 도메인 적응을 위한 맞춤형 후훈련까지 전체 물리적 AI 개발 라이프사이클을 지원합니다.
하드웨어 요구 사항도 비교적 합리적입니다. LIBERO 시뮬레이션 벤치마크 작업에는 6.8GB VRAM을 가진 GPU 1개가 필요하고, RoboCasa 시뮬레이션 벤치마크 작업에는 8.9GB VRAM을 가진 GPU 1개가 필요합니다. 이는 많은 개발자들이 접근 가능한 수준입니다.
문서화도 잘 되어 있어, LIBERO 시뮬레이션 벤치마크 작업 스위트에서의 미세 조정 및 평가, RoboCasa 시뮬레이션 벤치마크 작업, 실세계 ALOHA 로봇 작업에 대한 가이드가 제공됩니다.
Cosmos Policy는 로봇 제어 및 계획을 위해 세계 기반 모델을 적응시키는 초기 단계를 나타냅니다. NVIDIA는 초기 채택자들과 적극적으로 협력하여 로봇 공학 커뮤니티를 위해 이 연구를 발전시키고 있으며, Cosmos Policy는 실용적인 Cosmos Cookbook 레시피를 통해 개발자들에게 계속 제공됩니다.
코드 예시: Cosmos Policy 시작하기
개발자들이 Cosmos Policy를 시작하는 데 도움이 되는 기본 코드 구조는 다음과 같습니다:
# Cosmos Policy 설치 및 환경 설정 git clone https://github.com/NVlabs/cosmos-policy.git cd cosmos-policy pip install -r requirements.txt # Hugging Face에서 모델 다운로드 from huggingface_hub import hf_hub_download model_path = hf_hub_download( repo_id="nvidia/cosmos-policy", filename="model.pt" ) # LIBERO 벤치마크에서 평가 실행 python evaluate.py --benchmark libero --model_path $model_path위 코드는 기본적인 시작 가이드이며, 실제 구현 시에는 GitHub 저장소의 상세 문서를 참조하시기 바랍니다. NVIDIA는 지속적으로 문서를 업데이트하고 있으며, 커뮤니티의 피드백을 반영하여 개선하고 있습니다.
결론: 로봇 제어의 새로운 패러다임
NVIDIA Cosmos Policy는 로봇 제어 분야에서 새로운 패러다임을 제시하고 있습니다. 세계 기반 모델을 활용하여 로봇의 동작, 상태, 가치를 비디오 프레임처럼 인코딩하는 독창적인 접근 방식은 기존의 VLA 모델이나 확산 정책의 한계를 극복합니다. LIBERO와 RoboCasa 벤치마크에서의 최첨단 성능, 실제 ALOHA 로봇에서의 검증된 성과, 그리고 완전 오픈소스로 공개된 코드와 데이터는 로봇 개발자들에게 강력한 도구를 제공합니다.
젠슨 황 CEO가 언급한 "로봇 공학의 ChatGPT 순간"은 과장이 아닐 수 있습니다. 안드로이드가 스마트폰 생태계의 표준이 되었듯이, NVIDIA의 물리적 AI 스택이 로봇 공학의 표준 플랫폼으로 자리잡을 가능성이 높아 보입니다. 로봇 개발자들은 지금 바로 GitHub와 Hugging Face에서 Cosmos Policy를 다운로드하여 자신의 로봇 프로젝트에 적용해 볼 수 있습니다.
물리적 AI 시대가 본격적으로 열리고 있으며, Cosmos Policy는 그 중심에 서 있습니다. 앞으로 이 기술이 산업용 로봇, 가정용 로봇, 휴머노이드 로봇 등 다양한 분야에서 어떤 혁신을 가져올지 기대됩니다.
반응형'AI 개발' 카테고리의 다른 글
Apple Xcode 26.3 에이전틱 코딩 기능과 Claude·Codex 통합 가이드 (2026년 2월) (0) 2026.02.05 Hugging Face Upskill로 Claude CUDA 커널 오픈소스 모델 학습 가이드 (2026년 2월) (0) 2026.02.02 2026년 AI 에이전트 보안 위협과 다크 LLM 현황 분석: 기업의 대응 전략은? (0) 2026.02.01 Hugging Face Daggr 앱 체이닝 플랫폼 완벽 가이드: AI 워크플로우 구축의 새로운 패러다임 (2026년 1월) (1) 2026.01.31 NVIDIA Cosmos Policy 로봇 제어 AI 모델 기술 분석 및 활용 가이드 (2026년 1월) (0) 2026.01.30