ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Overworld Waypoint-1 실시간 인터랙티브 비디오 디퓨전 모델 소개, 23억 파라미터 월드 모델의 게임 및 창작 분야 활용 전망은? (2026년 1월)
    AI 도구 2026. 1. 25. 10:48
    반응형

    2026년 1월 20일, AI 스타트업 Overworld가 실시간 인터랙티브 비디오 디퓨전 모델인 Waypoint-1을 공개하였습니다. 이 모델은 23억(2.3B) 파라미터 규모로, 텍스트 프롬프트와 마우스, 키보드 입력을 통해 실시간으로 제어 가능한 월드 모델입니다. 특히 소비자용 GPU인 RTX 5090에서 최대 60FPS의 실시간 비디오 생성이 가능하다는 점에서 게임 개발 및 창작 분야에 혁신적인 변화를 예고하고 있습니다.

    Waypoint-1이란 무엇인가

    Waypoint-1은 Overworld(구 Wayfarer Labs)가 개발한 실시간 인터랙티브 비디오 디퓨전 모델입니다. 이 모델의 핵심 특징은 사용자가 몇 개의 초기 프레임을 제공하면, 모델이 이를 기반으로 직접 들어가서 상호작용할 수 있는 가상 세계를 생성한다는 점입니다. 기존의 비디오 생성 AI가 단순히 영상을 출력하는 데 그쳤다면, Waypoint-1은 사용자의 입력에 실시간으로 반응하며 프레임을 생성하는 진정한 의미의 '월드 모델'입니다.

    월드 모델(World Model)이란 환경을 시뮬레이션하고 예측하는 AI 시스템을 의미합니다. 기존의 월드 모델들은 대부분 사전 학습된 비디오 모델을 미세 조정하여 간단한 제어 입력만을 지원했습니다. 카메라 이동도 몇 프레임에 한 번씩만 가능했고, 상당한 지연(latency) 문제가 있었습니다. 반면 Waypoint-1은 처음부터 상호작용 경험을 위해 설계되어 마우스와 키보드의 모든 입력을 지연 없이 처리할 수 있습니다.

    23억 파라미터 모델의 기술적 구조

    Waypoint-1-Small은 23억(2.3B) 파라미터 규모의 제어 및 텍스트 조건부 인과적 디퓨전 모델입니다. 모델의 백본(backbone)은 Frame-causal Rectified Flow Transformer로 구성되어 있으며, 10,000시간에 달하는 다양한 비디오 게임 영상과 제어 입력, 텍스트 캡션을 쌍으로 학습하였습니다.

    모델 아키텍처의 핵심은 Rectified Flow를 활용한 트랜스포머 구조이며, Self-Forcing과 DMD(Distribution Matching Distillation)를 통해 증류(distillation)되었습니다. 이러한 기술적 조합 덕분에 높은 품질의 프레임을 빠르게 생성할 수 있습니다.

    항목 상세 정보
    모델명 Waypoint-1-Small
    파라미터 수 23억 (2.3B)
    기본 구조 Frame-causal Rectified Flow Transformer
    학습 데이터 10,000시간 게임 영상 + 제어 입력 + 텍스트 캡션
    입력 방식 텍스트 프롬프트, 마우스, 키보드

    혁신적인 학습 방법론: Diffusion Forcing과 Self-Forcing

    Waypoint-1의 학습은 두 가지 핵심 기법을 순차적으로 적용합니다. 첫 번째 단계는 Diffusion Forcing을 통한 사전 학습입니다. 이 기법에서 모델은 과거 프레임이 주어졌을 때 미래 프레임의 노이즈를 제거하는 방법을 학습합니다. Causal Attention Mask가 적용되어 특정 프레임의 토큰은 자신의 프레임이나 과거 프레임의 토큰만 참조할 수 있습니다. 각 프레임은 무작위로 노이즈가 추가되며, 모델은 각 프레임을 개별적으로 노이즈 제거하는 방법을 학습합니다.

    두 번째 단계는 Self-Forcing을 통한 후속 학습입니다. Diffusion Forcing의 학습 과정에서는 각 프레임이 무작위로 노이즈가 추가되지만, 실제 추론(inference) 시에는 프레임별로 자동 회귀적(autoregressive) 롤아웃이 일어납니다. 이러한 불일치가 오류 누적과 장기 롤아웃에서의 노이즈 문제를 야기합니다. Self-Forcing은 이러한 문제를 해결하여 실제 추론 상황과 일치하는 학습을 가능하게 합니다. 추가적으로 One-pass CFG(Classifier-Free Guidance) 지원과 Few-step Denoising이 가능해집니다.

    텍스트, 마우스, 키보드로 제어하는 월드 모델

    Waypoint-1의 가장 혁신적인 특징은 다양한 입력 방식을 통한 실시간 제어입니다. 사용자는 텍스트 프롬프트를 통해 생성하고자 하는 세계의 개념을 설명할 수 있습니다. 예를 들어 "아름다운 계곡에서 염소를 모는 게임"이라는 프롬프트를 입력하면, 모델은 해당 설명에 맞는 세계를 생성합니다.

    마우스 입력을 통해서는 카메라를 자유롭게 움직일 수 있으며, 키보드의 모든 키 입력이 지원됩니다. 기존 월드 모델들이 몇 프레임에 한 번씩만 제한적인 카메라 이동을 허용했던 것과 달리, Waypoint-1은 제어에 관한 제한이 없습니다. 모든 입력이 지연 없이 처리되어 마치 실제 게임을 플레이하는 것과 같은 경험을 제공합니다.

    WorldEngine은 과거 프레임들, 제어 입력, 현재 프롬프트를 기반으로 각각의 새로운 프레임을 계산합니다. 생성된 프레임은 시퀀스에 추가되어 이후 프레임들이 이미 생성된 내용과 일관성을 유지하도록 합니다. 이러한 구조 덕분에 연속적이고 일관된 가상 세계 경험이 가능합니다.

    RTX 5090에서 60FPS 실시간 생성

    Waypoint-1의 또 다른 주요 특징은 소비자용 하드웨어에서의 실시간 성능입니다. RTX 5090 GPU에서 Waypoint-1-Small(2.3B)을 실행할 경우, WorldEngine은 초당 약 30,000 토큰 패스를 유지합니다. 단일 노이즈 제거 패스 기준이며, 프레임당 256개의 토큰을 처리합니다.

    Denoising 스텝 달성 FPS 용도
    4 스텝 30 FPS 높은 품질의 프레임 생성
    2 스텝 60 FPS 부드러운 실시간 경험

    이러한 성능을 달성하기 위해 여러 최적화 기법이 적용되었습니다. AdaLN Feature Caching은 반복되는 조건부 프로젝션을 제거하고, 동일한 프롬프트 및 타임스텝 간에 캐싱을 재사용합니다. Static Rolling KV Cache와 Flex Attention을 통해 메모리 효율성과 어텐션 메커니즘을 최적화합니다. Matmul Fusion은 QKV 프로젝션을 융합하여 연산 효율을 높입니다. 또한 torch.compile을 fullgraph=True, mode="max-autotune" 옵션으로 적용하여 추가적인 성능 향상을 달성하였습니다.

    Overworld는 로컬 실행을 위해 RTX 5090을 권장하며, 이 GPU에서 20-30 FPS의 성능을 기대할 수 있다고 밝혔습니다. RTX 6000 Pro Blackwell에서는 약 35 FPS를 달성할 수 있습니다. 모델이 로컬 GPU에서 실행되기 때문에 데이터 센터 왕복 통신이 필요 없어 예측 불가능한 지연을 방지할 수 있습니다.

    WorldEngine: 개발자를 위한 추론 라이브러리

    Overworld는 Waypoint-1과 함께 WorldEngine이라는 고성능 추론 라이브러리를 공개하였습니다. WorldEngine은 인터랙티브 월드 모델 스트리밍을 위해 최적화된 순수 Python 라이브러리로, 저지연, 높은 처리량, 확장성, 개발자 편의성을 핵심 가치로 삼고 있습니다.

    WorldEngine의 API는 직관적이고 사용하기 쉽습니다. 개발자는 추론 엔진을 생성하고, 프롬프트를 설정한 후, 제어 입력에 따라 프레임을 생성할 수 있습니다. 제어 입력은 CtrlInput 데이터클래스를 통해 버튼(눌린 버튼 ID 집합)과 마우스 위치(x, y 좌표 튜플)를 지정합니다.

    from world_engine import WorldEngine, CtrlInput
    
    # 추론 엔진 생성
    engine = WorldEngine("Overworld/Waypoint-1-Small", device="cuda")
    
    # 프롬프트 설정
    engine.set_prompt("A game where you herd goats in a beautiful valley")
    
    # 제어 입력에 따라 프레임 생성
    for controller_input in [
        CtrlInput(button={48, 42}, mouse=[0.4, 0.3]),
        CtrlInput(mouse=[0.1, 0.2]),
        CtrlInput(button={95, 32, 105}),
    ]:
        img = engine.gen_frame(ctrl=controller_input)

    또한 Biome이라는 로컬 데스크톱 클라이언트도 제공됩니다. Biome은 Waypoint 월드 모델을 실행하기 위한 Overworld의 공식 인터페이스로, 로컬 GPU 서버에 연결하여 AI 생성 인터랙티브 환경을 스트리밍합니다. WorldEngine과 Waypoint-1은 Diffusers Modular Pipelines와도 통합하여 사용할 수 있습니다.

    게임 개발 분야에서의 활용 가능성

    Waypoint-1은 게임 개발 분야에서 혁신적인 활용 가능성을 제시합니다. 가장 직접적인 활용 사례는 프로토타이핑입니다. 게임 개발자는 텍스트 프롬프트만으로 게임 컨셉을 빠르게 시각화하고 테스트할 수 있습니다. 전통적인 게임 개발에서 프로토타입을 만들기 위해 필요했던 아트 에셋 제작, 레벨 디자인, 프로그래밍 과정이 크게 단축될 수 있습니다.

    인디 게임 개발자나 소규모 개발팀에게는 특히 유용한 도구가 될 수 있습니다. 제한된 리소스로도 다양한 게임 아이디어를 실험하고, 플레이 가능한 수준의 경험을 빠르게 구현할 수 있기 때문입니다. 모델이 소비자용 하드웨어에서 실행되므로 추가적인 서버 비용 없이 개발을 진행할 수 있습니다.

    절차적 콘텐츠 생성(Procedural Content Generation) 분야에서도 새로운 가능성을 열어줍니다. 기존의 절차적 생성이 규칙 기반이었다면, Waypoint-1은 학습된 패턴을 기반으로 더 자연스럽고 다양한 콘텐츠를 생성할 수 있습니다. 이는 로그라이크나 오픈 월드 게임에서 무한에 가까운 콘텐츠를 제공하는 데 활용될 수 있습니다.

    창작 및 교육 분야 활용 전망

    게임 개발 외에도 Waypoint-1은 다양한 창작 분야에서 활용될 수 있습니다. 영화나 애니메이션 산업에서는 프리비주얼라이제이션(previsualisation) 도구로 활용될 수 있습니다. 감독이나 아티스트가 텍스트 설명만으로 장면을 빠르게 시각화하고, 실시간으로 카메라 앵글을 조정하며 최적의 구도를 찾을 수 있습니다.

    교육 분야에서는 인터랙티브 시뮬레이션 도구로 활용될 수 있습니다. 역사적 사건이나 과학적 현상을 실시간으로 탐색할 수 있는 가상 환경을 생성하여 학습 효과를 높일 수 있습니다. 학생들이 직접 상호작용하며 학습하는 경험 기반 교육이 더욱 확대될 것으로 예상됩니다.

    건축 및 인테리어 디자인 분야에서도 활용 가능성이 있습니다. 디자이너가 공간 컨셉을 텍스트로 설명하고 실시간으로 가상 공간을 탐색하며 디자인을 검토할 수 있습니다. 클라이언트에게 디자인을 프레젠테이션할 때도 인터랙티브한 경험을 제공할 수 있습니다.

    Overworld의 비전과 투자 현황

    Overworld는 "무엇이든 어디서든 시뮬레이션"이라는 비전을 가지고 있습니다. 회사는 플레이 가능한 세계를 꿈꾸는 AI를 구축하고 있으며, 60 FPS, 20ms 미만의 지연 시간으로 실제로 재미있는 경험을 제공하는 것을 목표로 합니다. Overworld는 사람들이 상상하는 것과 경험할 수 있는 것 사이의 격차를 좁히고자 합니다.

    회사의 기술 철학은 기존에 존재할 수 없었던 기술을 개발하는 것입니다. 소프트웨어보다는 루시드 드림(자각몽)처럼 작동하는 개방형, 인간 주도 세계를 목표로 합니다. AI를 활용하여 인간의 상상력에 의해 직접 형성되는 살아있고 적응하는 세계라는 새로운 종류의 인터랙티브 경험을 창조하고 있습니다.

    Waypoint-1 프로젝트는 Kindred Ventures가 주도한 450만 달러 규모의 프리시드 투자를 받았습니다. Amplify.LA, Garage Capital, Northside Ventures, Vital Stage, East Sunshine이 참여하였으며, OpenAI의 Logan Kilpatrick을 포함하여 Snowflake와 Roblox의 고위 임원들도 엔젤 투자자로 참여하였습니다. 이러한 투자는 Waypoint-1의 기술적 가능성과 시장 잠재력에 대한 투자자들의 신뢰를 보여줍니다.

    기존 월드 모델과의 차별점

    Waypoint-1은 기존 월드 모델들과 여러 측면에서 차별화됩니다. 기존 모델들은 대부분 사전 학습된 비디오 모델을 미세 조정하는 방식이었습니다. 제어 입력은 단순하고 제한적이었으며, 몇 프레임에 한 번씩만 카메라를 이동하거나 회전할 수 있었고 심각한 지연 문제가 있었습니다.

    비교 항목 기존 월드 모델 Waypoint-1
    학습 방식 사전 학습 모델 미세 조정 처음부터 상호작용 중심 설계
    제어 입력 몇 프레임마다 카메라만 이동 무제한 실시간 제어
    지연 심각한 지연 문제 제로 레이턴시
    하드웨어 요구 고사양 GPU 또는 클라우드 필요 소비자용 하드웨어 지원
    실행 환경 서버 기반 로컬 우선

    반면 Waypoint-1은 처음부터 상호작용 경험을 위해 설계되었습니다. 마우스로 카메라를 자유롭게 움직이고, 키보드의 모든 키를 입력할 수 있으며, 이 모든 것이 지연 없이 이루어집니다. 소비자용 하드웨어에서도 원활한 경험을 제공할 만큼 충분히 빠르게 실행됩니다. 이는 Waypoint-1을 "소비자용 하드웨어를 위해 설계된 최초의 실시간 디퓨전 월드 모델"로 만들어줍니다.

    현재 한계와 향후 발전 방향

    Waypoint-1은 현재 연구 프리뷰 단계입니다. Overworld는 이 모델이 초기, 실험적 시스템으로 연구자, 엔지니어, 빌더를 대상으로 한다고 밝히고 있습니다. 실제 상용 게임 개발에 활용되기 위해서는 추가적인 개선이 필요할 것으로 보입니다.

    현재 공개된 모델은 Waypoint-1-Small(2.3B)이며, Waypoint-1-Medium은 곧 출시될 예정입니다. 더 큰 모델이 공개되면 생성 품질과 일관성이 향상될 것으로 예상됩니다. 또한 다양한 장르와 스타일의 게임을 지원하기 위한 추가 학습 데이터 확보와 모델 개선이 진행될 것입니다.

    하드웨어 요구 사항 측면에서도 개선 여지가 있습니다. 현재 RTX 5090급 GPU가 권장되지만, 향후 최적화를 통해 더 낮은 사양의 하드웨어에서도 실행 가능해질 수 있습니다. 이는 더 많은 개발자와 크리에이터가 이 기술에 접근할 수 있게 해줄 것입니다.

    AI 게임 및 창작 기술의 미래

    Waypoint-1의 등장은 AI 기반 인터랙티브 콘텐츠 생성의 새로운 장을 열었습니다. 실시간 반응형 AI가 독점 하드웨어나 대규모 서버 없이도 가능하다는 것을 증명하였습니다. 이는 AI 창작 도구의 민주화를 향한 중요한 진전입니다.

    향후 AI와 UGC(User Generated Content)의 결합이 주목받고 있습니다. 유저가 만든 NPC에 AI를 학습시켜 성격과 대사를 설정하고, AI가 자동으로 퀘스트를 만들어 배포하며, AI가 디자인한 몬스터가 다른 유저의 게임에 등장하는 구조도 가능해질 것입니다. Waypoint-1과 같은 기술은 이러한 미래를 앞당기는 역할을 할 것입니다.

    Overworld는 2026년 1월 20일 WorldEngine 해커톤을 개최하였으며, 2-4명으로 구성된 팀이 8시간 동안 경쟁하여 RTX 5090 GPU를 상품으로 받았습니다. 이러한 커뮤니티 참여 활동은 Waypoint-1 생태계의 확장을 촉진하고 있습니다. 모델 공개를 통해 연구자, 실험자, 엔지니어들이 새로운 종류의 엔진으로 구축, 테스트, 상상하도록 초대받았습니다.

    Waypoint-1은 게임과 창작의 경계를 허무는 기술로서, AI가 단순한 도구를 넘어 창작의 파트너가 되는 미래를 보여주고 있습니다. 플레이어, 아티스트, 빌더가 완전한 창작 제어권을 유지하면서도 AI의 강력한 생성 능력을 활용할 수 있는 새로운 시대가 열리고 있습니다. 이 연구 프리뷰는 더 넓은 창작 영역으로 향하는 첫 번째 단계이며, 앞으로의 발전이 기대되는 기술입니다.

    반응형
Designed by Tistory.