메타, 물리 추론 가능한 월드 모델 V‑JEPA 2 공개
반응형
메타, 물리 추론 가능한 월드 모델 V-JEPA 2 공개
비디오 기반 직관 학습으로 로봇 제어까지 지원하는 세계 모델
메타(Meta)가 비디오 기반의 월드 모델 V-JEPA 2를 발표했다
이 모델은 단순한 비주얼 인식 수준을 넘어서 실제 물리 세계의 상황을 예측하고 계획하는 능력을 갖췄다
낯선 물체를 인식하고, 그것을 잡아 다른 위치에 놓는 등의 로봇 행동도 가능해졌다
주요 기능 및 특징
직관적 물리 추론
12억 파라미터 규모로 훈련된 V-JEPA 2는 영상 데이터를 중심으로 학습되었으며
인간의 직관처럼 사전 경험 없이도 상황을 예측하고 조작 가능성을 판단할 수 있다
비디오 기반 학습 구조
기존 이미지 기반 모델들과 달리 시간 흐름 속에서 객체의 움직임을 분석하고
그에 따라 행동을 계획할 수 있는 구조를 갖췄다
로봇 제어를 위한 두 단계 훈련
첫 번째는 100만 시간 분량의 영상과 이미지를 활용한 사전 훈련
두 번째는 로봇 제어 데이터 기반의 행동 조건 훈련으로 예측 기반 플래닝 능력을 확보했다
제로샷 제어 가능
특정 로봇의 데이터 없이도 새로운 환경에서 작동 가능하며 현재 상태에서 목표 이미지까지 도달하는 경로를 스스로 계획해낼 수 있다
새로운 벤치마크 3종 공개
IntPhys 2는 물리 법칙 위배 여부를 구분하는 테스트
MVPBench는 사소한 영상 차이에도 정답을 맞추도록 설계된 Minimal Video Pairs (MVP) 벤치마크
CausalVQA는 인과 추론과 계획 능력을 평가하는 비디오 기반 QA 벤치마크다
예측하고 계획하는 AI의 시대가 열린다
이번 발표는 메타가 추진하는 고도화된 기계 지능 개발이 단지 비전이 아니라 현실적인 기술 단계로 진입했음을 보여준다
AI가 물리 세계를 인지하고 실제로 개입하며 판단하는 기반이 점점 더 현실화되고 있다
반응형
'AI 소식' 카테고리의 다른 글
ByteDance 씬 단위로 영상을 찍는다? (2) | 2025.06.20 |
---|---|
매텔, 오픈AI와 AI 장난감 개발을? (0) | 2025.06.18 |
구글 Gemini 2.5 Pro 공개! (2) | 2025.06.13 |
ChatGPT for Business, 회의도 듣고 요약도 한다 (1) | 2025.06.11 |
Bing Video Creator, 드디어 일반에 공개...누구나 무료로 AI 영상 만든다 (1) | 2025.06.09 |
댓글