질문: Pi 0.5·GR00T N1.6·WALL-OSS보다 더 잘하는 VLA가 나왔다고요? ‘LingBot-VLA’는 뭐가 달라서 실제 로봇 작업 성공률을 끌어올렸나요?
답변: LingBot-VLA: 심층 분석 기능을 갖춘 VLA! (Pi 0.5, GR00T N1.6, WALL-OSS를 능가합니다)
LingBot-VLA는 최근 공개된 VLA(비전-언어-행동) 모델 중에서도 “실제로 해내는” 쪽에 강점을 보인 모델입니다. 영상에서는 투명한 화병에 장미를 정확히 꽂는 장면처럼, 일반적인 집기보다 훨씬 난도가 높은 정밀 조작을 보여주는데요. 이때 핵심이 되는 게 Depth(깊이) 정보 활용입니다. 카메라 시야에서 단계적 맵(스텝 맵)을 생성해 물체의 위치·깊이를 더 정확히 파악하고, 그 결과 투명 물체 같은 까다로운 환경에서도 동작 오차를 줄이는 방식입니다. 지퍼를 잡아당겨 가방을 닫는 멀티스텝 작업처럼, 힘 조절·방향 제어·물체 회전이 동시에 필요한 과제도 실시간(1x)으로 자연스럽게 수행하는 점이 강조됩니다.
또 하나의 포인트는 “데이터로 성능이 계속 오른다”는 스케일링 증거입니다. LingBot-VLA는 9종 로봇 데이터셋을 바탕으로 학습했고, 20,000시간까지 학습 데이터를 늘려도 성능이 꾸준히 상승하는 ‘리얼 머신 스케일링’ 경향을 보여줍니다. 구조적으로는 깊이 정보를 통합하는 Understanding Expert(이해)와, 이를 실제 로봇 동작으로 변환하는 Action Expert(행동)로 역할을 나누어 멀티스텝 실행 안정성을 높였고, “Depth 포함 버전”이 “Depth 미포함 버전” 대비 실제 작업 성능이 더 좋다는 비교 결과도 제시됩니다. 코드와 모델은 공개(레포/허깅페이스 링크 안내)되어 있어, 연구·개발팀이라면 바로 실험해볼 수 있는 ‘실전형 VLA’로 정리할 수 있습니다.
질문: Pi 0.5·GR00T N1.6·WALL-OSS보다 더 잘하는 VLA가 나왔다고요? ‘LingBot-VLA’는 뭐가 달라서 실제 로봇 작업 성공률을 끌어올렸나요?
답변: LingBot-VLA: 심층 분석 기능을 갖춘 VLA! (Pi 0.5, GR00T N1.6, WALL-OSS를 능가합니다)
LingBot-VLA는 최근 공개된 VLA(비전-언어-행동) 모델 중에서도 “실제로 해내는” 쪽에 강점을 보인 모델입니다. 영상에서는 투명한 화병에 장미를 정확히 꽂는 장면처럼, 일반적인 집기보다 훨씬 난도가 높은 정밀 조작을 보여주는데요. 이때 핵심이 되는 게 Depth(깊이) 정보 활용입니다. 카메라 시야에서 단계적 맵(스텝 맵)을 생성해 물체의 위치·깊이를 더 정확히 파악하고, 그 결과 투명 물체 같은 까다로운 환경에서도 동작 오차를 줄이는 방식입니다. 지퍼를 잡아당겨 가방을 닫는 멀티스텝 작업처럼, 힘 조절·방향 제어·물체 회전이 동시에 필요한 과제도 실시간(1x)으로 자연스럽게 수행하는 점이 강조됩니다.
또 하나의 포인트는 “데이터로 성능이 계속 오른다”는 스케일링 증거입니다. LingBot-VLA는 9종 로봇 데이터셋을 바탕으로 학습했고, 20,000시간까지 학습 데이터를 늘려도 성능이 꾸준히 상승하는 ‘리얼 머신 스케일링’ 경향을 보여줍니다. 구조적으로는 깊이 정보를 통합하는 Understanding Expert(이해)와, 이를 실제 로봇 동작으로 변환하는 Action Expert(행동)로 역할을 나누어 멀티스텝 실행 안정성을 높였고, “Depth 포함 버전”이 “Depth 미포함 버전” 대비 실제 작업 성능이 더 좋다는 비교 결과도 제시됩니다. 코드와 모델은 공개(레포/허깅페이스 링크 안내)되어 있어, 연구·개발팀이라면 바로 실험해볼 수 있는 ‘실전형 VLA’로 정리할 수 있습니다.
#VLA #LingBotVLA #로봇AI #피지컬AI #로봇조작