日前,啟明創(chuàng)投投資企業(yè)它石智航重磅發(fā)布全球首個大規(guī)模真實世界具身VLTA(Vision-Language-Tactile-Action)多模態(tài)數據集World In Your Hands(下稱“它石WIYH數據集”),并計劃于2025年12月面向行業(yè)共享開放。這項成果標志著它石智航在行業(yè)首創(chuàng)的以人為中心的(Human-Centric)具身數據引擎新范式正式確立,這一技術路線比特斯拉Optimus還要領先大約六個月。
長期以來,主流大模型預訓練依賴的互聯網數據和仿真數據存在以下兩點不足:互聯網數據質量參差不齊、缺少動作信息;仿真數據真實性有限,場景泛化難,訓練后的模型難以絲滑遷移到現實世界。而對人形機器人來說,通向“具身智能”的最大難關,并不是算法本身,而是如何獲得規(guī)模化、真實、可泛化的數據。高質量訓練數據的缺失,成為行業(yè)公認的難題。
它石智航首席科學家丁文超博士表示:“它石WIYH數據集的發(fā)布,標志著行業(yè)首次將視覺、語言、觸覺與動作多模態(tài)數據在真實世界大規(guī)??缧袠I(yè)、跨任務采集,并為未來實現具身基座模型的規(guī)模定律(Scaling Law)奠定了基礎?!?/span>
在此次它石智航發(fā)布的Human-Centric(以人為中心)第一視角數采視頻中可以看到,區(qū)別于以往實驗室和數采工廠中靜態(tài)、單調的采集環(huán)境,它石WIYH數據集依托多個行業(yè)真實的工作場景和工作人員,采集覆蓋酒店洗衣、超市裝配、物流作業(yè)等多種具身場景的人類標準操作流程數據??梢哉f,它石WIYH數據集的數據不僅解決了“數據量少、質量低、成本高”的問題,更讓數據“來自真實世界”。
它石WIYH數據集具備以下四點特征:
真實:采集源于真實具身任務,貼合模型實際應用場景;
豐富:橫跨多個行業(yè)與操作技能,讓模型具備遷移與泛化能力,打破數據復用壁壘;
全面:囊括視覺、語言、觸覺、動作多模態(tài)全真值,方便預訓練模態(tài)對齊;
海量:量級上限堪比大語言模型,保證具身智能的未來想象力。
基于這四點核心特征,它石WIYH數據集形成了以下三項獨特優(yōu)勢:
首先,在模態(tài)完整性上,通過自研的采集套件,同步獲取視覺(RGB)、力觸覺(壓力傳感器信號)和動作(手指關節(jié)位姿與末端軌跡)數據,確保多源數據在時間和空間上的精準對齊;
其次,在數據標注鏈路上,它石WIYH數據集依托自有的云端基礎大模型完成高精度標注,覆蓋2D語義、場景深度、操作任務分解、交互物體的可供性(Affordance)、手部與末端動作軌跡等多粒度真值標簽,為具身基座模型的預訓練提供全面多維的監(jiān)督信號;
最后,在采集環(huán)境上,它石智航深入真實生活操作場景,對比業(yè)內通常高成本自建數采、數訓工廠,在非搭建、非專有、非封閉的環(huán)境中采集工作人員的標準操作流程數據,顯著提升數據的真實性、多樣性和泛化能力,同時降低數采成本一個數量級以上。
它石WIYH數據集的提出,標志著以人為中心的具身數據新范式的確立。它讓面向真實世界的具身AI World Engine預訓練成為可能。立足“千行百業(yè)”,它石WIYH數據集有望實現“一模千任”,成為通用具身基座模型訓練的關鍵語料和基礎設施,推動行業(yè)應用從單一任務逐步邁向具備通用操作能力的新階段,為具身機器人真正走進千企萬家打下堅實基礎。