編者按:日前,啟明創(chuàng)投投資企業(yè)銀河通用宣布正式完成新一輪11億元融資。成立至今,銀河通用采用仿真合成動作數(shù)據(jù)集做預訓練,真實數(shù)據(jù)做后訓練的技術范式,引領全球具身大模型技術快速迭代。在機器人的規(guī)模化應用落地方面,銀河通用在智慧零售、工業(yè)和康養(yǎng)醫(yī)療等場景取得了顯著進展。
北京大學助理教授、銀河通用創(chuàng)始人兼CTO王鶴在接受36氪采訪時,介紹了公司的產品設計初衷——按照車規(guī)級,甚至是高于車規(guī)級的標準去打造人形機器人產品;他分析了銀河通用能打磨出更優(yōu)質、更泛化的模型的原因。王鶴也強調,銀河通用重視用戶體驗,聚焦自身的優(yōu)勢領域,從需求的角度出發(fā),讓機器人真正滿足目前市場中存在的痛點;公司希望人形機器人能從事發(fā)揮價值的工作,讓具身智能真正創(chuàng)造智能化的價值。展望未來,他表示,銀河通用會不斷地推進新的技能,保證在行業(yè)的一線,致力于讓通用機器人服務千行百業(yè)、千家萬戶。
啟明創(chuàng)投微信公眾號經授權轉載,文章有編輯與刪減。
北京大學助理教授、銀河通用創(chuàng)始人兼CTO王鶴
“除了跳跳舞、翻翻跟頭,人形機器人還能干什么?”
北京大學助理教授、銀河通用創(chuàng)始人兼CTO王鶴可能是最有資格回答這個問題的人。由他創(chuàng)立的銀河通用是中國具身智能領域的獨角獸,也是行業(yè)第一梯隊中最專注機器人“腦”的一家企業(yè)。
自2023年5月成立至今,銀河通用只發(fā)布過一款機器人本體產品Galbot(G1),卻發(fā)布了多款具身大模型。公司將大部分資源和資金投向了具身大模型研發(fā),致力于提升機器人的通用性和泛化性。
在王鶴博士看來,人形機器人卷本體的結果是把機器人賣出鋼鐵原材料的價格,目前市場上已經出現(xiàn)了價格戰(zhàn)的苗頭;只有具身智能模型能力的提升,才能賦予人形機器人更高的價值。
通用具身大模型是人類前沿技術的“無人區(qū)”,背負這一宏大命題的王鶴,談起具身模型當下的發(fā)展,卻是出人意料的“保守”和務實:
“我特別不建議去講具身的AGI,很多公司都希望一步實現(xiàn)具身的AGI,這一點我不認同?!?/span>
“具身智能模型還有很多不成熟的地方,距離什么活兒都能干可能需要五年到十年的時間?!?/span>
“大量的科研成果在過去這么長的時間里一直有出現(xiàn),但可規(guī)?;a的產品卻一直沒有落地?!?/span>
當下,不少國內具身智能模型廠商熱衷于“秀肌肉”:通過“疊衣服、刮胡子、拉拉鏈”等復雜操作的demo(樣片)來展示其模型的泛化能力;銀河通用則埋頭于攻克“不那么復雜”的移動、抓取、放置技能,其對具身操作模型的命名也較為“樸實”——抓取基礎大模型GraspVLA。
王鶴對36氪直言,銀河通用也在研發(fā)用衣架掛衣服的技能,但這種復雜操作只是一種科研成果,距離落地和產品化還有很遠的距離。
目前具身智能模型最接近場景落地的技能就是相對“簡單”的“Mobile, Pick and Place(移動、抓取、放置)”。銀河通用正致力于將“Mobile, Pick and Place”技能在藥店、零售等部分場景率先落地應用。
據(jù)介紹,銀河通用聯(lián)合合作伙伴推出了全球首個人形機器人智慧零售解決方案,目前已經在北京開了近10家由機器人進行24小時無人值守的藥店,銀河通用的人形機器人不間斷自動精確揀藥,并交付給騎手。
銀河通用計劃今年在北京、上海、深圳等城市共開100家無人值守零售店。目前這一應用場景已經實現(xiàn)了市場化,預計今年將為銀河通用帶來近億元人民幣的收入。
在前不久的智源大會開幕式現(xiàn)場,銀河通用機器人Galbot在主論壇舞臺進行了現(xiàn)場直播真機演示。機器人在王鶴的語音指令下自主、精確地移動到準確位置并將飲料從貨架取出,實現(xiàn)了復雜貨架抓取與交付的全流程自主執(zhí)行,全程無遙操,無需場景數(shù)據(jù)預采集。
銀河通用在智源大會現(xiàn)場展示抓取和交付
王鶴坦言,具身智能進入任何一個場景,都需要進行一些數(shù)據(jù)上的準備,才能打造百分百成功的產品。“Mobile, Pick and Place”技能還在持續(xù)更新中,銀河通用選擇從零售業(yè)的貨架場景做起,逐漸提升操作的泛化性。
在王鶴看來,能把“Mobile, Pick and Place”這類“簡單”操作的泛化性問題徹底解決,就已經是整個人類具身智能和機器人歷史上的重要里程碑。據(jù)他測算,這一技能的成熟可以打開數(shù)千億元的新市場,在零售、前置倉、車廠SPS分揀等多個場景中幫助人類完成繁重勞動。
從泛化性的角度衡量,如果無所不能的人形機器人是100,掌握“Mobile, Pick and Place”技能的機器人是10,在零售業(yè)的貨架場景進行“Mobile, Pick and Place”的落地僅僅是“1”。
當下的銀河通用,已實現(xiàn)“從0到1”的突破,正向通用具身智能的終極目標邁進。
以下為36氪和王鶴的對話實錄。
01/
迎賓表演市場只是曇花一現(xiàn)
要訓練機器人做高價值工作
36氪:公司現(xiàn)在員工規(guī)模有多大?
王鶴:我們現(xiàn)在百余人。
36氪:好像比同一梯隊的同行要少一些。
王鶴:現(xiàn)階段我們還是聚焦產研團隊。銀河通用目前,推出了一款人形機器人產品Galbot G1,圍繞在工業(yè)、零售、服務業(yè)等場景的核心需求,主打技能是移動、抓取、放置等。
我認為這個技能可以在工業(yè)、商業(yè)、服務業(yè)等各種廣闊的場景里,構建一個完整閉環(huán)的Skill Set(技能集),而不是去做很多發(fā)散的小技能,或者是多種多樣的全品類的機器人產品,因為這樣會導致用人規(guī)模大很多。
36氪:銀河通用只做了一款本體,但發(fā)布了多款模型,是把更多資源傾斜在模型上嗎?
王鶴:其實公司里做“硬件”的成員反而比做“軟件”的更多,這個可能和外界的想象不一樣。外界可能認為銀河通用只做一款產品,所以需要的硬件工程師不多。實際上我們和很多同行的機器人標準不一樣。
如果機器人只用作科研、硬件平臺,以及秀5分鐘的demo,這種呈現(xiàn)形式對于產品的可靠性要求不高。這和一個真正能24小時工作的機器人在可靠性方面差距非常大,因為它不能落地應用。
銀河通用的硬件圍繞著一款產品進行了多輪次、密集的迭代升級,這樣我們才能真正實現(xiàn)機器人在無人值守藥店場景里24小時工作。假如硬件出現(xiàn)問題,需要工程師來現(xiàn)場修理,這樣成本會很高。所以我們產品的設計初衷,就是按照車規(guī)級,甚至是高于車規(guī)級的標準去打造人形機器人產品。
36氪:從資金投入上呢?
王鶴:作為一家具身大模型公司,我們投入最大的還是模型的研發(fā)。但這塊不是靠堆人,因為沒有一家公司是靠堆模型訓練的員工來把模型做好。而是要建立整個從數(shù)據(jù)的基建到模型訓練、測試,一整套閉環(huán)的團隊。這里面算力費用占比很大。事實上,一些做模型的天才級人物,他們所在公司的人數(shù)都不多。
36氪:重視合成數(shù)據(jù)是銀河通用一個很鮮明的標簽。不過很多同行也都說自己會用仿真數(shù)據(jù),再結合一些互聯(lián)網視頻、真機數(shù)據(jù)等,大家的區(qū)別在哪里?
王鶴:不會的人用不好合成數(shù)據(jù),所以有人會說什么仿真“有毒”等等。銀河通用能取得現(xiàn)在的成績,合成數(shù)據(jù)在其中扮演了非常重要的角色,基于我們自主研發(fā)的合成數(shù)據(jù)技術,我們的具身大模型的訓練成本得以極大降低。同時我們也強調虛實融合,這讓我們的具身大模型能真正跑在全球的領先地位。這正說明我們能真正用好合成數(shù)據(jù)。
比如互聯(lián)網視頻數(shù)據(jù)誰都可以下載,比它有一點門檻的是遙操。我們目前在商超、零售環(huán)境部署的具身機器人用到了遙操的真實數(shù)據(jù),但它的比例遠低于仿真合成數(shù)據(jù)。
合成數(shù)據(jù)的方式需要廠商有比較好的圖形學、物理仿真、物理渲染和自動動作合成管線,包括驗證閉環(huán)的一系列全套的基建,需要長期的積累和核心技術know-how。這些積累,也是銀河通用為什么能把模型做得更好,而且更泛化的一個關鍵原因。
36氪:咱們機器人本體是輪式底盤,可以理解銀河通用更加注重發(fā)展機器人的上肢操作能力嗎?
王鶴:要看是在哪一端側重,在產品端我們以落地的需求作為指引。
現(xiàn)在絕大多數(shù)客戶考慮到自身需求,比如在工廠和商超零售場景做一些移動、抓取、放置工作,都是要求底盤式的。雙足機器人容易產生噪聲,且續(xù)航還短。而我們的輪式底盤的機器人6-8個小時才充一次電,相較雙足式有天然優(yōu)勢。
從研發(fā)的角度衡量,銀河通用是全棧布局整個具身智能,針對雙足人形機器人也有布局,但現(xiàn)階段它并不是在產品端可以真正廣泛應用的產品。
36氪:迎賓、表演是今年新興起來的場景,同行們都在大力進軍,銀河通用為什么沒搶占這個場景?
王鶴:我的看法是,現(xiàn)在這些炫酷的場景是曇花一現(xiàn)。市場最終不是靠一波流量來取勝的,真正能夠留存下來靠的是好的用戶體驗。
銀河通用始終重視用戶體驗。比如大堂的迎賓機器人有很多,但主要是做了一些不痛不癢的工作。我們在做的是次時代的接待機器人產品,要讓客戶愿意用,可以真正協(xié)助人來工作。只要能做到這一點,我相信廣闊的市場可以任你遨游。
所以我們并不是說不做,而是已經在布局,目前處于由很多點的技術形成線,線形成面的一個過程中。
02/
“移動、抓取、放置”的市場空間很大
但技術還未完全成熟
36氪:投資方在商業(yè)化方面給的壓力大嗎?
王鶴:投資人給了我們很大的支持,這些支持不僅在財務投資上,也在戰(zhàn)略協(xié)同資源上。目前,我們已經有扎實的落地成果,公司今年應該能有可觀的收入規(guī)模。
36氪:教育和科研市場呢,你們有沒有布局?
王鶴:我覺得還是大家對于優(yōu)先級的認知不一樣。教育市場到底是一個有多大盈利潛力的市場?它的天花板是多少臺?實際上,已有非常多的雙足企業(yè)加入了對教育市場的角逐。銀河通用會聚焦于自己有優(yōu)勢的領域,從需求的角度出發(fā),讓機器人真正滿足目前市場中存在的痛點。
銀河通用關注的不是把人形機器人本體當做鋼鐵原材料一樣賣,因為人形機器人卷下去的后果是大家以后都趨向于按材料成本定價。我們期望的是人形機器人能從事發(fā)揮價值的工作,讓具身智能真正創(chuàng)造智能化的價值。
36氪:您看到現(xiàn)在市場上有這種價格戰(zhàn)的趨勢嗎?
王鶴:是的,現(xiàn)在是在瘋狂降價,降到了小幾萬元,未來可能有人報價更低。我們其實是樂見整個行業(yè)通過快速的硬件迭代,讓硬件成本快速下降的。供應鏈的降本對于銀河通用也有利。
問題在于這個售價的機器人到底能解決什么問題。我們現(xiàn)在專注做的是高價值的事情,我們一臺機器人售價是大幾十萬元,客戶仍然很愿意用,因為這顯著緩解了三班倒員工的用人成本壓力。這也是我們(預期)能夠實現(xiàn)億級收入的原因。
36氪:你賣幾十萬元,為什么客戶還能接受?
王鶴:我上面也提到過,別家賣便宜的人形機器人,用戶對它的心理預期和我們做場景落地的機器人的心理預期是不一樣的。我們的產品成熟度和可靠性的要求是不一樣的。
銀河通用的機器人可以連續(xù)工作一個月不出一次差錯,這是我們的核心競爭力優(yōu)勢。我把我們的機器人叫“場景落地機器人”,市面上用于科研和商場表演的那種,叫做“研發(fā)平臺型機器人”。
36氪:你提到銀河通用主打的技能就是圍繞著移動、抓取、放置,但也有觀點認為這類“PPT操作”(即Pick抓取、Place放置和Transfer轉運)可以解決的實際問題、適應的應用場景非常有限。
王鶴:首先我不認可“PPT操作”的說法。我更傾向于用“Mobile, Pick and Place”,這也是國際上大家認知里更通用的表達。
現(xiàn)在在零售、倉儲、車廠SPS分揀等場景中,我們看到的是大量的員工在做“移動、抓取、放置”的工作。如果有人認為這個市場可以開發(fā)的空間不大,那可能是因為他們沒有真正了解市場需求。我看到的是一個數(shù)十萬臺的潛在市場,比現(xiàn)在全球工業(yè)機器人的總產值還要高。
36氪:這類“移動、抓取、放置”的機器人為什么還沒有廣泛落地應用起來?
王鶴:“Mobile, Pick and Place”技能還遠未成熟,即使是技術比較領先的谷歌DeepMind的RT機器人也做不到落地。像銀河通用在智源大會現(xiàn)場展示的智慧零售,讓機器人負責取貨、送貨、上架,目前我沒見其他廠商可以復現(xiàn),特別是勇于在現(xiàn)場直播演示。
36氪:很多廠商會炫一些機器人拉拉鏈、刮胡子和疊衣服等更復雜的操作,他們的投資方也將此視為比較高的技術成果。
王鶴:現(xiàn)在很多廠商在把不能落地的、不能產品化的一些科研亮點,說成是他們的產品。我們需要思考,疊衣服的機器人到底什么時候產品化?現(xiàn)階段它能達到效率要求、平整度要求和泛化性要求嗎?
因為有這個科研成果,所以機器人產品就更好賣,這個邏輯是不成立的。實際上,大量的科研成果在過去這么長的時間里一直有出現(xiàn),但可規(guī)?;a的產品卻一直沒有落地。
我們其實也在研發(fā)新的技能,也會用衣架掛衣服。銀河通用的合成數(shù)據(jù)背后有上百萬件的衣服的虛擬資產。但實話實說,疊衣服要做到實用、可落地的程度,誰都還沒有做到。
36氪:銀河通用對外披露的落地場景,主要在藥店、工廠和零售場景,這些場景哪些是市場化的,哪些還處于POC(Proof of Concept,概念驗證)階段?
王鶴:藥店和零售場景已經是完全市場化了,我們的收入很大一部分來自這塊。
工廠場景還處于POC階段,因為工廠場景有些工作對于節(jié)拍、準確度和可靠性要求是很高的。特別是在高精尖制造當中,像新能源車的生產線,停工哪怕一分鐘,都會帶來巨大的損失。包括特斯拉和Figure AI,大家都處在POC階段,都在打磨產品,讓它最終可以整合到新開的產線當中。
銀河通用率先在全球交付了很多行業(yè)標桿性POC項目,比如某國際知名車企場景里的SPS分揀POC、奔馳的搬物料箱子和天窗轉運的POC、極氪的搬運POC。銀河通用的進展是相當快的。但這個場景真正轉化進入產線還需要一定時間。
36氪:這些車企不是你們的投資方。
王鶴:對,剛剛提到的幾家車企合作方都不是我們的投資方,汽車廠商本身有很強的自動化的需求,所以和我們建立了戰(zhàn)略性的合作關系。
03/
具身智能行業(yè)相對“混亂”
真正愿意做實事的人少
36氪:你們發(fā)布過多個模型,除了具身抓取基礎大模型GraspVLA,其他模型有商業(yè)化嗎?比如剛發(fā)布的產品級端到端導航大模型TrackVLA。
王鶴:我們會把TrackVLA往C端的產品去打造。它能夠在場景里和人有很好的互動,包括做一些從工業(yè)巡檢到商超的跟隨搬運等工作。我們現(xiàn)在也在和合作方、場景方一起去推動TrackVLA模型的應用。
我們的模型也可以跨不同的機器狗泛化。導航能力相較于操作能力更易于泛化到不同的本體上。
36氪:業(yè)內一些企業(yè)都和Physical Intelligence(PI)合作了,用上頭部的模型是不是可以更快商業(yè)化?
王鶴:我不了解他們和PI合作的具體細節(jié)。我了解到PI在廣泛地收集各個廠家的真機數(shù)據(jù)。從數(shù)據(jù)的角度,我不認同PI的做法??绫倔w的、大量的、不同的機器人數(shù)據(jù),對于機器人的訓練來說是低質數(shù)據(jù)。
36氪:現(xiàn)在全球第一梯隊的具身智能模型能力,如果類比AI大模型,處于哪個階段?
王鶴:這很難去類比,具身智能模型涉及的維度更高。
例如在自動駕駛領域,大家會講L1-L5,自動駕駛是圍繞著開車這一件事,而具身智能涵蓋了非常多的事,你可以做好“Mobile, Pick and Place”,但不一定能抱小孩、扶老人起床。
在具身智能的每一款產品上都有L1到L5的不同層級。我們的期望是,具身智能產品能夠被稱作產品時,至少應該達到L4的水平,即具備自主性,而非僅僅是輔助。
相較于大型語言模型,我認為通用具身智能的實現(xiàn)是一個長期的技術進步的過程,而非短暫的智能爆發(fā)。
36氪:所以具身智能模型的“ChatGPT時刻”還有較遠的距離。
王鶴:是的。ChatGPT展現(xiàn)了通用問答的能力,而具身智能模型想要什么活兒都能做,從硬件和傳感器到數(shù)據(jù)采集還有很多事情要做,還有很多不成熟的地方,它可能需要五年到十年的時間。
我們人類干活的時候,實際上除了視覺、語言、動作(即Vision-Language-Action),還有聽覺、嗅覺、味覺、觸覺以及對溫度的感知,在不同的任務中都有不同程度的使用。所以VLA模型只是一個起點,如果想達到人類級別的具身智能,那還需要不斷融入新模態(tài)。
那VLA現(xiàn)在能干什么呢?我覺得是把“Mobile, Pick and Place”先做得非常泛化,在一個可批量復制的場景里做好,比如所有零售店、所有工廠的分揀線。如果這個能達到,這會是整個人類具身智能和機器人歷史上的一個里程碑。它的意義不亞于我們今天機器人實現(xiàn)了“黑燈工廠”。
36氪:業(yè)內同行都在往這個里程碑的方向走嗎?還是在追求一些別的技術突破。
王鶴:我覺得行業(yè)里真正愿意做實事的人少,愿意賣硬件、賣平臺的人多。把東西賣給用戶后,就不需要對功能負責了,這種廠商多。真正愿意去做模型的廠商里,做學術研究的人多,真正做能落地的模型產品的人少。這兩個“少”都導致了具身智能行業(yè)相對“混亂”的局面。
36氪:“Mobile, Pick and Place”要在服務業(yè),諸如藥店、便利店落地,還有哪些待改進的地方嗎?
王鶴:具身智能進入任何一個場景,都需要進行一些數(shù)據(jù)上的準備。不管是合成數(shù)據(jù),還是真機數(shù)據(jù)的小規(guī)模采集,甚至不排除做場景中的強化學習,才能打造成一個百分百成功的產品。
我們目前追求的并不是所有的“Mobile, Pick and Place”都做,而是先圍繞著貨架,甚至是超市的貨架,先保證它很好地泛化,最后才是我們日常環(huán)境中各種地方放的東西。所以這條路沒有大家想得那么簡單。
36氪:在“Mobile, Pick and Place”之外,銀河通用的下一個里程碑時刻會是什么操作,做了哪些技術的儲備?
王鶴:銀河通用有數(shù)位業(yè)界頂尖學者,大家在一起推動科研創(chuàng)新的進程。從研究上講,我們會不斷地推進新的技能,包括足式機器人,靈巧手的研究——這也是我獲過多次Best Paper殊榮的領域,是更加終極的末端、本體上的技能的學習。
對于研發(fā),我們的戰(zhàn)略就是引領,并且永遠保證在一線。銀河通用的使命是讓通用機器人服務千行百業(yè)、千家萬戶。
來源 | 36氪
作者 | 王方玉
編輯 | 蘇建勛