字節(jié)發(fā)布GR-3大模型，開(kāi)啟通用機(jī)器人“大腦”新紀(jì)元

2025-07-22 15:09

7月22日，字節(jié)跳動(dòng)Seed官方公眾號(hào)宣布推出一款名為GR-3的全新Vision-Language-Action Model（VLA，視覺(jué)-語(yǔ)言-動(dòng)作）模型。據(jù)稱，該模型擁有強(qiáng)大的泛化能力、對(duì)抽象概念的理解以及精細(xì)操作柔性物體的能力。

GR-3：多樣數(shù)據(jù)訓(xùn)練高效解讀指令

GR-3模型的核心優(yōu)勢(shì)在于其出色的泛化能力和對(duì)抽象概念的理解。與傳統(tǒng)的VLA模型不同，GR-3通過(guò)少量的人類數(shù)據(jù)即可實(shí)現(xiàn)高效微調(diào)，從而快速且低成本地遷移至新任務(wù)，認(rèn)識(shí)新物體。這一特性使得GR-3在面對(duì)未知環(huán)境和物體時(shí)，依然能夠保持高效穩(wěn)定的操作性能。

具體而言，GR-3采用了Mixture-of-Transformers（MoT）的網(wǎng)絡(luò)結(jié)構(gòu)，將“視覺(jué)-語(yǔ)言模塊”和“動(dòng)作生成模塊”緊密結(jié)合，形成了一個(gè)擁有40億參數(shù)的端到端模型。這種設(shè)計(jì)使得GR-3能夠直接根據(jù)攝像頭捕捉的畫(huà)面和收到的語(yǔ)言指令，迅速計(jì)算出下一步的動(dòng)作。例如，在聽(tīng)到“收拾餐桌”的指令后，GR-3能夠自動(dòng)完成“打包剩菜、收拾餐具、倒垃圾”等一系列連續(xù)動(dòng)作。

GR-3的另一大亮點(diǎn)在于其三合一的數(shù)據(jù)訓(xùn)練法。傳統(tǒng)的機(jī)器人模型往往依賴于大量的機(jī)器人軌跡數(shù)據(jù)進(jìn)行訓(xùn)練，而GR-3則突破了這一局限，通過(guò)結(jié)合遙操作機(jī)器人數(shù)據(jù)、人類VR軌跡數(shù)據(jù)以及公開(kāi)可用的圖文數(shù)據(jù)，實(shí)現(xiàn)了對(duì)模型性能的顯著提升。

遙操作機(jī)器人數(shù)據(jù)為GR-3提供了基礎(chǔ)的操作能力，確保其在完成“撿杯子”、“掛衣服”等基礎(chǔ)任務(wù)時(shí)的穩(wěn)定性和準(zhǔn)確性。人類VR軌跡數(shù)據(jù)的引入，則使得GR-3能夠以極低的成本快速學(xué)習(xí)新任務(wù)。通過(guò)VR設(shè)備采集的人類軌跡數(shù)據(jù)，GR-3在效率上比傳統(tǒng)遙操作數(shù)據(jù)收集方法快了近一倍。此外，公開(kāi)可用的圖文數(shù)據(jù)極大地提升了GR-3的泛化能力，使其能夠認(rèn)識(shí)更多物體，理解更復(fù)雜的抽象概念。

ByteMini機(jī)器人：GR-3的“靈活軀體”

為了充分發(fā)揮GR-3模型的強(qiáng)大能力，字節(jié)跳動(dòng)Seed團(tuán)隊(duì)還設(shè)計(jì)了一款名為ByteMini的通用雙臂移動(dòng)機(jī)器人。ByteMini機(jī)器人擁有22個(gè)全身自由度，以及獨(dú)特的手腕球形設(shè)計(jì)，使其能夠像人類一樣靈活操作。在狹小空間內(nèi)，ByteMini能夠完成各種精細(xì)操作，如收納盒、抽屜內(nèi)的物品整理等。

ByteMini機(jī)器人搭載了全身運(yùn)動(dòng)控制系統(tǒng)，動(dòng)作既快速又穩(wěn)定，同時(shí)避免了傳統(tǒng)機(jī)器人那種“硬邦邦”的碰撞感。在抓取紙杯等易碎物品時(shí)，ByteMini能夠自動(dòng)調(diào)整力度，避免捏碎物品。此外，ByteMini還配備了多顆攝像頭，其中手腕攝像頭負(fù)責(zé)捕捉細(xì)節(jié)，頭部攝像頭則負(fù)責(zé)觀察全局，確保機(jī)器人能夠“眼觀六路”，準(zhǔn)確執(zhí)行各項(xiàng)任務(wù)。

在實(shí)際應(yīng)用中，GR-3模型展現(xiàn)出了卓越的性能。在通用拾取放置任務(wù)中，GR-3面對(duì)訓(xùn)練中未見(jiàn)過(guò)的物品和環(huán)境時(shí)，依然能夠保持高指令遵循率和成功率。例如，在從未見(jiàn)過(guò)的臥室書(shū)桌、超市柜臺(tái)等場(chǎng)景中，GR-3的性能幾乎無(wú)衰減，展現(xiàn)出了強(qiáng)大的環(huán)境適應(yīng)和泛化能力。

在長(zhǎng)程餐桌清理任務(wù)中，GR-3僅憑“收拾餐桌”這一總指令，就能自主完成全流程操作，平均完成度超過(guò)95%。同時(shí)，GR-3還能嚴(yán)格跟隨人類發(fā)出的分步指令，準(zhǔn)確執(zhí)行各項(xiàng)任務(wù)。在柔性衣物精細(xì)操作任務(wù)中，GR-3同樣表現(xiàn)出了出色的靈活性和魯棒性。無(wú)論是長(zhǎng)袖還是短袖衣物，GR-3都能穩(wěn)定地完成掛衣服任務(wù)。

持續(xù)探索，邁向通用機(jī)器人“大腦”

字節(jié)跳動(dòng)Seed團(tuán)隊(duì)計(jì)劃進(jìn)一步擴(kuò)大模型規(guī)模和訓(xùn)練數(shù)據(jù)量，提升GR-3對(duì)未知物體的泛化能力。同時(shí)，團(tuán)隊(duì)還將引入強(qiáng)化學(xué)習(xí)（RL）方法，突破現(xiàn)有模仿學(xué)習(xí)的局限，讓機(jī)器人在實(shí)際操作中不斷“試錯(cuò)”，從成功和失敗中自主學(xué)習(xí)調(diào)整動(dòng)作與策略（比如物體滑落時(shí)如何快速重新抓取等）。

GR-3模型的發(fā)布，無(wú)疑為機(jī)器人技術(shù)的發(fā)展注入了新的活力。字節(jié)跳動(dòng)Seed團(tuán)隊(duì)期望，通過(guò)持續(xù)的研究和探索，GR-3能夠成為邁向通用機(jī)器人“大腦”的重要一步。展望未來(lái)，他們希望機(jī)器人操作大模型能夠真正進(jìn)入人們的日常生活，成為幫助人類處理各種事務(wù)的通用機(jī)器人助手。

（經(jīng)濟(jì)觀察網(wǎng) 萬(wàn)佳/文）

免責(zé)聲明：本文觀點(diǎn)僅代表作者本人，供參考、交流，不構(gòu)成任何建議。