蜜桃av一区二区三区电影,欧美丝袜一区,九九在线精品

張家輝，復旦大學大數據學院博士三年級學生，研究方向為具身智能、視覺 - 語言 - 動作模型預訓練與強化學習后訓練，4D-VLA (NeurIPS 25) 第一作者。黃澤，復旦大學大數據學院博士三年級學生，主要從事機器人世界模型與三維重建、生成等方向研究。兩人共同擔任本文第一作者。

張力，復旦大學大數據學院教授，上海創智學院全時導師，擔任本論文的通訊作者。主頁：https://lzrobots.github.io

Vision–Language–Action（VLA）策略正逐漸成為機器人邁向通用操作智能的重要技術路徑：這類策略能夠在統一模型內同時處理視覺感知、語言指令并生成連續控制信號。

然而，當前大多數 VLA 仍主要依賴模仿學習，實質上是按示范軌跡復刻，在分布發生偏移、任務形式變化或操作時域拉長時，極易出現誤差累積并導致任務失敗。強化學習（RL）從回報信號出發直接優化任務成功率，按理應當能夠緩解這一目標錯配問題，但在真實機器人上開展在線 RL 成本高昂，并行執行受限，還伴隨大量重置與標注開銷；以 π*0.6 為代表的多輪離線 RL 范式在每一輪中仍高度依賴真實系統部署和人工干預，訓練成本與迭代效率都存在明顯瓶頸（需要一直有人類介入，一旦出現錯誤軌跡就人類接管操作，記錄相應的數據）；另一方面，基于傳統物理引擎（MuJoCo、Isaac sim）的強化學習又難以同時兼顧逼真度、場景多樣性與工程可用性。

針對上述問題，研究團隊提出ProphRL 框架采用大規模預訓練的世界模型 Prophet 作為「面向真實環境」的視頻級模擬器，并配合專為流式動作頭設計的在線 RL 算法 Flow-Action-GRPO 與 FlowScale，在虛擬但物理一致的環境中直接對 VLA 策略進行強化學習優化，再將優化后的策略部署到真實機器人上。如此，策略改進的主要探索過程可以在世界模型中完成，在兼顧物理可信度的同時顯著降低真實交互成本，為大模型 VLA 的實際落地提供了更可行的技術路徑。如圖所示：

碾壓π0.5，復旦團隊：「世界模型+具身訓練+強化學習」閉環框架

實驗結果顯示，ProphRL在多個公開基準上為各類 VLA 模型（VLA-adapter-0.5B, Pi0.5-3B, OpenVLA-OFT-7B）帶來 5–17% 的成功率提升，在真實機器人實驗中進一步取得 24–30% 的大幅度成功率提升

碾壓π0.5，復旦團隊：「世界模型+具身訓練+強化學習」閉環框架

欧美国产亚洲精品,亚洲综合图色,精品国产午夜肉伦伦影院,久久国产直播

碾壓π0.5，復旦團隊：「世界模型+具身訓練+強化學習」閉環框架

免費教學更多>>