本期节目深入探讨了人工智能和机器人领域的数据问题,嘉宾谢晨将数据定义为AI的“教育系统”。他指出,大模型面临数据“撞墙”困境,而机器人数据则处于“荒漠”状态。节目强调了仿真在机器人AI中的核心作用,认为它是必备条件而非加速器,并介绍了数据金字塔模型,预测未来数据将以本体无关的方式大规模生成。
Summarized by Podsumo
谢晨认为数据对于AI智能至关重要,如同教育对人类学习。数据生产已从静态数据集演变为工厂式大规模生产,目前正走向反馈驱动的“师生关系”,由高阶专家提供反馈和出题。
与大模型消耗互联网数据不同,机器人领域缺乏物理世界数据。仿真被视为机器人AI的**必备条件**,而非自动驾驶中的加速器,因为它能规模化生成多样且可评估的数据。
该模型将数据分为三层:顶层是真实机器人数据(最准确但难规模化),中层是仿真生成数据(可规模化),底层是人类第一视角/互联网数据(最丰富,本体无关)。
反直觉的是,对机器人模型最有效的数据并非完美执行的任务,而是包含失败和纠正过程的数据(例如,掉落物品后重新拾取)。这种**纠正性数据**对提升模型泛化能力至关重要。
为实现机器人数据规模化,行业需从以人为中心(人工标注、专家反馈)转向**以系统为中心**(引擎驱动、自动化)的数据生成,通过技术放大人类经验和反馈。
"“最有效的数据是先失败再成功的数据。” — 谢晨"
"“访真对于机器人它是一个必备条件,没有访真这件事情肯定做不成。” — 谢晨"
"“我认为智能越强,其实它对于知识的饥渴程度会越高,对于数据的饥渴程度会越高。” — 谢晨"