张小珺Jùn｜商业访谈录

134. 和谢晨聊“数据的综述”：AI和机器人数据的历史、版图、金字塔与Recipe

2h 38min

本期节目深入探讨了人工智能和机器人领域的数据问题，嘉宾谢晨将数据定义为AI的“教育系统”。他指出，大模型面临数据“撞墙”困境，而机器人数据则处于“荒漠”状态。节目强调了仿真在机器人AI中的核心作用，认为它是必备条件而非加速器，并介绍了数据金字塔模型，预测未来数据将以本体无关的方式大规模生成。

Summarized by Podsumo

✨ Key Takeaways

1

数据是AI的“教育系统”

谢晨认为数据对于AI智能至关重要，如同教育对人类学习。数据生产已从静态数据集演变为工厂式大规模生产，目前正走向反馈驱动的“师生关系”，由高阶专家提供反馈和出题。
2

机器人数据面临“荒漠”挑战

与大模型消耗互联网数据不同，机器人领域缺乏物理世界数据。仿真被视为机器人AI的**必备条件**，而非自动驾驶中的加速器，因为它能规模化生成多样且可评估的数据。
3

机器人“数据金字塔”模型

该模型将数据分为三层：顶层是真实机器人数据（最准确但难规模化），中层是仿真生成数据（可规模化），底层是人类第一视角/互联网数据（最丰富，本体无关）。
4

“先失败再成功”的数据最有价值

反直觉的是，对机器人模型最有效的数据并非完美执行的任务，而是包含失败和纠正过程的数据（例如，掉落物品后重新拾取）。这种**纠正性数据**对提升模型泛化能力至关重要。
5

数据生产转向“系统为中心”

为实现机器人数据规模化，行业需从以人为中心（人工标注、专家反馈）转向**以系统为中心**（引擎驱动、自动化）的数据生成，通过技术放大人类经验和反馈。