为什么 Sim 指标还不够
模拟成功率通常不会转化为现实世界的表现。 照明变化、物体变化、校准漂移和传感器噪声都会影响实际性能。 严格的现实世界评估协议对于可发布的结果和部署决策至关重要。
评估协议
每个条件至少运行 50 次试验(对于严格的置信区间,优选 100 次)。 改变对象实例、位置、照明条件和操作员。 使用威尔逊评分以 95% 置信区间报告成功率。 记录并回顾所有失败事件。 记录环境条件以确保可重复性。
- 每个条件超过 50 次试验
- 至少 3 个物体变体
- 2+ 光照条件
- Wilson 评分置信区间
- 所有试验的视频记录
常见陷阱
挑选容易启动的配置,不报告故障模式,对所有试验使用相同的对象实例,并在调整后立即运行评估(过度拟合当前条件)。 SVRC 的评估服务提供标准化、可重复的测试环境。