近日,国际顶 级计算机视觉会议 CVPR 2026 披露重磅 Highlight 研究成果,北京大学科研团队联合上纬启元研究院和京东正式推出RealAppliance数据集及配套 RealAppliance-Bench 评测基准,聚焦说明书驱动下的家电智能操作规划难题,以高保真仿真体系破解家庭服务机器人实操评测痛点,推动具身智能加速落地真实居家场景。
家电操作是家庭服务机器人研发过程中难度极高的应用场景。相较于常规桌面物体操控,家电设备集成按钮、旋钮、舱门等多元异构部件,运行逻辑受模式切换、状态约束、内置程序多重管控。机器人完成完整家电作业,既要精准识别设备外观结构,也要读懂操作说明,严格遵循流程规范执行动作。依托说明书开展智能操作规划,已然成为具身智能适配居家环境不可或缺的核心能力。现阶段该领域发展深陷现实评测困境。微波炉、烤箱等家电误操作易引发设备损毁、安全隐患,存在极高实操风险;同时家用电器品类繁杂、购置与维护成本偏高,难以开展大规模、标准化、可复现的实体实验。现存仿真资源也存在明显短板,设备外形、部件功能、运行程序与真实产品偏差较大,无法满足说明书驱动型操作规划的测评需求。
在此行业瓶颈之下,北京大学高玉正、龙宇星,在北大长聘副教授、上纬启元首席科学家董豪指导下,完成本次 RealAppliance 系列成果研发。据悉,董豪团队曾于 CVPR 2025 凭借 CheckManual 研究,率先开辟说明书家电操作全新研究方向;本次研究更进一步,将测评维度从单一手册理解,拓展为说明书文本、设备外观形态、交互操控功能、程序运行状态一体化的完整操作系统。
全新上线的 RealAppliance 数据集囊括 100 款高精度家电数字模型,覆盖 14 类日常家用电器,从真实说明书、外观构造、交互方式、程序逻辑四大维度,全方位复刻实体家电运行特征。数据集收录中、俄、法、德等多语种设备手册,每一款数字资产均匹配原版使用说明,尺寸参数、部件功能、状态切换规则均与实物保持一致,可为智能算法测试提供可复用、可拓展的仿真实验载体。区别于传统仅还原运动结构的仿真数据集,该成果构建起说明书 - 数字资产 - 程序逻辑三位一体联动体系,不仅还原家电外观样貌,还可模拟操作顺序、状态限制、反馈纠错全流程,为家电操作智能化研究搭建标准化评估框架。
团队遵循四大阶段完成数字资产搭建,层层递进贴近真实家电属性。研究人员广泛搜集海内外家电实物照片与原版说明书,依据可机械操作、文本适配模型处理、步骤描述清晰、数据信息完备四项准则筛选样本;借助专业建模软件复刻家电外观,拆分独立功能部件,精细打磨纹理、色彩、标识细节,导入仿真平台生成标准数字模型,并按运动形式分类配置关节结构。同时团队搭建物理、电子两大模块化交互机制,涵盖弹簧复位、磁吸闭合、屏幕显示、电机运转等 10 类运行模式,让仿真家电具备真实操作反馈与状态变化能力。最后对照原版说明书编写运行脚本,设定温度、时长、工作模式等核心参数,完整还原家电开机、运行、启停联动整套工作流程。
依托数据集打造的 RealAppliance-Bench 评测基准,围绕家电实操全流程,设置手册页面检索、开环操作规划、电器部件定位、闭环规划调整、全过程推理五大递进式测试任务,全面考核智能模型文档解析、动作规划、空间识别、故障修正、端到端作业等核心素养,精准衡量算法在家电实操场景的综合性能。科研团队选取多款主流多模态大模型、具身规划模型开展系统性测评,测试结果暴露出当前智能算法的能力短板。各类模型在单一细分任务中各有所长,但面对贴合真实场景的说明书驱动家电操作任务时,整体性能距离落地应用仍有较大差距。检索任务中,具身模型文本理解能力偏弱;动作规划普遍存在步骤缺失、动作误用问题,未能吃透设备运行逻辑;部件空间定位精准度偏低,跨模态信息匹配难度突出;面对突发工况,模型难以快速调整作业方案;全流程连贯作业测试中,所有模型均未能实现成功通关,多环节误差叠加,凸显现有算法居家实操稳定性严重不足。
具身智能领域人士表示,RealAppliance 开创性实现说明书、高保真数字资产、操作程序逻辑三者高度统一,构建起贴近现实的家电仿真测评体系。配套评测基准打通从文本解读、动作设计到闭环纠错的完整考核链路,清晰划定当下智能模型的能力边界。
未来,该数据集与评测平台将持续承担标准化测评职能,助力科研人员迭代优化家电操控算法,深挖智能操作策略研发方向。随着仿真体系不断完善迭代,将为家庭服务机器人突破家电操作难关、规模化走进千家万户筑牢技术根基。





