方班前沿秀第三十四期：中山大学郑伟诗教授做“具身视觉感知与学习”的主题演讲

当前位置：首页 > > 方班前沿秀第三十四期：中山大学郑伟诗教授做“具身视觉感知与学习”的主题演讲

方班前沿秀第三十四期：中山大学郑伟诗教授做“具身视觉感知与学习”的主题演讲

发表于：2025-06-25 13:41 作者：方滨兴班阅读数（709人）

2025年6月17日 8:30-10:05，广州大学网络空间安全学院“方滨兴院士班”（方班）2024级的学子们齐聚广州大学黄埔校区B1栋109报告厅，参加第三十四期方班前沿秀。本次活动邀请了机器智能与先进计算教育部重点实验室主任、大数据分析与应用技术国家工程实验室副主任、中山大学计算机学院副院长郑伟诗教授担任主讲嘉宾。郑伟诗教授以“具身视觉感知与学习”为主题，为在场的学子带来了一场深入浅出、精彩纷呈的学术盛宴。

报告开始，郑伟诗教授介绍具身智能的概念，其与离身智能相对，强调智能体与物理世界的深度结合，而机器人是实现具身智能的关键物理载体，其核心目标在于通用性。国家2023年11月出台人形机器人政策，2025年4月设产业基金，美国、德国等多国及北京、深圳等地方政府亦积极布局。具身智能的爆发式发展依托于深度学习与大模型技术的突破，大模型整合多模态数据形成基础模型并迁移至不同应用场景，尤其是大语言模型的进步让机器人具备了理解人类自然语言指令的能力，为具身交互奠定了沟通基础。

随后，教授讲述具身智能技术路径与应用。以模仿学习和体操为核心，机器人收集人类操作数据学习动作，结合AR/VR实现人机动作映射。多模态感知技术提升环境认知，视觉-语言-动作对齐模型实现语言引导操作。机器人大模型整合数据生成动作策略，强化学习与仿真结合优化试错。多智能体协作处初级阶段，如双机械臂协同、虚拟智能体分工。郑伟诗老师团队已开展移动抓取、语言引导抓取等研究，通过长持续轨迹建模等实现物体抓取，结合场景图理解语言指令完成物体摆放，以及多机械臂协同操作和基于语言引导的灵巧手抓取等。

最后，教授提及具身智能面临的挑战与未来方向。首先是安全性问题突出，模型易受环境干扰和后门攻击；其次数据收集成本高；还有触觉感知不足影响处理未知物体。未来发展将聚焦人机共生，通过仿真生成人类动作再映射至实体机器人实现行为模拟与导航。团队将探索多智能体任务规划、具身智能安全建模等方向，目标是让机器人适应复杂环境并与人类协作。教授最后提到，尽管当前具身智能的发展仍存在诸多技术瓶颈，但科技的指数级进步可能加速人机共生愿景的实现，正如大语言模型突破了人机沟通障碍，未来或有更多技术突破推动具身智能跨越式发展。

报告结束后，郑伟诗教授详细解答了同学们关于具身智能在数据采集、多任务资源调度、视觉遮挡处理、硬件故障代偿等方面的提问。他总结指出，通过云边端协同、大模型轻量化与治理创新，边缘原生大模型正成为普惠智能的重要载体，为智能应用提供新路径，为学术研究和产业落地创造更多可能。未来，AI技术对人类生活方式的深刻影响将逐步显现，众人将共同见证这一进程。

第三十四期方班前沿秀报告圆满落幕。

整理：袁杉杉朱艺峰

校对：王乐老师鲁辉老师殷丽华老师

责任编辑：鲁辉老师