1、强化学习/模仿学习算法开发,基于现有模型设计机器人控制策略,解决复杂任务(如抓取、放置)决策问题;
2、仿真验证,在MuJoCo、IsaacGym等平台搭建虚拟环境,验证算法鲁棒性;
3、大模型微调,使用人类示范数据(如视频+文本)对预训练模型(PI-0)进行SFT(监督微调),提升任务泛化能力;
4、数据采集与标注、验证、清洗。
1、仪器仪表/自动化/电子信息/计算机/软件/通信/通讯/光电等相关专业,本科及以上学历;
2、熟悉Python编程语言,需熟练掌握面向对象编程、常用库(如NumPy、Pandas)及数据处理技巧;
3、具备深度学习基础,掌握1种以上深度学习框架,如PyTorch、TensorFlow等;
4、了解监督微调(SFT)、参数高效微调(LoRA/QLoRA)、强化学习(PPO算法);
5、有良好的英文阅读能力,有优秀的学习和沟通的能力。
