强化学习工程师

上海

全职

AI人工智能

矩阵超智 Matirx 是一家开发通用人形机器人的AI人工智能公司。我们的人形机器人Matrix-3专为商业任务和家庭而设计。矩阵超智 Matirx 的使命是打造物理世界的AGI通用人形机器人提升人类潜能。

岗位职责

我们正在寻找一名强化学习工程师。您将负责为我们的人形机器人开发、训练和部署新的强化学习算法，以及构建支持大规模训练策略的基础设施。 1.为运动和操控任务开发、训练和部署强化学习算法 2.构建模拟基础设施，以支持大规模通用人形机器人的运动和操控策略训练 3.与控制团队合作，将策略集成到现有的控制堆栈中 4.定义、测试和评估学习策略的性能指标

岗位要求

1.熟练的在 PyTorch 中编写生产质量代码 2.熟悉在线和离线强化学习算法：PPO、SAC 等。 3.具有为这些 RL 算法调整超参数和成本函数的经验 4.熟悉常见的 RL 技术，例如：领域随机化、课程学习、奖励塑造等。 5.熟悉通用 ML 评估工具，例如 TensorBoard、Weights&Biases 等。额外资格： 1.具有将模拟中学习到的策略转移到机器人硬件的经验 2.具有为四足或双足机器人训练运动策略的经验