立即搜索职位 寻找适合您的职位类型 查看我们如何帮助求职者 合同工人才 正式工人才 短期项目与过渡期管理 了解我们如何与您合作 财务和会计 金融服务 技术 供应链与采购 技术 风险、审计与合规 财务和会计 数字化、营销和客户体验 法律 运营 人力资源 2025年薪资指南 罗致恒富博客 薪资及招聘趋势 自适应工作 竞争优势 工作与生活的平衡 多元化和包容性 浏览职位 寻找您的下一位员工 我们的分支机构
大模型首席算法专家
<p><strong>公司介绍 </strong></p><ul><li>我们的客户是一家快速发展的解决方案企业,由于业务发展需要寻找优秀的候选人。</li></ul><p> </p><p><strong>岗位职责</strong></p><ul><li>核心算法研发:主导AI智能助手的算法工作,研发和优化大模型强化学习核心算法(RLHF、RFT、ReFT、DPO、KTO、IPO、RRHF等),专注于专业内容生成和思维链优化方向</li><li>训练管道构建:构建端到端强化学习训练管道,包括高效奖励模型设计、策略优化算法研发和智能数据收集系统开发</li><li>思维链优化:深度探索思维链(Chain-of-Thought)强化学习范式,提升模型在逻辑推理、分析论证和专业内容生成上的能力</li><li>智能体框架设计:设计并搭建多Agent协同框架,制定标准化通信协议与安全隔离机制,支持内外部开发的Agent灵活接入与协同工作。面向应用场景,提升智能体全链路(Prompt Engineering、SFT)的逻辑推理、任务规划等能力。构建数据管理体系(含在线数据回流链路)、向量数据库等基础设施,保障智能体知识的动态更新与高效检索</li><li>对齐技术研发:研发对齐技术,提高模型输出的专业性、准确性和可靠性</li><li>多轮推理优化:设计并实现多轮推理优化算法,提升模型在复杂分析和长文档撰写中的连贯性和深度</li><li>技术前沿跟踪:跟踪大模型前沿技术,撰写高质量技术分析报告,为团队提供深度技术指导</li></ul><p> </p><p><strong>任职要求</strong></p><ul><li>计算机科学、机器学习或人工智能相关专业硕士及以上学历</li><li>主导过前沿AI Agent大模型从技术落地到规模化应用的全流程,与算法、产品、质量团队深度协作,推动技术成果转化为行业级智能产品</li><li>具备丰富的RLHF对齐策略实践经验,能独立设计和优化人类偏好建模系统</li><li>熟悉并实践过新新的强化学习算法,如Constitutional AI、思维链增强型RL训练和无强化学习的偏好优化方法</li></ul><p> </p><p><strong>加分项</strong></p><ul><li>熟悉ReAct、Tree-of-Thought、Self-Consistency等思维链增强技术,或Process Reward Model等奖励建模方法</li><li>在专业内容生成、逻辑推理优化、RAG技术或多模态融合方面有项目经验或研究成果</li><li>构建过大模型评估体系,熟悉质量指标设计、A/B测试或人类评估方法</li><li>在顶级会议(NeurIPS、ICML、ICLR、ACL等)发表过相关论文,或有开源大模型项目贡献经验</li><li>熟悉分布式训练框架(DeepSpeed、Megatron-LM等)或高性能推理框架(vLLM、TensorRT-LLM等)</li><li>聚焦移动端与云端场景,攻克大模型高效部署、性能优化等核心技术挑战,打造高并发、低时延、强稳定的智能体系统</li><li>具备优秀的跨团队协作能力、技术前瞻性,有技术团队管理经验者优先。</li></ul><p><em>By clicking 'apply', you give your express consent that Robert Half may use your personal information to process your job application and to contact you from time to time for future employment opportunities. For further information on how Robert Half processes your personal information and how to access and correct your information, please read the Robert Half privacy notice https://www.roberthalf.cn/en/privacy-statement. Please do not submit any sensitive personal data to us in your resume (such as government ID numbers, ethnicity, gender, religion, marital status or trade union membership) as we do not collect your sensitive personal data at this time.</em></p><hr /><p><em>点击"申请",即表示您明确同意 Robert Half 可以使用您的个人信息来处理您的工作申请,并不时与您联系以获得未来的就业机会。 如需进一步了解 Robert Half 如何处理您的个人信息以及如何访问和更正您的信息,请阅读 Robert Half 隐私声明<a href="https://nam02.safelinks.protection.outlook.com/?url=https://www.roberthalf.cn/en/privacy-statement&amp;data=05|01|[email protected]|45960615caf741a897da08db12e2448b|16532572d5674d678727f12f7bb6aed3|0|0|638124535281002861|Unknown|TWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0=|3000|||&amp;sdata=txey6FkFkoVyheBOucHzeYO1yTcFywlr7N4oX7M8axY=&amp;reserved=0">https://www.roberthalf.cn/en/privacy-statement</a> 。请不要在您的简历中向我们提交任何敏感的个人数据(例如身份证号码、种族、性别、宗教、婚姻状况或工会会员身份),因为我们此时不收集您的敏感个人数据。</em></p><p> </p><p> </p><img src="https://counter.adcourier.com/RmFubnkuVGFuZy4xMzIzNC4xMDkyMUByaGljbi5hcGxpdHJhay5jb20.gif">
  • Beijing,
  • remote
  • 正式聘用
  • 90000 - 110000 CNY / Yearly
  • <p><strong>公司介绍 </strong></p><ul><li>我们的客户是一家快速发展的解决方案企业,由于业务发展需要寻找优秀的候选人。</li></ul><p> </p><p><strong>岗位职责</strong></p><ul><li>核心算法研发:主导AI智能助手的算法工作,研发和优化大模型强化学习核心算法(RLHF、RFT、ReFT、DPO、KTO、IPO、RRHF等),专注于专业内容生成和思维链优化方向</li><li>训练管道构建:构建端到端强化学习训练管道,包括高效奖励模型设计、策略优化算法研发和智能数据收集系统开发</li><li>思维链优化:深度探索思维链(Chain-of-Thought)强化学习范式,提升模型在逻辑推理、分析论证和专业内容生成上的能力</li><li>智能体框架设计:设计并搭建多Agent协同框架,制定标准化通信协议与安全隔离机制,支持内外部开发的Agent灵活接入与协同工作。面向应用场景,提升智能体全链路(Prompt Engineering、SFT)的逻辑推理、任务规划等能力。构建数据管理体系(含在线数据回流链路)、向量数据库等基础设施,保障智能体知识的动态更新与高效检索</li><li>对齐技术研发:研发对齐技术,提高模型输出的专业性、准确性和可靠性</li><li>多轮推理优化:设计并实现多轮推理优化算法,提升模型在复杂分析和长文档撰写中的连贯性和深度</li><li>技术前沿跟踪:跟踪大模型前沿技术,撰写高质量技术分析报告,为团队提供深度技术指导</li></ul><p> </p><p><strong>任职要求</strong></p><ul><li>计算机科学、机器学习或人工智能相关专业硕士及以上学历</li><li>主导过前沿AI Agent大模型从技术落地到规模化应用的全流程,与算法、产品、质量团队深度协作,推动技术成果转化为行业级智能产品</li><li>具备丰富的RLHF对齐策略实践经验,能独立设计和优化人类偏好建模系统</li><li>熟悉并实践过新新的强化学习算法,如Constitutional AI、思维链增强型RL训练和无强化学习的偏好优化方法</li></ul><p> </p><p><strong>加分项</strong></p><ul><li>熟悉ReAct、Tree-of-Thought、Self-Consistency等思维链增强技术,或Process Reward Model等奖励建模方法</li><li>在专业内容生成、逻辑推理优化、RAG技术或多模态融合方面有项目经验或研究成果</li><li>构建过大模型评估体系,熟悉质量指标设计、A/B测试或人类评估方法</li><li>在顶级会议(NeurIPS、ICML、ICLR、ACL等)发表过相关论文,或有开源大模型项目贡献经验</li><li>熟悉分布式训练框架(DeepSpeed、Megatron-LM等)或高性能推理框架(vLLM、TensorRT-LLM等)</li><li>聚焦移动端与云端场景,攻克大模型高效部署、性能优化等核心技术挑战,打造高并发、低时延、强稳定的智能体系统</li><li>具备优秀的跨团队协作能力、技术前瞻性,有技术团队管理经验者优先。</li></ul><p><em>By clicking 'apply', you give your express consent that Robert Half may use your personal information to process your job application and to contact you from time to time for future employment opportunities. For further information on how Robert Half processes your personal information and how to access and correct your information, please read the Robert Half privacy notice https://www.roberthalf.cn/en/privacy-statement. Please do not submit any sensitive personal data to us in your resume (such as government ID numbers, ethnicity, gender, religion, marital status or trade union membership) as we do not collect your sensitive personal data at this time.</em></p><hr /><p><em>点击"申请",即表示您明确同意 Robert Half 可以使用您的个人信息来处理您的工作申请,并不时与您联系以获得未来的就业机会。 如需进一步了解 Robert Half 如何处理您的个人信息以及如何访问和更正您的信息,请阅读 Robert Half 隐私声明<a href="https://nam02.safelinks.protection.outlook.com/?url=https://www.roberthalf.cn/en/privacy-statement&amp;data=05|01|[email protected]|45960615caf741a897da08db12e2448b|16532572d5674d678727f12f7bb6aed3|0|0|638124535281002861|Unknown|TWFpbGZsb3d8eyJWIjoiMC4wLjAwMDAiLCJQIjoiV2luMzIiLCJBTiI6Ik1haWwiLCJXVCI6Mn0=|3000|||&amp;sdata=txey6FkFkoVyheBOucHzeYO1yTcFywlr7N4oX7M8axY=&amp;reserved=0">https://www.roberthalf.cn/en/privacy-statement</a> 。请不要在您的简历中向我们提交任何敏感的个人数据(例如身份证号码、种族、性别、宗教、婚姻状况或工会会员身份),因为我们此时不收集您的敏感个人数据。</em></p><p> </p><p> </p><img src="https://counter.adcourier.com/RmFubnkuVGFuZy4xMzIzNC4xMDkyMUByaGljbi5hcGxpdHJhay5jb20.gif">
  • 2025-10-31T08:21:36Z

大模型首席算法专家 工作在 Beijing | 罗致恒富