Agent 数据评测专家
社会招聘
职位列表
登录
Agent 数据评测专家
分享
全职|其他|DeepSeek|浙江·杭州市 北京市
发布于 2026-03-18
申请职位
首页/职位列表/职位详情
Agent 数据评测专家
分享
全职|其他|DeepSeek|浙江·杭州市 北京市
发布于 2026-03-18
申请职位
职位描述
职位描述:
1.设计并构造高质量的 Agent 评测数据集,能够精准区分不同模型的能力边界;针对 Agent 的规划、工具调用、多轮交互、指令跟随等核心能力,构建多样化的测试场景与用例;持续迭代评测标准,确保评测体系能够跟进业界前沿并反映真实用户需求;
2.与研发团队紧密协作,提升模型在 Agent 方向的专业能力;围绕代码生成、通用agent等场景,设计高质量的 Agent 训练语料;构建端到端的测试用例,从可用性、代码规范、工程质量、任务完成度等多维度评估模型表现;
3.与研究人员深度合作,探索不同数据标注策略对模型 Agent 能力的影响路径;参与数据与强化学习(RL)结合过程中的实验设计,研究模型能力的可控性检测方法,为训练策略优化提供数据侧支撑;
4.基于深度使用 Claude Code、OpenClaw 等主流 Agent 产品的实践经验,系统性分析当前模型的能力短板与失败模式;针对性地构建补齐数据与边界测试用例,推动模型在弱项上的持续迭代与突破。
职位要求:
1.具备 Claude Code、Cursor、OpenClaw 等 AI 编程工具的重度使用经验,对 LLM 辅助开发有自己的理解与思考;
2.熟练掌握 Python,能够独立编写数据处理、评测脚本等工具;
3.对大语言模型有基础认知且对探索大模型能力边界具有较高的热情;
4.具备良好的自主能动性,能够独立发现问题、定义问题并推动解决;
5.善于跨团队协作,能够与研发、算法团队高效配合;
6.具有多年工程开发经验、完成过大型项目的交互。
加分项:
1.有前端开发经验,熟悉 React 或 Vue 等主流框架,对前端设计有独立的审美与品味;
2.有大模型数据标注、评测体系设计或数据质量管理经验。
职位信息
职位名称
Agent 数据评测专家
薪资范围
-
职位性质
全职
职能类型
其他
所属部门
DeepSeek
工作地点
浙江·杭州市 北京市
发布日期
2026-03-18
申请职位
最新职位
商务采购
Agent深度学习算法研究员
Agent 数据评测专家
Agent 基础设施工程师
搜索算法研究员(北京)
客户端研发工程师(北京/杭州)
运营运维工程师
测试开发工程师(北京/杭州)
© 2024-2025 deepseek
京公网安备 11010802024479号京ICP备15060035号-3