AGI-Eval 大模型评测社区介绍
AGI-Eval(https://agi-eval.cn/)是由上海交通大学、同济大学、华东师范大学、DataWhale等高校和机构合作发布的大模型评测社区,旨在打造公正、可信、科学、全面的评测生态,以“评测助力,让AI成为人类更好的伙伴”为使命。
评测榜单:涵盖综合评测和细分能力项的业内大语言模型得分榜单,数据透明权威,更新及时有效。
人机协同比赛:人与模型协同完成复杂任务,探索人机增益指标,共建未来行业标杆。
数据集社区:官方、高效和用户多维联动,共通建设多领域、高质量的评测数据集。
Data Studio:用户群体活跃,数据类型多样,审核机制完备的数据工坊。已上线485个任务标签,数据总量超过32万条,参与人数突破2万。
招聘信息
一、 多模态大模型分析算法专家
岗位职责
主要负责多模态大模型(不限于多模输入大语言模型、文生图模型、文生视频模型)的模型能力分析,并且对训练数据、训练策略和模型能力之间的关系进行研究分析,产出可行的模型评测方案和训练策略,具体工作内容包括但不限于:
- 追踪多模态大模型方向的前沿进展,积极学习新的模型结构、前沿模型认知,并进行深入分析。
- 积极探索业界前沿的图片、视频质量分析方法,并且结合实际业务场景制定并且实现图片、视频质量分析方法。
- 学习图片理解、视频理解等前沿方法,结合实际业务场景,完成图片理解、视频理解上模型能力的分析,并确定合理的模型能力评测方案。
- 深入理解多模输入的大语言的模型结构、训练过程,结合模型的最终训练目标,设定合理的模型训练中间过程的效果分析方法,并且实现具体方案。
- 结合模型评测结果,对模型的训练数据、训练策略、模型结构等进行深入分析,指导评测方式迭代以及模型训练策略优化。
- 与各相关部门保持良好沟通,深度参与多模态模型的训练过程,共同推动多模态大模型持续优化。
岗位基本要求
- 硕士及以上学历,计算机、数学、统计学或相关专业。
- 熟悉Java/Python/C++等编程语言,良好的编码习惯和一定的工程能力。
- 具有机器学习、深度学习以及计算机视觉算法的基础知识,熟练掌握多模态大模型相关算法和模型。
- 良好的沟通能力、团队合作精神以及较强的问题解决能力。
- 对每一行代码负责,对业务方负责,具备工匠精神。
具备以下条件优先
- 在计算机领域顶会(如CVPR、ECCV,ICCV,ACL、NeurIPS、AAAI等)上以一作发表过论文者优先。
- 有图像生成、视频生成相关工作或算法研究经验者优先。
- 对GPT4V、DeLLE、MidJourney等相关多模态大模型有深入了解者优先。
投递邮箱:larry_lee001@163.com
二、 大模型应用评测产品经理
岗位职责
- 负责大模型应用评测平台的产品设计工作,包括架构规划、用户界面(UI)设计,以及撰写产品需求文档。
- 独立完成大模型应用评测的需求分析,确保产品功能满足市场需求和业务目标。
- 与大模型训练、分析算法团队紧密沟通,了解大模型训练分析需求,并参与平台功能设计。
- 结合业务场景,制定并实施大模型的评测方案,包括单、多模态模型质量分析方法的制定和实现。
- 结合模型评测结果,对模型的训练数据、训练策略、模型结构等进行深入分析,指导评测方式迭代及模型训练策略优化。
岗位基本要求
- 本科及以上学历,计算机、数学、统计学或相关专业。
- 具有机器学习、深度学习以及计算机视觉算法的基础知识,熟悉大模型相关领域平台或系统。
- 良好的沟通能力、团队合作精神以及较强的问题解决能力。
具备以下条件优先
- 有互联网大厂平台产品工作经历优先。
- 对ChatGPT等大模型有深入了解或丰富的使用经验者优先。
投递邮箱:330404579@qq.com