模思MOSS-Speech介绍
团队介绍
上海模思智能科技有限公司成立于2024年11月,是一家由上海创智学院孵化,由复旦大学邱锡鹏教授担任首席科学家,专注于深度情境智能的大模型初创公司。公司致力于构建下一代智能人机交互技术,通过多模态情境感知和在线交互学习融合路径,为用户提供更为自然、流畅的人机交互体验。创始团队曾推出国内首个类ChatGPT大语言模型MOSS和端到端多模态大模型SpeechGPT和AnyGPT等。
公司当前主要产品为可以对标谷歌Gemini Pro的多模态大模型以及多模态智能体内容创作平台,包括高表现力的音视频理解和生成等能力,产品可广泛用于多个垂直领域,包括内容创作、数字人和具身交互等。
未来,公司将进一步围绕多模态大模型体系,融合文本、语音、视频和动作等输入输出模态,实现全感官端到端交互体验,并结合机器人等智能硬件,实现复杂情境感知、深度理解用户意图,真正实现所思即所得的下一代交互体验。
招聘职位
01 前端开发工程师
岗位职责
- 负责公司核心业务产品的前端模块开发、迭代与维护,保障页面性能、兼容性及用户体验
- 参与前端技术方案设计与评审,优化前端架构,解决复杂业务场景下的技术难题
- 协同产品、设计、后端及跨端团队(如客户端)高效协作,推动项目按时高质量交付
- 主动探索前端新技术、新工具(含 AI 辅助开发工具),并在团队内进行技术分享与落地,提升团队整体开发效率
- 参与前端技术沉淀,编写技术文档、封装通用组件或工具库,支撑业务快速迭代
任职要求
- 本科及以上学历,计算机相关专业优先,3-5 年前端开发经验,有中大型项目完整开发流程经验
- 熟练掌握前端基础技术栈:HTML5/CSS3(含 Flex/Grid、动画等)、JavaScript(ES6+),理解浏览器渲染原理、性能优化方案
- 深入掌握至少一种主流前端框架:Vue(熟练 Vue 3+Pinia/Vuex、Vue Router)或 React(熟练 React Hooks、Redux/Redux Toolkit、React Router),能独立负责复杂组件开发
- 具备较强的学习能力与技术钻研精神,熟练使用 AI 开发工具(如 Copilot、ChatGPT、CodeGeeX 等)提升开发效率,能快速适应新技术、新业务场景
- 具备良好的代码规范意识、问题排查能力及沟通协作能力,能清晰表达技术思路,推动问题解决
加分项
- 有一线互联网大厂(如 BAT、TMD、字节、美团等)前端开发经验,或参与过百万级及以上 DAU 产品的前端开发与优化
- 除前端外,额外掌握 Flutter 跨端开发、客户端开发(iOS/Android)或后端开发(如 Node.js、Java)相关技能,能独立完成简单跨端 / 后端需求开发
- 有前端工程化实践经验(如 Webpack/Vite 构建优化、CI/CD 流程搭建、模块化设计),或在性能优化、移动端适配等领域有专项沉淀
- 有开源项目贡献经验,或在技术社区(如掘金、GitHub)发表过前端相关技术文章
岗位福利(可根据公司实际情况补充)
- 完善的薪酬体系:具有竞争力的薪资 + 年终奖金 + 项目奖金,年度调薪机会
- 福利保障:五险一金(按实际薪资缴纳)、带薪年假、节日福利、定期团建
- 技术成长:定期技术分享会、外部培训机会、接触前沿技术与 AI 工具的实践场景
- 工作环境:扁平化管理、轻松协作的团队氛围,弹性工作制度(可根据公司情况调整)
02 大模型数据工程师
核心职责
专注于大模型数据处理的算法创新与工程实现,探索前沿数据增强技术,构建智能化的数据质量管控体系。
具体工作
- 算法创新研发:探索多模态数据合成增强算法、数据蒸馏模型、强化学习等前沿数据工程技术
- 大规模数据处理:负责万亿级URL处理与千亿级多模态数据清洗Pipeline核心算法开发,实现大规模数据的智能清洗、分类与质量评估
- 端到端协作:与训练、推理团队深度协作,构建数据-训练-推理全链路融合系统
- 质量管控系统:开发数据质量监控与增强系统,包括可视化分析、异常检测、智能质控、版本管理等全生命周期工具
- 架构协同:协同构建面向超大多模态数据的高性能分布式处理框架,参与异构计算资源优化和数据流水线设计
基础要求
- 扎实的Python编程基础,熟练运用pandas、numpy等数据科学核心工具栈
- 优秀的SQL能力和分布式计算编程能力,熟练使用Hive、ClickHouse等数据仓库技术
- 深入理解数据仓库理论及ETL技术,具备出色的数据架构设计和建模思维
- 卓越的学习能力和问题解决能力,具备工程化思维和敏锐的数据洞察力
优先考虑
- 具备大模型数据链路处理经验(清洗、分类、打分、去重、样本生成、Common Crawl处理等)
- 拥有多模态数据处理业务背景(自动化标注、数据理解、语音分离、OCR等)
- 具备LLM项目经验,深入了解模型训练数据处理完整流程
- 有数据质量算法设计与优化经验,熟悉机器学习在数据处理中的应用
03 后端开发工程师
岗位职责
- 构建稳定可靠的后端服务和数据库系统,提供标准化API接口供第三方集成调用,同时实现用户认证、权限管理、使用量统计等核心后端功能;
- 搭建可扩展的系统架构,确保系统能够随业务增长动态扩展并发能力,并建立日志监控、实时告警和异常处理机制和CI/CD自动化流程;
岗位要求
- 熟练使用Rust、Go、Python、Node.js或Java等至少一种后端语言,具备RESTful API设计开发经验,熟悉MySQL/PostgreSQL关系型数据库和Redis缓存技术;
- 熟悉Docker、Kubernetes等容器化技术和WebRTC等实时通信协议,具备微服务架构设计经验
- 具备AWS、阿里云或腾讯云等主流云平台的实际使用经验
- (加分项)拥有初创团队全栈开发背景,有从0到1完整项目开发落地经验者
- (加分项)具备AI产品或语音技术相关项目开发经验者优先
04 大模型相关 - 项目经理
岗位职责
- 项目全生命周期管理:负责大模型相关项目的整体规划与执行,统筹协调项目范围、进度、成本、质量及风险控制各环节,确保从数据采集、模型训练到产品交付的全流程稳定高效运营。
- 项目策略制定与风险把控:运用专业的项目管理方法论、工具和最佳实践,制定切实可行的项目管理计划;深度参与技术架构方案、产品设计规划、交付策略制定等关键决策,识别并前置管控项目风险点,确保合同条款与项目目标有效对齐。
- 跨部门协作与资源整合:充分调动和整合内部技术、产品、运营等各部门资源,建立高效的跨团队协作机制;同时负责外部供应商和合作伙伴的关系维护与资源管理,确保内外部协同顺畅。
- 项目监控与数据驱动管理:建立完善的项目监控体系,实时跟踪项目进度和关键指标,定期输出项目报告和数据分析;主动识别潜在问题并制定应对策略,持续优化项目执行效率和交付质量。
任职要求
- 全日制统招本科及以上学历,2年及以上团队管理经验(10+人),3年及以上项目管理经验;
- 具有大模型,语音类,自动驾驶等相关标注及管理经验优先;
- 性格开朗,热爱AI行业,对工作具备很好的抗压能力;
- 熟练使用各种办公软件和项目管理工具,具备数据获取、分类和分析能力。
产品 / 项目公告:真 - 语音到语音交互:MOSS-Speech 正式发布
概述
语音是人类最自然的交流方式,也是人机交互的终极形态。长期以来,语音助手大多依赖“级联管线”:先语音转文字(ASR),再用大语言模型(LLM)生成文字回答,最后通过语音合成(TTS)输出。这样的设计虽然成熟,但往往丢失语调、情感、停顿等细腻信息,难以实现真正自然的对话体验。近期语音大模型相关研究在端到端语音交互方面的探索虽然展现了巨大潜力,但依然存在明显的局限:现有的端到端语音助手在生成阶段仍需要先生成文本作为“引导”,再生成语音,导致生成效率降低,生成的声音内容范围也受到文本瓶颈的限制。
今天,我们正式发布了MOSS-Speech,这标志着我们迈入了“真语音到语音交互”的新阶段。MOSS-Speech不再需要预先生成文本引导语音生成,同时还保留了强大的推理能力,从而实现了真正的“语音到语音”交互。
亮点
-
真正的语音到语音(Speech-to-Speech)大模型
MOSS-Speech摆脱了传统级联方案(下图左)和需要生成文本指导后续语音生成的端到端方案(下图中)对于文本的依赖,实现了无需文本引导,直接理解并生成语音词符(下图右)。模型能够捕捉并生成语调、情绪、笑声等非文字要素,实现更自然、更高效的交流。
-
为高效模态对齐设计的新架构
MOSS-Speech 基于预训练文本 LLM,通过模态分层+两阶段预训练,让模型在继承文本 LLM 的推理能力与知识的同时,加入了原生的语音理解与生成能力,有效避免了模态冲突,实现了高效模态对齐。
-
双模态原生支持
不仅能“听懂”和“说出”语音,还处理文本输入输出,实现跨模态交互。支持语音提问 → 语音回答,文字提问 → 语音回答,语音提问 → 文字回答,文字提问 → 文字回答。
评测
MOSS-Speech 在语音到语音评测指标上取得了 SOTA 成绩。
-
预训练模型评测结果

-
指令微调模型评测结果

更多细节请参见我们的 Demo 和技术报告: