专委首页 >> 领域动态

NLG专委会真知学生论坛(GenTalk第7期)大模型预训练和微调技术及心得

  NLG专委会真知主题讲坛由中文信息学会自然语言生成与智能写作专委会主办,每月举办一次,每次邀请三名左右自然语言生成和智能写作领域的资深专家,就某一个主题,跟大家分享他们的最新成果以及领域的最新进展。

  本次有幸邀请到的两位专家为GLM模型一线研发专家曾奥涵(清华大学)和MOSS模型一线研发专家孙天祥(复旦大学),就主题“大模型预训练和微调技术及心得”为大家带来最一线经验的报告和分享。

会议信息

  会议时间:2023年6月3日(星期六)09:30(北京时间)

  腾讯会议:893-814-549

  直播平台:哔哩哔哩(http://live.bilibili.com/24629092)

  主办机构:中文信息学会自然语言生成与智能写作专委会

会议日程

时间 报告 主持人
09:30-10:30   报告嘉宾:曾奥涵(清华大学)
  报告题目:从GLM-130B到ChatGLM
李俊涛
10:30-11:30   报告嘉宾:孙天祥(复旦大学)
  报告题目:初探大型语言模型微调
李丕绩

报告一:从GLM-130B到ChatGLM

嘉宾: 曾奥涵

时间: 09:30~10:30

单位: 清华大学

摘要:GLM-130B是一个中英双语预训练基座模型,拥有1300亿参数,模型架构采用通用语言模型GLM,其22年8月开源版本已完成4000亿token预训练。斯坦福基础模型中心22年11月对全球30个大模型进行的评测报告显示 GLM-130B在准确性和恶意性指标上与GPT-3 175B (davinci) 接近或持平,鲁棒性和校准误差在所有千亿规模的基座大模型(无指令微调)中表现优异。自8月起,GLM团队进一步向模型注入了文本和代码预训练,通过有监督微调等技术实现人类意图对齐,于23年2月开始内测 ChatGLM千亿对话模型,于3月开源ChatGLM-6B模型。此外,GLM-130B(和ChatGLM)的INT4量化版本支持在一台八卡 2080Ti 或四卡3090服务器上对1300亿全参数模型进行基本无精度损失的推理。报告将分享 GLM团队在千亿训练和ChatGLM研发过程的一点思考和尝试。

曾奥涵: 清华大学知识工程实验室一年级博士生,为开源双语预训练模型 GLM-130B 模型和 ChatGLM 系统的主要开发者之一,研究方向为自然语言处理与大规模预训练模型,指导老师为唐杰教授。

报告二:初探大型语言模型微调

嘉宾: 孙天祥

时间: 10:30~11:30

单位: 复旦大学

摘要:近来,开源社区的很多工作证明:通过少量样本简单地微调一个较强的大型语言模型可以达到媲美ChatGPT甚至GPT-4的效果,事实是否如此?在本次报告中,我们试图探讨目前开源社区中缺失的几个因素:1)已有的评测基准能否真正的衡量模型间的差异?2)已有的评测基准能否有效地指示语言模型的提升方向?3)如何缓解“幻觉”问题——一个被开源社区忽略的部分?

孙天祥: 复旦大学博士生,复旦MOSS系统主要设计者和开发者,作为第一作者在ICML、AAAI、ACL、EMNLP、NAACL、COLING等国际顶会发表多篇论文,据Google Scholar统计被引1400余次,担任相关会议程序委员会成员或审稿人。指导老师为邱锡鹏教授。

主持人介绍

李俊涛,苏州大学副教授(2020年至今),近5年在TPAMI、AI Journal、FnTIR、TOIS、NeurIPS、ACL、KDD、EMNLP、NAACL、AAAI等顶级会议和期刊发表论文近40篇,入选微软亚洲研究院2022年“铸星计划”。多次担任高水平会议和期刊审稿人,包括ACL Rolling Review(Area Chair/Action Editor)、EMNLP-2022 (Area Chair)、ACL-2021(Area chair)等。

李丕绩,南京航空航天大学计算机科学与技术学院/人工智能学院教授,博士生导师, 人工智能与交叉应用系副主任,2021年度南京航空航天大学"长空学者"获得者。香港中文大学博士,曾任腾讯AI Lab自然语言处理中心高级研究员。研究方向主要为自然语言处理,包括预训练模型、文本摘要、文本生成和对话系统。曾经在相关领域顶级会议如ACL、EMNLP、SIGIR等发表学术论文60余篇。多次受邀担任ACL、EMNLP、IJCAI等会议的领域主席。在工业界工作期间负责了多个语言理解、文本生成和智能对话相关重要项目的算法研发和产品发布,有丰富的科研落地实践经验。主持或参与多项国家自然科学基金、CCF-腾讯犀牛鸟基金、CCF-智谱大模型基金等项目。

本次专委会主题讲坛组织者

NLG专委会秘书处:冯骁骋(哈尔滨工业大学)、李丕绩(南京航空航天大学)、高扬(北京理工大学)

NLG专委会学生工作组:朱坤(哈尔滨工业大学)、殷聪驰(南京航空航天大学)