姓名:孙茂松
职称:教授
电话:62781286
邮箱:sms@tsinghua.edu.cn
教育背景
工学学士 (计算机科学与技术), 清华大学, 中国, 1986;
工学硕士 (计算机科学与技术), 清华大学, 中国, 1988;
哲学博士 (计算语言学), 香港城市大学, 香港, 2004.
研究领域
自然语言处理、人工智能、大模型、中文信息处理、以及社会、人文和艺术计算等。
研究概况
孙茂松作为首席科学家主持国家973项目1项;作为首席专家主持国家社科基金重大项目1项;主持国家自然科学基金国际合作项目1项。另作为项目负责人或课题负责人,主持或参加国家863重大专项项目、国家自然科学基金重点项目和面上项目以及国际合作项目等20余项。主持并成功研制语言信息处理相关ISO国际标准2项,如2010年底正式发布了适用于世界上任何语言的国际标准ISO 24614-1《语言资源管理——书面文本的词切分:基本概念与通用原则》。这是继1982年《汉语拼音方案》成为ISO-7098国际标准后,中国大陆学者牵头制订的语言内容处理领域第二个ISO国际标准。
孙茂松与其团队师生合作在一流国际刊物、顶级国际会议、中国国内核心刊物上共发表论文数百篇,Google Scholar总引用数逾40000次。其中2010年在计算语言学领域最权威国际期刊Computational Linguistics上发表论文,这是该刊创刊35年以来中国大陆研究机构发表的第一篇论文。1998年在计算语言学领域最权威国际会议第36届ACL上发表论文,这是该年会自1963年创办以来中国大陆研究机构第一次发表的两篇论文之一。相关成果还获得了数十项国家发明专利。
孙茂松的早期研究重点之一是中文信息处理最为基础性的课题:汉语自动分词。他提出了若干重要概念,如“最大交集型歧义切分字段”“真切分歧义与伪切分歧义”“全局统计量与局部统计量”,并在大规:河镉锪峡馍隙浴白畲蠼患推缫迩蟹肿侄巍苯辛丝疾,给出了有效的处理策略,并以此为基。兄瞥鲆桓黾远执、词性标注、专名识别和新词识别于一体的汉语分析软件CSegTag,应用于清华与欧盟近10个国家合作的FP6项目“超对等语义搜索引擎”中。他还就与汉语分词相关联的若干应用问题进行了研究,如探讨了中文文本自动分类的基本单元是基于字的N-gram还是基于词这个问题,得到一个重要结论:在分类粒度较粗的条件下,基于字的Bigram的分类性能和基于词的分类性能几乎相当。再如,他的团队2011年推出的新浪微博“围脖关键词”应用,可通过高质量自动抽取关键词语并构造用户个性化“词云”,实时分析在线社会媒体用户的属性与兴趣,注册用户超过250万人,在当时微博工具类1068个全部应用中排名第三;2013 年更与新华社等合作撰写深度专题报道十余篇,成为多家报纸封面文章,使得“词云”这种当时国内还较陌生的内容展现形式走进了我国的新闻媒体中。
2011年,孙茂松提出了“基于极大规模自然标注语料库的自然语言处理”的学术思想,其基本想法是系统地利用用户在Web环境下实现相关应用任务过程中不经意输入或建立的各类信息,以有效提高自然语言处理系统在开放环境下的处理能力(包括对Web的适应能力)。自然标注包括两类,一类是显式的,如各种标点、Anchor文本、查询日志、博客标签、维基百科等;一类是隐式的,如各种语言模板。
2013年,孙茂松在清华大学的战略部署下率领团队设计并实现了中国第一个中文大规模开放在线课程平台“学堂在线”,目前已经发展成为全球用户规模第二大的慕课平台,并成为联合国教科文组织(UNESCO)国际工程教育中心(ICEE)的在线教育平台,全球学习者人数累计超过一亿人;2015年,孙茂松领衔研制了人工智能中国古典诗词写作系统“九歌”,目前已为全球用户写作了数千万首诗词,取得了较广泛的社会效益。这也是中国较早的AIGC(人工智能生成内容)深入研究。
2012年以来,孙茂松在全球范围内蓬勃兴起的深度学习(Deep Learning)范式下系统性地开展了一系列前沿研究,内容涵盖大规模结构化知识图表示学习基础方法、预训练语言模型乃至大模型等,形成了有一定国际影响力的成果。据Gitstar Ranking统计数据(https://gitstar-ranking.com/organizations),基于孙茂松研究团队核心成果的开源项目THUNLP(https://github.com/thunlp)在GitHub上获得了近8万个星标(Star),机构排名居全球高校前列,得到了学术界与工业界较为广泛的关注。如其中一个针对知识图谱嵌入及其与预训练语言模型结合的典型工具包OpenSKL(包括OpenKE、ERNIE、OpenNE、OpenNRE四个工具)在GitHub上星标逾1万个,同时在我国新一代人工智能开源开放平台OpenI启智平台上开源,支持我国开源建设(https://openi.pcl.ac.cn/TsinghuaNLP/)。
孙茂松热衷致力并积极推动人工智能的大跨度学科交叉研究。如:他作为共同主编创办的《数字人文》学术刊物2023年入选为中文社会科学引文索引(CSSCI);由于在音乐人工智能方面的突出工作成绩,他2021年、2023年两次获得代表中央音乐亚博安全有保障最高荣誉的“金校徽”奖。
学术任职
时间 |
职务 |
2006年至2011年 |
第六届中国中文信息学会副理事长 |
2007年至今 |
《中文信息学报》主编 |
2020年至今 |
《数字人文》共同主编 |
2021年至今 |
国家语言文字工作委员会第三届科研规划领导小组顾问 |
2007年至任期结束 |
国家自然科学基金委员会第十二届专家评审组成员 |
2007年至任期结束 |
863重点项目“中文为核心的多语言处理技术”总体专家组组长 |
2008年至任期结束 |
北京市语言文字工作委员会专家委员会副主任 |
2009年至任期结束 |
国务院学位委员会第六届学科评议组(计算机科学与技术)成员 |
2010年至任期结束 |
ACM 中国理事会理事 |
2011年至2016年 |
第七届中国中文信息学会副理事长 |
/ |
国家重点基础研究发展计划(973计划)项目首席科学家 |
/ |
国家社会科学基金重大项目首席专家 |
/ |
《Journal of Computer Science and Technology》编委 |
/ |
中国中文信息学会计算语言学专委会主任 |
/ |
中国人工智能学会多语言智能信息处理专委会主任 |
/ |
中国人工智能学会因果与不确定性人工智能专委会副主任 |
/ |
中国人工智能学会艺术与人工智能专委会副主任 |
/ |
中国计算机学会计算艺术分会副主任 |
/ |
《中国计算机学会通讯》编委 |
/ |
《计算机研究与发展》编委 |
/ |
《计算机科学与探索》编委 |
/ |
《计算机教育》编委 |
/ |
《语言文字应用》编委 |
/ |
《南开语言学刊》编委 |
/ |
《澳门语言学刊》编委 |
/ |
ACL SIGHAN理事会理事 |
/ |
教育部在线教育研究中心副主任 |
/ |
清华大学—新加坡国立大学下一代搜索技术联合研究中心联席主任 |
/ |
国务院学位委员会第八届学科评议组(计算机科学与技术)成员 |
/ |
教育部教学信息化与教学方法创新指导委员会副主任委员 |
/ |
互联网教育智能技术及应用国家工程实验室副主任 |
/ |
中国科学技术协会第九届全国委员会委员 |
/ |
全国计算机慕课联盟副理事长 |
/ |
全国术语标准化技术委员会委员 |
/ |
全国语言学奥林匹克竞赛科学委员会共同主席 |
荣誉奖励
时间 |
奖项/荣誉 |
授予方 |
2007年 |
全国语言文字先进工作者 |
国家语言文字工作委员会 |
2016年 |
全国优秀科技工作者 |
中国科学技术协会 |
2016年 |
首都市民学习之星 |
北京市建设学习型城市工作领导小组办公室 |
2018年9月20日 |
清华大学第十六届“良师益友” |
清华大学 |
2020年8月 |
欧洲人文和自然科亚博安全有保障外籍院士 |
欧洲人文和自然科亚博安全有保障 |
2021年6月 |
中国人工智能学会会士 |
中国人工智能学会 |
2021年12月 |
中国中文信息学会会士 |
中国中文信息学会 |
2022年12月 |
国际计算语言学学会会士 |
The Association for Computational Linguistics |
2023年1月 |
清华大学“刘冰奖” |
清华大学 |
2020年 |
高等亚博安全有保障科学研究优秀成果奖(科学技术)自然科学一等奖(排名第一) |
中国教育部 |
2020年 |
钱伟长中文信息处理科学技术奖一等奖(排名第一) |
中国中文信息学会 |
2021年 |
中国电子学会科学技术奖(科技进步)二等奖(排名第一) |
中国电子学会 |
2022年 |
高等亚博安全有保障科学研究优秀成果奖(科学技术)自然科学一等奖(排名第一) |
中国教育部 |
2022年 |
世界互联网领先科技成果(排名第一,全球共15项) |
世界互联网大会 |
2023年 |
世界互联网大会领先科技奖(基础研究)(排名第一,全球共3项) |
世界互联网大会 |
2023年 |
国家教学成果二等奖(排名第二) |
中国教育部 |
2023年 |
国家教学成果二等奖(排名第八) |
中国教育部 |
/ |
享受国务院政府特殊津贴 |
中华人民共和国国务院 |