在自然语言处理(NLP)领域工作的学者(学生)可能无人不知 ACL、EMNLP 这样的 NLP 顶会,但国内发起的这个 NLP 国际会议尽管已经举办六届,可能还没有引起所有人的注意。
近期中国计算机学会(CCF)举办的第六届国际自然语言处理及中文计算会议(NLPCC 2017)在大连成功举办。作为国内 NLP 领域首个面向国际的学术大会,NLPCC 无论从会议的形式、参会的人数(500+)、还是报告的质量(录取率21%),都展现出了一副朝气蓬勃的气象,欲有引领中国 NLP 走向国际之势。
NLPCC 2017会议之后我们采访了CCF 中文信息技术专委会主任、微软亚洲研究院副院长周明(同时他也是中国中文信息学会(CIPS)的常务理事和国际计算语言学会 ACL 的候任主席)和CCF 中文信息技术专委会秘书长、北京大学赵东岩研究员。周明博士主要介绍了中国 NLP 的研究现状,及中国在未来需要如何做才能跻身世界顶尖水平甚至引领世界潮流。详细内容见《专访MSRA副院长周明:中国NLP如何跻身世界顶尖水平?》。
本文内容为对赵东岩研究员的专访。赵东岩研究员向我们详细讲述了 NLPCC 作为一个新兴会议为何有如此朝气。他认为随着中国综合国力的增加,中文的世界化,将会有越来越多的人学习中文、研究中文,中国人在中文的自然语言处理的会议应当成为这个领域世界上最顶级的,我们有必要也有能力办这样顶级的会议。
以下为赵东岩研究员的深入讲解,AI 科技评论根据采访内容作了不改变原意的精简和编辑。
北京大学 赵东岩研究员
一、背景:NLPCC 是什么?
NLPCC 全称为CCF国际自然语言处理与中文计算会议,英文为 Natural Language Processing and Chinese Computing。会议由中国计算机学会(CCF)主办,CCF 中文信息技术专业委员会(CCF TCCI)及高校(每年通过投票选举)承办。会议内容主要围绕自然语言处理(NLP)和中文计算(CC)两方面来进行。
该会议秉承国际化和一流化的严格标准,每年一度在全国各城市举行,尽管只有六年的时间,但俨然已经成为国内自然语言处理领域的年度盛会(NLPCC 2017 总参会人数有 500 人之多),同时也在逐渐走向国际化道路。
NLPCC 会议包括多个技术评测、学科前沿讲习班(ADL)、主会(含特邀报告 Keynote、论文报告 Oral墙报 Poster、研讨会 Workshop)等活动。其特点在于以下三个方面:
1.它是国内首个 NLP 领域的国际会议;
2.它是国际上中文计算领域的首选;
3.它的所有流程严格按照国际顶级会议的要求执行,同时又具有自己的特色。
二、举办会议缘由
为什么要举办这样一个面向国际的 NLP 会议呢?
赵东岩:主要基于三点考虑:
1.我们有条件办一个NLP领域的高水平国际会议。近几年我们国内的学者在 NLP 领域的研究水平已经达到世界先进水平,稳居世界第二的位置。因此国内研究的质量和水平有条件让我们办好这样一个有水准的国际会议
2.通过会议进一步促进和提高国内学者(包括学生)的研究水平。NLPCC 会议在会议组织、审稿以及举办的整个流程上完全按照国际顶级会议的模式来进行,让每一个参与的人都能够得到很多收获。例如,会议全程使用英语交流和讨论,任何参加过会议的人再参加 ACL、EMNLP 这样的会议时就不会怵。
3.我们希望能够做一个由中国举办的有世界影响力的学术会议。近年来,我们在《Science》或《Nature》等国外顶级期刊上发表文章越来越多,然而由中国学术机构主办的高水平会议和期刊还很鲜见,这样的现象应该扭转。我们希望通过举办这个会议,通过规范化的组织、高水平的管理和对论文质量的严格把关,使它能够成为展示中国学术界研究水平和中国学术组织在学术管理、学术创新方面实力的窗口或者标志。
NLPCC 有没有进入 CCF 推荐排名?
赵东岩:现在还没有,这正是我们努力的目标。
NLPCC 相比国内其他 NLP 领域的会议有什么区别?
赵东岩:以举办高水平国际学术会议为目标,中文信息技术专委会希望NLPCC能够在论文质量、学术水平和国际化方面做出特色。所以专委会有这样几个举措:
1.录用论文确保高质量。学术会议的核心机构是负责评审和录用稿件的程序委员会,这个委员会是保证会议论文质量和学术水平的关键。NLPCC的程序委员会一开始就是按照国际化方式来组织:由国内和国外的一线知名学者和专家共同组成。审稿方面主要借鉴了 ACL 的模式:每篇稿件至少有三个审稿人基于回避制进行审稿;审稿人使用国际审稿系统独立评审、打分,将评审意见提交给领域出席;领域主席由国内和海外两名专家共同担当,领域主席按照打分和评审意见决定录用论文的基本排名;随后由程序委员会主席、领域主席以及大会主席等举行审稿会(decision meeting),按照录用论文的指导比例(25%)决定录用哪些稿件。虽然录取稿件的比例线控制在 25% ,但为了确保质量,几位主席会对录用线附近的论文(borderline papers)进行严格筛选,所以一般大会的录用率都会低于25%。
2.办会规范看齐国际一流会议。这体现在两点,一个是NLPCC会议的组织委员会和程序委员会都是由一流的国际和国内一线专家共同组成;另一个是会议流程上我们完全参照国际一流会议的形式来举办。
3.会议组织服务做到精细化。我们在组织和服务方面做了精细化安排。例如,每次会议均制作了内容严谨丰富、排版规范美观的会议手册,同时会议为所有参会人员都给予贴心的服务以及旅行资助和注册参会资助;此外会议还非常注重对赞助机构的服务。
作为中文信息技术专委会的年度学术会议,我们希望NLPCC不断提高会议质量和学术影响力质量。因此,从第三年开始,NLPCC就转为国际会议,会议全程使用英文交流。
三、NLPCC 平台
赵东岩:在严格把关论文录取率、办好学术大会(Conference)的基础上,NLPCC 会议还希望成为一个平台。
做成什么平台?
赵东岩:除了会议的论文报告、特邀报告之外,NLPCC会议还包括 ADL 讲习班、系列技术评测、系列研讨会以及工业论坛,形成了学术交流、技术研讨和产学研交流的互动平台。
ADL 讲习班
目前 NLPCC 的学术大会是两天,之前还有三天的讲习班,邀请六位业界知名的专家就大家关心的热点领域每人做三个小时的学术报告。我们强调 ADL 是「提高班」,不只讲前沿概念,还要介绍相对基础和系统的学术研究进展,同时也包括基于相关理论的研究和应用实践。参加这样的 ADL 讲习班不仅能学习 NLP 领域的最新理论,还可以了解技术应用方法与效果。总之,除了开阔眼界,还能够学到系统性的研究实践方法,所以我们这个活动非常受欢迎。
根据 CCF 的统计,除了学生,NLPCC 举办的 ADL 有 30-40% 的在职研究人员(包括工业界人士)参加,这其中还包括 10% 具有 10 年以上工作经验的资深专家。这意味着 NLPCC 的讲习班有一定的深度和系统性。
研讨班也会请一到两个企业界的专家结合企业的实际情况,讲解企业应用 NLP 方法的工作。这样的内容也非常吸引学术界的老师和学生;他们有机会了解工业界的需求、挑战和解决方案。组织这样的讲习班也能够促进产学研互动。
技术评测
结合 NLPCC 会议,专委会还设立了一系列的评测任务,例如中英文问答、文本摘要与生成、词义计算等等。这些评测都是当前大家比较关注的任务。这些评测任务的组织不仅由学术界组织,也吸引许多公司参与,比如 CCF 与企业合作举办的关于实体识别和抽取的评测任务就把工业界的需求引入到评测任务中。
NLPCC 2017技术评测(http://tcci.ccf.org.cn/conference/2017/taskdata.php)
技术评测的好处是能够激发学生实际动手能力。此外,NLPCC 每年都邀请参与评测任务的队伍提交研究性论文,论述评测技术,经过严格评审后在 NLPCC 会议上发表;同时,组织技术评测研讨会邀请评测成绩优秀的队伍参加会议,做技术交流。这是 NLPCC 会议搭建的第二个平台,引导参会者解决实际问题。
研讨会
NLPCC 现在有两个非常有特色的研讨会:
1.学生研讨会
为了帮助更多学生提高研究水平,NLPCC 举办了一个学生研讨会(Student Workshop),吸引硕士生或高年级的本科生投稿单独录用并出版。研讨会上,资深老师会评析 NLP 研究该怎么做,论文该怎么写。此外,研讨会还邀请在 NLP 领域取得突出成果的学生及刚刚毕业的老师介绍他们的经验。有资深老师的指导,也有同年龄段的学长现身说法,即使稿件没有被录取,学生们依然愿意参加这样的活动,以便进一步提升 NLP 领域研究技能
2.企业研讨会
另一方面,国内很多有实力的公司在做 NLP 研究,并且研究投入比较大。作为会议的赞助商,公司愿意举办这样的研讨会(Workshop),例如今年的 Alibaba Workshop。企业的研究人员介绍自身需求和当前面临的问题,学术专家介绍相关研究的最新方法,双方共同研讨企业技术创新的解决之道。
这两个研讨会都取得了意想不到的结果,吸引了很多人。这是 NLPCC 会议提供的第三个平台,它能够有效地沟通学生与老师、企业与专家之间的联系。
工业论坛
NLPCC 还尝试组织了工业论坛,参与单位分别在论坛上就企业研发的 NLP 技术及应用创新实践做报告。例如,今年 NLPCC 2017 有五家主赞助商,分别为中译语通、微信、阿里、思必驰和中国移动,通过工业论坛、大会报告和研讨会等形式做了技术交流和分享,增进了工业界与学术界的互动、为产学研合作与创新增添了一份动力。
四、NLPCC 发展
NLPCC 至今已经举办了六届,发展情况怎样?
赵东岩:主要有这么几个方面:
1.从数量上来看,论文投稿数量在稳步提升,会议质量把关也在变严;参会人数也在稳步增长;赞助商越来越多;
2.第三届 NLPCC 会议转为国际会议;
3.由于论文集的下载量较高,在第四届 会议时 Springer 主动提出将 NLPCC 论文集由 CCIS 系列提升到 LNAI 系列出版;
4.AFNLP(亚洲自然语言处理联合会)和 Springer(斯普林格出版社)分别提供了赞助,设立最佳学生论文奖和高引用论文奖(五年历史最佳论文);Springer 是基于 NLPCC 论文集的质量评估而主动提供赞助的,开创了 CCF 的先例。
论文投稿逐年上升(受2016年18.2%低录取率的影响,2017年投稿数有所下降)
NLPCC会议对录取论文的质量有较高的把关,录取率相较国内其他会议偏低
NLPCC主会注册人数逐年增加,今年已增加到 400 多人
五、为什么投稿 NLPCC?
现在已有 ACL 之类的顶会,国内学生为什么要投稿 NLPCC 呢?
赵东岩:第一,NLPCC 会议跟国际顶会接轨,目前为止主要在国内办会。因此,学生可以花较少的费用,获得世界一流的信息。这是吸引学生来开会的目的之一。例如,特邀报告、展示、论文、交流,还有各种求职的机会,都以很低的代价就获得了。
第二,这个会议由 CCF 中文信息技术专委会组织的,专委会的老师们代表着我国 NLP 领域的研究水平,大家会鼓励自己的学生投稿。
第三,NLPCC 会议建立了公正严格的审稿体系和独立的奖励委员会,录用率与自然语言处理领域国际三大会议相当,录用难度较高,参加这个会议的作者都具有很好的研究能力。参会者除了学习分享、开拓眼界,还能够结交水平相当的朋友,一举多得。
第四,NLPCC 会议得到了许多从事自然语言处理的优秀企业的大力支持。参会企业都会精心准备技术展览、展示,分享技术创新需求和成果,组织学生们参与线上线下活动,并提供实习和工作机会。
所以对学生来讲,参加 NLPCC 既有展示的机会、锻炼的机会、交流的机会和提升的机会,也有找工作的机会。这就是我们这个会议能够吸引他们的地方。
目前有没有国外学生投稿?
赵东岩:有,不算特别多。但是我们高兴地看到几年来每年都稳定增长。我们相信未来随着会议在中文计算的影响力不断扩大,国外投稿数目和参会人数都会成倍增长。
大概占到什么比例?
赵东岩:通常都在 5% 左右。所以说在国际化方面我们还需要加强一些。
怎么看这么低的国外投稿?
赵东岩:因为我们现在还是中国的会,再一个有中文计算的内容,所以从国际化的角度讲,他们觉得可能还稍微远了一点。但是我们在走向国际这条路上做了很好的尝试,吸引了国外的学者或学生来参加我们的会。
第二,国际的学者和学生投稿虽然数量不多,但是确实每年都在增加,所以国际化程度也在提高。将来的话,我们希望能够进入到 CCF 推荐列表。进入到列表后,我相信无论是中国的投稿量还是国外的投稿量都会大幅度增加。
六、NLPCC 2017
今年 NLPCC 有哪些亮点?
赵东岩:首先是特邀报告,今年我们邀请的两位特邀讲者后来也被 ACL 2017 请去做特邀报告。这也说明了 NLPCC 请人的眼光和专家对 NLPCC 会议的认可。这是一个标志。
爱丁堡大学信息学院教授Mirella Lapata,也是今年ACL的特邀讲者(http://tcci.ccf.org.cn/conference/2017/keynotes.php)
第二,企业参与学术会议的互动质量有了明显的提升。无论在大会还是宴会上做报告,企业专注于介绍 NLP 需求和技术,而不是广告,并全部用英语报告,语言流畅。因此,我觉得中国的企业在研究创新能力上明显增长,也更加重视与学术界的交流。
第三,参会者的积极性稳步提高。今年参加主会和研讨班(ADL/Tutorials)的总人数超过了 500 人。
第四,NLPCC 在学术质量评价方面持续提升,英文稿件的投稿比例也越来越高(今年 NLPCC 2017 超过 了 5/6)。
第五,就是刚刚介绍的 Student Workshop 和企业 Workshop。
第六,我们特别重视少数民族语言处理,鼓励相关研究者多投稿,甚至由专委会拿钱资助从新疆、西藏、甘肃等西部地区的老师和学生来参会,来了解目前国际国内自然语言处理的进展情况,建立他们自己的朋友圈,帮助他们进一步发展。这方面我们做了很多。
第七,也是非常重要的,今年我们首次颁发了杰出贡献奖(清华大学黄昌宁)、青年新锐奖(北京大学万小军,苏州大学李寿山)和 高引用论文奖。NLPCC 杰出贡献奖每年 0 – 1 名,宁缺毋滥;青年新锐奖,每年两名,目的是鼓励年轻人多做努力,取得世界领先水平。高引用论文奖是颁发给过去五年内 NLPCC 会议出版论文中引用和质量综合评价最高的论文。
黄昌宁教授(中)获杰出贡献奖
七、NLPCC 未来
下次会议将在哪里举办?
赵东岩:在选择承办单位方面,由专委会全体会议提前两年投票决定。因此,承办单位有两年时间筹备会议。明年 NLPCC 在呼和浩特举办(内蒙古大学,预期 8 月 26 日-30 日),后年在兰州(西北民族大学)。
从这届 NLPCC 会议考虑,下届办会有哪些新的特色?
赵东岩:首先,我们要继续保持和提升会议的学术水平,为所有投稿作者和参会者提供高质量的学术内容和会议服务,为与会者提供超值回报;同时,需要在此基础上继续扩大国际化参与。这些肯定是我们需要坚持的。
第二,我们希望能给参会的工业界(包括赞助商),提供更好的服务,让他们能以更多的形式参与进来。让他们觉得参加这个会议物有所值,或者物超所值,能够达到和超过他们的期望。
第三,我们希望进一步提升 Student Workshop 的质量,让大家能够更有兴趣。
第四,因为首次在少数民族地区开会,为进一步推广少数民族语言处理工作些,专委会正在考虑设立一个少数民族语言处理奖。
以后 NLPCC 会怎么发展?
赵东岩:我们想将 NLPCC 办成一个有特色的会。世界上自然语言会议其实也有很多了,像 ACL、EMNLP、COLING。那么中国土生土长的自然语言国际会议应该是什么样的呢?是另外一个 ACL 吗?不应该是这样,应该有自己的特色。自己的特色其实就是要体现中文和中国。
人家说到中文的自然语言处理,首选就应当是中国自己办的会,这个是理所应当。因为中国人就是搞中文的,你的会议就应该是这个领域世界上最顶级的。这就是我们的目标,现在随着中国国力增加,中文的世界化,越来越多人研究中文,学习中文,我相信中国自然语言的会,会越来越成为世界关注的焦点。
总结:随着近几年中国在人工智能(特别是 NLP 领域)研究上的崛起,在各种国际会议中出现越来越多中国人的面孔。但无论如何这样的会议不是由中国发起,尽管在会议中会考虑到中国因素(例如 ACL 曾专门设立一个「中文计算语言学」的环节),但并不能很好地体现中国的发展。现在随着中国综合国力的提升,以及研究人员数量和水平的提升,中国已经逐渐有能力办起一个能够展示自己水平的国际会议。伴随着 NLPCC 这样的会议的出现,在未来不久想必会有更多由中国自己发起的国际性会议,并以此来引领学术的发展方向。