【编者按】近日,《自动化天地》编委胡蓉、鞠召艳、王坛走访了模式识别国家重点实验室机器翻译与自然语言处理团队。团队当家人宗成庆研究员分享了最新研究成果和团队建设心得。现将采访整理如下,以飨读者。
天地小编:宗老师,请先介绍一下团队的基本情况吧。
宗成庆:现在我们课题组有四位年长一点的科研人员,赵军和我两位研究员,周玉和陈钰枫两位副研究员,还有张家俊、汪昆、刘康和周光有4位助研,此外还包括20多位研究生。我和赵军老师负责的方向各有侧重。我和周玉、陈钰枫、张家俊、汪昆几位老师以及我所带的研究生主要从事多语言机器翻译、情感文本自动分类等相关的研究和开发工作。赵军、刘康和周光有几位老师以及赵老师所带的研究生主要从事信息抽取和问答系统等相关的研究和开发工作。
天地小编:咱们这个团队还算是挺年轻的一个团队。
宗成庆:是的,比较年轻。我本人是1998年来到实验室的,那时候极悦注册做自然语言处理的人还不多,黄泰翼老师和徐波老师主要做语音识别和口语信息处理。我加盟实验室后,开始时主要从事口语理解和翻译研究,后来扩展到文本翻译和文本分类以及自然语言处理基础问题的研究,赵军老师是2002年加入到我们研究组的。这样算来,我们的研究团队已经经历了十几年的发展,说年轻也年轻,说不年轻也不年轻了。
天地小编:可以再详细介绍一下咱们团队的主要科研方向和内容吗?
宗成庆:我和赵军老师所带领的这个团队主要有以下几个方向:一是多语言机器翻译,主要面向网络多语言信息处理和情报获取。所谓的机器翻译就是让计算机自动实现从一种语言到另外一种语言的翻译。对大多数人来讲,一般都能够讲英语或日语这些常见的语言,而实际上德语、法语、阿拉伯语和土耳其语等很多语言也在网上普遍存在着。如何实现多语言信息的自由交流是一项重要而艰巨的任务。这就需要一种技术把这些以各种语言文字表达的文本内容准确、高效地破解,挖掘和抽取其中的有用信息。这些年来我们的许多研究内容都是围绕着国家需求在开展的,能为国家解决一些实际问题,这是我们追求的目标。
前面我曾经提到,除了机器翻译以外,我们还在研究信息抽取、问答系统、情感分类等方面的技术,其目标主要是提高个性化信息服务的质量。几乎对于所有的用户来说,都希望自己的问题能够随时得到解答,希望有一个系统能够自动把他(她)需要的知识或问题答案自动抽取出来,如大百科知识自动问答系统。作为一个普通用户,我希望任意给出一个问题,即可得到准确的解答,可是目前的系统很难做到这一点,“百度知道”都是人给出的答案,利用的是群体智慧,但很多问题没有答案或者不知道哪个答案是准确的。当然,这些技术也可用于信息安全,因为信息抽取本身就是情报分析的一项任务。从科学意义来讲,作为图灵测试的表现形式,问答系统一直是人工智能和自然语言处理领域研究人员所追求的目标。
另外,信息推荐系统也是我们关注的一个方向。现在网上许多信息不管你想要还是不想要,都会发给你。从广告商的角度来讲,他们更希望他们的广告发出去之后,那些对他们广告感兴趣的人群和他们推销的产品潜在的买主能够看到,比如妇女关注哪些商品?中学生喜欢听什么类型的歌曲?赵军老师所带领的几位青年骨干在这方面做出非常优秀的成果,他们研发的音乐推荐系统获得知识发现和数据挖掘领域国际顶级赛事ACM KDD-CUP 2011的亚军(共有1297个系统参赛),产生了重要的国际影响。
天地小编:机器翻译评测的指标就是看谁翻译的准确度高吗?
宗成庆:机器翻译评测指标有许多,主要分两类,一类是人工评测,也就是说由人工对系统翻译的结果进行打分,判断其内容翻译的正确性和表达的流畅性等,一般是5个人左右,同时对300或500个句子的译文进行评价,最后取平均值。由于人工评测代价较高,费时、费力,因此一般不用人工评价指标。另一类评价方式是自动评测,自动评测指标大约有10来种,其中一种常用的方法叫BLEU评价指标,主要思路是这样的:对于评测集中的几百个句子(一般为300到500句),每个句子都由人给出4个正确的译文,也就是标准答案,因为通常情况下每个句子都可以有多种不同的翻译,评测时将每个系统的输出译文与人工给出的标准答案进行对照,看有多少个“短语”(我们称之为n元语法)出现在答案中,然后统计这些短语的个数占译文所有“短语”个数的比例,比例越大译文质量越好。有时候为了防止作弊,评测时可能提供几万个句子,但真正的考题就几百个句子,打分时把那些句子抽出来,在很短的时间内就可以给出打分结果。自动评测省时又省力。
天地小编:现在一些购物网站就有商品推荐功能吧。
宗成庆:是的。在开发用户商品推荐系统时有很多具体问题,如怎么来记录或者推断用户的个性。如果一个用户买了什么东西,他可能只是偶尔买一次。系统需要分析和预测这个人对什么感兴趣?
刚才谈到的机器翻译和信息抽取两个方向看起来都是比较大的应用。这两个方向实际上都包含了太多复杂的自然语言处理问题。人类语言中有很多东西是不可计算的。比如“打”字,在新华词典上有二十多种意思:打电话、打球、打水、打酱油等意思都不一样,它还可以作为量词、介词等等,意思和用法都很复杂。语义怎么计算?可计算吗?不管是翻译也好,信息抽取也好,都蕴含着大量基础性的工作,包括词法分析、句法分析、语义分析等,要解决的问题很多。
天地小编:从2003年开始到现在,您已经培养20多名毕业生了。想问一下,在选择学生的时候,您最看重哪些方面?
宗成庆:我们组20多位研究生,包括赵军老师所带的学生,大多数是博士生。能到我们所里来的都是很优秀的学生。从我个人来说,选择学生最看重的是学生个人的兴趣,看他是不是真正喜欢做这件事情?不管学什么专业——我们组的学生有学机械的,有学自动化的,也有少部分学计算机的,来自很多专业。我个人认为,只要他有兴趣从事这个方向,做他自己从内心喜欢的事情,很快就可以上手,即使不是学计算机专业的,不会编程,也能很快学会,因为他们都很聪明,而且年轻。当然,要有比较好的数学基础和外语能力,因为需要阅读的论文大多数都是英文的。
天地小编:对于学生和青年人的未来发展,您有哪些建议?
宗成庆:简单一点说,我就是希望尽快把年轻人推出去。我常常在想:自己的学生毕业后留在组里工作,对他们来说究竟是好还是坏呢?一方面,他们对这里的工作和环境都很熟悉,也有感情,无论对工作的安排还是相互之间的沟通,都很顺畅,这是好事。但另一方面,也可能是坏事,就是难以打开眼界:学生所了解的看到的大都是自己的老师告诉他的。不管是做事情的方式,还是研究思路,都是按照老师的模子做出来的。所以我很希望他们有机会走出去开开眼界。我经常和我们的学生讲,研究生毕业后一般有三条路可选:一条路是做学术。做学术一定要出去看看,最好到欧美的名校去经历一段时间,不要老在这个地方,出去学习人家的教育理念和思维方式,包括做科研、做事情的方式,当然也要深入地了解西方人的文化。第二条道路就是自己创业,先到大公司去跟人家学学,学几年后自己干。第三条路是从政。选择哪条道路没有对错之分,只要自己喜欢,但自己一定要想清楚了,因为往往没有回头路。做学术最好出去开开眼界,锻炼一下。当然,有好多学生因为各种各样的原因,包括家庭情况、机会原因等,不能够出去,也没有办法,但留下来工作之后最好有机会出去见识一下,尤其年轻的时候。这是我的个人观点。
天地小编:在课题组走访时,经常听组内学生说到您对他们特别关心。您有哪些和学生的相处之道?
宗成庆:和学生交流是让我感到很开心的一件事情。研究生都是成年人,他们有自己的世界观,对很多事情都有自己的看法,不那么容易被影响了,尤其有时候他们又坚持自己的观点。从另一个角度看,这也是好事。如果所有的事情学生都和老师想的完全一样,这个研究组恐怕离完蛋不远了。在和学生交流的过程中,我也从他们那里学到了很多。平日我只要不出差,大部分时间都在实验室里,包括晚上和周末,这也是我和学生接触多的一个原因吧。我写的这本书(《统计自然语言处理》(第2版),清华大学出版社,2013年8月)基本上都是靠周末和晚上时间完成的。周末的时候,有些学生过来加班,有时候我会请他们到食堂一起吃饭,这样可以轻松一点,和他们聊很多。学生有什么事情也会告诉我,如果需要我帮忙,我也会尽力去帮助。当然,多数情况下是了解他们的想法和工作进展。现在好多学生的做法和想法跟我们那时候都不太一样,其实并不存在谁对谁错的问题,一代人有一代人的做法,未必我们自己做的都是对的。我的很多已经毕业的学生,到现在一直都有联系。总起来说,没有什么特别的相处之道,就是大家平等对待,作为朋友或者把他们看作弟弟、妹妹,相互尊重吧。我们所的很多老师和学生关系都挺好的,赵军老师也很关心学生。
天地小编:听说您还在为研究生上课?
宗成庆:是的。给研究生上课在我们所既不算工作量,也不算什么成果。我之所以愿意上课,一方面因为我原来当过老师,在内心里有一种教师情结。另一方面,我觉得我有一种责任推广自然语言处理这门学科,让更多的学生了解我们在做什么。2004年我第一次在研究生院讲授“自然语言理解”这门课的时候,只有20多人选修,后来人数每年都在增加。今年6月9号参加这门课考试的学生有197人,成为一门大课了。根据超星学术网站的统计,我讲课的视频自2011年年底开放以来,已经被点击播放了十一万多次。