三组由UIC理工科技学部计算机科学与技术专业(以下简称 CST)大二、大三学生组成的人工智能自然语言处理研究小组在2019年1月参加了第十三届国际语义评测比赛(International Workshop on Semantic Evaluation; SemEval 2019),完成了多个任务,并在这些任务的评测中取得了名次。
任务名称 | 参赛学生 | 排名 |
识别和分类社交媒体中的冒犯言论 | 王建明,伍正豪,郑昊 | 任务 A(冒犯言论识别)在 103 个队伍中位列第 6 名。 |
任务 B (冒犯言论类型自动分类)在 75 个队伍中位列第 61 名。 | ||
任务 C (冒犯言论目标识别)在 65 个队伍中位列第 39 名。 | ||
文本中的语境情感检测 | 黄子豪,龙跃鹏,徐子木 | 165 个队伍中位列第 27 名 |
极端党派偏向性新闻检测 | 林元祯,宁致远,钟锐超 | - |
国际语义评测比赛由国际计算语言学会(ACL)下属的专门兴趣小组 SIGLEX 主办。ACL 作为目前世界上计算语言学和自然语言处理领域影响力最大的组织,其每年举办的国际语义评测比赛都吸引着世界各大顶尖高校的实验室和科技企业的研究人员,比赛中的每个任务都有数百个队伍报名参与。
在这一次比赛中,CST 学生选择的三个任务关注的是检测文本中的情感、意见或冒犯语言。以“识别和分类社交媒体中的冒犯言论”任务为例,给出一条用户在社交媒体推特上发布的文本,参赛队伍需要利用官方提供的训练数据集,训练出一个能鉴别用户发布的文本是否是“冒犯性言论”的人工智能模型。由于人类语言的多样性,机器想要正确的鉴别文本并不简单。再加上用户在社交网络上发布信息会更加随意,也为机器理解文本增添了难度。
参赛学生起初都对这类复杂的自然语言处理任务非常的陌生,无从下手。指导老师 CST 专业课程主任苏伟峰教授和专业助理教授方子风博士每周举行讨论会,帮助学生快速的学习了解人工智能、机器学习、深度学习和自然语言处理的相关概念。熟悉研究时使用的方法和工具。学生在遇到问题时,指导老师也会耐心的与学生讨论,并给出可行的方案。
三个任务的参赛学生最后都选用了谷歌研究院在 2018 年 10 月发布的 Bidirectional Encoder Representations from Transformers(BERT)模型。因为 BERT 模型的训练需要大量的算力,在参加比赛的过程中,数据科学与大数据技术专业向研究小组提供了用于训练的计算资源,保证了模型训练的正常进行。参赛同学在预训练模型的基础上使用自己的数据进行训练和微调。并利用所学知识对预测结果进行分析,反复尝试以寻找最好的数据预处理方式和提高模型效果的方法。
参赛的学生表示,经过这次比赛,学习到了许多最前沿的人工智能、自然语言处理的知识。锻炼了代码能力和团队协作能力,对自然语言处理问题有了更多的经验。
(来源:计算机科学与技术专业)