8月4日,中国科学技术馆里小朋友在“旅行者号”AI科普大巴上与机器人互动。 新华社记者 王化娟摄 |
近日,由斯坦福大学发起的SQuAD(Stanford Question Answering Dataset)挑战赛榜单更新成绩。在这一机器阅读理解领域的国际顶级赛事中,科大讯飞与哈工大联合实验室(HFL)提交的系统模型在来自全球学术界和产业界的研究团队中夺得第一名,这是中国本土研究机构首次摘得该领域的顶级赛事桂冠。
本报记者 吴长锋 李丽云
在人工智能领域,Google DeepMind、Facebook、SQuAD三大阅读理解公开测试集为全球最权威的测试。该团队先后在Google DeepMind、Facebook阅读理解公开数据测试集取得世界最好成绩。也就是说,他们包揽了机器阅读理解权威测试集的“大满贯”。那么,机器阅读理解挑战赛是怎么进行的?背后是什么样的技术焦点?
人工智能的热点此起彼伏,但自然语言处理始终是实现智能、自然人机交互愿景里一块重要的技术基石。而机器阅读理解则被视为是自然语言处理领域皇冠上的“明珠”,也是目前该领域的研究焦点之一。
SQuAD机器阅读理解挑战赛的具体运行过程是这样的。该比赛通过众包的方式构建了一个大规模的机器阅读理解数据集(包含10万个问题),可将一篇几百词左右的短文给人工标注者阅读,让标注人员提出最多5个基于文章内容的问题并提供正确答案;短文原文则来源于500多篇维基百科文章。参赛者提交的系统模型在阅读完数据集中的一篇短文之后,再来回答若干个基于文章内容的问题,然后与人工标注的答案进行比对,得出精确匹配(Exact Match)和模糊匹配(F1-score)的结果。
比赛是一个持续性的挑战赛,参赛者可以进行调优提交,然后主办方再定期更新成绩。在该轮测试中,科大讯飞与哈工大联合实验室提交的系统模型——Interactive AoA Reader(基于交互式层叠注意力模型),精确匹配达77.845%,模糊匹配达85.297%,两项成绩均排名首位。
据了解,一般来说机器阅读理解在研究领域经常遇到以下两方面的难题:
首先是数据问题,目前基于深度学习模型等统计方法的机器阅读理解,在研究上离不开大量的被人工标注的数据,但是固有的数据集则往往存在规模较小、质量不佳等问题。这种情况下,很难基于这些数据量做出优秀、有效的模型。
二是算法问题,传统的NLP在做阅读理解或自动问答时,会采用分拆任务的方式将其分成问题分析、篇章分析、关键句抽取等一些步骤,但这种方法容易造成级联误差的积累,很难得到很好的效果。如,分目标的结果整合最后和终极目标不能完全吻合;局部优化不当可能造成研究进展缓慢等。
“传统自然语言是采用分拆任务的方法将其分成问题分析、篇章分析、关键句抽取等一些步骤,但这种方法容易造成级联误差的积累,很难得到很好的效果。”科大讯飞AI研究院院长胡国平博士告诉科技日报记者,目前在机器阅读理解领域中,多采用完全端到端的神经网络建模,消除了分步骤产生的级联误差。通过大量的训练数据学习到泛化的知识表示,对篇章和问题从语义层面上高度抽象化。
“科大讯飞采用的端到端的神经网络模型,把精力更多放在如何能够模拟人类在做阅读理解问题时的一些方法。”胡国平博士告诉科技日报记者,科大讯飞提出的基于交互式层叠注意力模型,主要思想是根据给定的问题对篇章进行多次地过滤,同时根据已经被过滤的文章进一步筛选出问题中的关键提问点。这样“交互式”地逐步精确答案的范围,最终收获了令人瞩目的成绩。