阿根廷研究人员8月13日宣布,其开发出一种基于西班牙语的人工智能程序,可通过分析被测试者的微博、论坛帖子、社交网站的评论或者公开演讲,然后与心理学模型所提供的100个参数进行相关度比对,从而描绘被测试者的人格特征。
这套名为“人格洞察力”的评估系统在其网站上分析了美国前总统肯尼迪的一篇演讲稿,得出结论是:“多数时候您非常自信,很少自责,很严肃,善于控制欲望,另外您的欲望并不是很强烈,您有哲学思维,接受新思想,喜欢探索,抉择时名誉是考虑的决定因素……”
与阿根廷语言智能技术有异曲同工之处的是,在我国一款名叫批改网的智能批改英语作文在线服务系统已经广泛在大中小学使用。这套批改作文的语言智能系统,截至到今年5月21日已经批改作文超过1亿篇,批改网不仅是学习英语写作的网站,也成为全球最大英语写作的语料库。
语言智能中的一个小尝试:智能批改作文
事实上,与“人格洞察力”评估类似,批改网的工作人员告诉科技日报记者,评判一篇英语作文的优劣有很多客观的维度,比如词汇丰富度、从句密度、搭配错误率等等。它不仅仅可以指出作者的语法错误,同时还可以提出写作意见,帮助作者提升英语写作能力。
随着人工智能技术的丰富,语言智能也逐渐走入大众视野。首都师范大学副校长周建设在第二届中国语言智能大会上介绍,“语言智能”作为一个语言学科领域的专门术语,在我国使用时间并不长。他在2010年研究国家社科重大课题“面向自然语言处理的逻辑语义学研究”时提出,2013年成立北京语言智能协同研究院之后正式在媒体使用。
周建设介绍,语言智能内涵很丰富,简单理解就是智能语言。智能语言是计算机具备的类似人类语言能力的语言系统。智能语言的基本目标就是通过开发理想的机器语言系统,让计算机代替人说话聊天、写文章和批改文章。批改网就是语言智能研发的一次成功尝试。
中国人工智能学会理事长李德毅院士对于语言智能也提出了自己的观点。他认为,语言大数据来源于人类编码、记录和分析语音语料的渴望和无尽的追求。随着信息技术,尤其是通信、计算机、人工智能技术的迅猛发展和互联网社交的广泛应用,人类获取语言数据的手段越来越多、速度大大加快、成本急剧降低,层次和尺度更为精细,语言大数据成为网络时代人类社会的重要资产。
李德毅院士以谷歌翻译为例,解释其各种语言之间的转换服务每天超过10亿次,使用人数每月超过5亿人。谷歌翻译还可用7种语言对图标或菜单进行即刻的准确翻译,对话模式由32种语言的翻译机器人来回沟通。而这些技术的实现,是谷歌利用大数据完成高度准确的自动实时翻译。
“当前人工智能不是要人工造出一个生物意义上的人脑,而是要用机器实现在某一方面、某一领域、或者某一情境下的人的智能。基于语言大数据,可望造出理解人类自然语言的聊天机器人、翻译机器人,也可望造出机器代驾的轮式机器人。”李毅德说,语言大数据是人类在不同语境、语用情况下表达思想的各种语言的原生态的碎片化,一切靠数据说话的大数据时代,丰富的语言数据是实现语言智能的基础。
构建全球最大的英语写作资料库
依托互联网技术的优势,批改网今年自4月16日至5月31日联合清华大学、北京大学、南京大学、复旦大学、中山大学五所高校发起“百万同题英文写作”活动。本次活动由清华大学负责命题,题目为:“We Are What We Read(阅读造就你我)”。
多所知名高校共同发起的在线写作活动和普通教学不同,更强化了“以赛代练”,在全国范围内掀起对英文写作标准的高要求。大赛不仅对国内各个学段的学生英语作文应用水平做一次全面调研,更能在丰富的数据支撑下构建起新的语料认知样本。批改网利用数据与技术的结合优势,打造出人工智能级别技术产品。学生的英文写作特点和现状也可用于地方上教研使用,“同题”的核心就是同化起点,而不同学生的不同水平则由技术去针对性进行批改。
首届同题写作活动收集到来自全国515所高校超过32万篇学生作品。库容量达到的54396867字词,刷新了之前任何国家语料库的储备。该数据库成为中国乃至全球首份客观、自发和全面的学习者同题语料库。基于此,中国高校英语写作教学联盟和北京语言智能协同研究院联合发布了《中国学生英语写作能力调研数据报告·2014高校篇》,从报告中全国大学生的英语写作能力现状第一次以数据的形式得到直观的展现。
对于多数学生而言写作是件孤独而痛苦的事,写出地道的英语则更加困难。在《中国学生英语写作能力调研数据报告·2014高校篇》中,记者发现,大学生写作的事件多集中在下午和晚上两个时段,其中22:00是峰值。学生在提交作文后,根据批改网给出的意见修改,平均每篇作文修改次数为7.1次,超过1%的学生修改次数超过50次,这些数据对高校的教学安排具有一定的参考价值。
来自北京外国语学院的一位老师告诉记者,学生在活动中并不是一个人在孤军奋战,而是有了一个智能虚拟老师(批改网)与其实时互动。学生写好作文后只要几秒钟就可以得到分数、评语和按句点评,需要巩固的知识点也会被一一指出。同时这还是一个允许学生“试错”的活动,学生经过自主思考后可对文章进行反复修改并及时得到虚拟老师的指导。
在互动中学生分数会越改越高、文章也越来越流畅,完成写作任务就像游戏攻关有挑战性。在学生提交作业后,老师们也可以可视化的了解学生成长过程,经过智能分析后,教师可以根据个人和班级的诊断报告为学生进行针对性的备课和答疑服务。
在线教育让一篇作文实现了1122次的修改
在另一场英语作文大赛中,批改网首次尝试面对中学生人群。今年春节期间,批改网、北京语言智能协同研究院与北京市教委共同举办2015年名师在线“丘瑞斯洋话连篇”北京市初中生英语写作争霸赛,比赛中收到来自北京16个区县及燕山地区457所学校30087篇。其中一位来自北外附中张泽龙同学以1篇作文修改1122次而引起了关注。由于高频率的修改数据,批改网专门为他做出个人作文诊断报告。
张泽龙的英语老师介绍,张泽龙并非是英语学习成绩突出的学生,他对英语作文写作的热情与批改网批改作文的方式有着密不可分的关系。批改网的批改流程是对学生的每次写作进行打分和点评,而且针对具体的句子及单词用语料库的数据进行比对,让学生不仅知道错在哪里,还能看到更好的单词语句结合应用案例。最吸引学生的是在批改网上按照意见修改作文,分数会提高。因此,更多的学生享受这种攻略式的引导学习,不仅激发了积极性,更在与机器交互的过程中掌握了扎实的基础。
“我们班有自己的微信群,今年寒假期间,大家都在批改网上写作文,还会在群里交流谁的成绩在修改后会变得更高。”张泽龙说,正是同学之间的聊天和可以直观的看到作文成绩的提高,激励他不断的尝试作文修改,张泽龙戏言写英语作文有了“打游戏”的感觉。最终经过1122次的修改,他的作文被评定为97分。
90后和00后是数字时代的原住民,天然适应新的技术和在线学习的方式,而利用新技术激发了他们的学习兴趣。学生对于智能化批改带着份好奇,同时由于智能化批改的客观性、公正性,获得了学生的积极参与。
北京市教委李奕委员在写作争霸赛颁奖会上表示,活动在初赛阶段就吸引了北京市近500多所学校的师生参加,参赛人数是过去的英语教学活动和寒暑假活动当中还从来没有过的。427447次英语作文批改,也是从未有过的庞大数据。这些数据的积累是500多所学校的同学们通过自己的行为和写作堆积出来的。大数据对于英语教研人员,其成果性不仅仅是数量之大,更在于它是一个可挖掘、可分析、有价值的大数据。接下来的工作就是要从数据分析中找到学生英语学习中遇到的问题,比如对于单词、句型、文章驾驭能力等,而这都是教育研究的宝贵财富。
李奕还表示,希望类似的活动可以成为品牌持续推广下去,作为北京市教育资源可持续积累的数据。“我们也希望未来学科的改进可以促成网页的教育资源的共享,为学生提供线上和线下、自主的、定向的多种形式教育资源供给和教育活动的设置。”李奕说。