2014年06月19日 星期四
当英语作文遇见大数据

■教育改革

文·本报记者 唐 婷

    如果你是一名在校大学生,或者你是一位大学英语教师,你或许想知道:一篇优秀的英语作文平均句长多少最合适,哪些不地道的“中国式”英语搭配出镜率最高,如何让多少有些让人望而生畏的英语写作变得“喜闻乐见”?新近出炉的《中国学生英语写作能力调查蓝皮书》会告诉你答案。

    为调研中国学生英语写作能力,中国高校英语写作教学协同创新联盟(以下简称“联盟”)今年4月以命题作文的形式,征集10万篇学生作品。截止到5月10日,共有近30万名学生在线提交了自己的英语作文。联盟对收集到的英语作文进行初步分析,形成《中国学生英语写作能力调查蓝皮书》的数据报告部分,对相关数据进行深度分析和挖掘的工作正在进行中。

    首都师范大学副校长周建设在接受科技日报记者采访时指出,中国目前有超过1亿在校学生学习英语,通过对海量教学数据的收集和分析更能客观真实地反映学生英语能力和教学效果。“大数据时代,如何将大数据技术应用到英语写作教学中,向学生和老师们提供更多数据支持是我们一直在探索的课题”。

    大数据分析为英语作文提供“诊断”标准

    “语言是人类思维的载体,研究语言,研究怎么应用语言,这是非常值得做的事情,尤其是在大数据时代”,中国工程院院士李德毅表示。他是在近日召开的语言智能与外语能力提升学术研讨会上做上述表述的。

    为了帮助大家更好地理解大数据技术在英语写作中的应用,北京语言智能协同研究院副院长张跃举了个形象的例子。人们去医院体检会测量血压,医生会根据测到的数值高低给予相应的治疗。这里涉及到两个问题,首先需要一个测量血压的工具来获取数据,同时对获取到的数据进行评判还要有一个诊断标准。而诊断标准缘何而来呢,势必要通过对海量数据的长期跟踪研究。对英文作文的“诊断”,自然也不例外。

    周建设表示,联盟通过在线平台批改网在一个月的时间里搜集到近30万篇英语作文,在较短的时间里获得体量如此庞大的英语作文电子数据,这在过去没有相应技术支持的情况下是难以想象的。“接下来,更重要的是对海量数据进行分析挖掘,获取有助于英语作文评判的数据标准,同时对提高学生英语作文能力提供有针对性的建议”。

    事实上,评判一篇英语作文的优劣有很多客观的维度,比如词汇丰富度、从句密度、搭配错误率等等。通过对数据的初步分析,张跃和同事们有了一些发现。他告诉科技日报记者,本次搜集到的作文中,平均句长是20.29个单词,系统共标记2348695处错误,其中出现频率最高的错误是主谓不一致,占比为16.83%,紧随其后的是疑似误用名词词组,占比8.83%。

    据介绍,此次英语作文在线征集活动共吸引了来自全国30个省份463所学校的300814名学生和3876位教师的参与。根据学校类别的不同,报告中对985院校、211院校、普通本科、独立学院、高职高专的学生作文进行了比较分析。“对于参加人数超过3000的学校,我们会单独为其出具一份报告,便于其更好地了解学生英语写作的水平”,张跃表示。

    在线互动模式让英语写作化身“升级”游戏

    在英语作文调研活动筹备会议上,张跃和同事们最初预想的目标是能征集5到10万篇作文。活动开始后,学生和老师们的参与热情着实出乎张跃的预料。5月10日本是作文征集活动的截止日期,但仍有不少此前没赶上参加的学校要求加入。

    对学生写作行为数据的分析是此次调研分析的重点之一。报告显示,参与本次活动的学生平均修改3.88次,即学生在老师看到其最终版本之前,已经自行修改了3.88次。在收到的265684篇有效学生作文中,修改2次及以上的篇数为167234篇,占比62.94%。

    令张跃感到吃惊的是,来自北京工商大学的一位王同学将作文修改了225次,其修改次数位列榜首。

    是什么吸引着学生投入如此大的热情来参与此次活动?张跃分析道,一个很重要的原因在于,学生在线提交作文后只需等待几秒钟,就能得到机器给出的分数和修改建议,根据反馈修改后再次提交,会得到比先前更高的分数。“及时的互动性和分数不断攀升带来的成就感,是学生如此投入的原动力,就像打赢了一场场升级游戏一样。”

    和批改网的及时反馈相比,现实中,高校学生从老师那得到的对英语作文的反馈相对滞后。清华大学外语学院教授张文霞介绍,由于高校英语老师教学任务繁重,学生交上来的英文作文往往在半个月之后才能批改完,收到反馈时学生甚至可能都忘记了当时的写作内容。

    对此,周建设有着相同的看法。他多次参与教育部组织的教学评估,一次抽查英语作业本时发现一整个班的英文作文没有被批改完。“这不是说老师懒,而是老师的工作量确实太大了,批改作文是一项耗时费力的细活,如果有好的技术来替代这部分工作又何乐而不为呢?”

    机器能欣赏到英语作文的美感吗?

    人工智能之父、英国科学家阿兰·麦席森·图灵,早在1950年,就发表了一篇题为《机器能思考吗?》的论文,成为划时代之作。

    机器能否像人一样欣赏英文作文的美感,从立意的角度对作文进行评判?采访中,科技日报记者一再向专家们求证这一问题。毕竟一篇作文是有一定思想内涵的,不只是一串串没有温度的字符。

    对此,周建设坦言,目前人工智能技术没有发展到能让机器从立意的角度去考量一篇英语作文。但是,目前英语考试中的作文部分更多的是考察作者的

    表达是否规范,遣词造句是否符合语法要求,从这个角度而言,机器批改作文是可行的。“事实上,托福和GRE等大型考试的作文部分都是机器来阅卷的”。

    批改网在得到许多学生和老师支持的同时,也面临着“更看重语言的形式,而不是看语言的内容”的批评。南京大学外语学院教授王海啸则认为,批改网的不足给后来者留下了改进的空间。“大数据时代的数据是没有止尽的,关键在于我们怎么挖!”

    清华大学张文霞教授补充道,批改网提供的数据可用于英语写作课堂教学、评测等多个方面,下一步,应将批改网和老师的反馈相结合,按照各自的需求建立所在学校的数据库,同时,对动态的数据要且建且用且增加。

京ICP备06005116