老外汉语好不好，AI能说了算？ --科技日报数字报

新年结束后第一个工作周，第五届中文句法错误自动检测技术评测（Chinese Grammartical Error Diagnosis, CGED）悄悄拉开了战幕，人工智能学术界和工业界的不少单位即将在“帮老外批汉语作文”这一任务上一较高下。据介绍今年评测活动的竞争将十分激烈。这多少也和去年年底的AI批改留学生作文的热点事件有关。

2017年12月央视新闻一则《浙外引进阿里AI批改作文，不到200字作文看出8处错误》的新闻，引发各媒体关注和网友热议。据报道，一些较为隐蔽的错误点，甚至有经验的教师也无法立刻发现。

就像所有其他人工智能应用一样，一经众多媒体的宣传，自动作文批改就已经开始有点儿“威胁”汉语教师了。但查阅CGED技术评测的综述论文可知，经过超过五千个错误点测试后，即使是2016年和2017年技术评测第一名（哈工大与阿里巴巴）识别错误类型和错误位置的综合精度也都在40%以下。再加上留学生手写作文扫描识别为数字化文本环节的差错，错误识别的综合精度只会更低。另一方面，为了降低运算难度，评测还将真实语言教学中的几十种错误标记，归并为了冗余、缺失、错用、乱序四种大错误类型。由于评测中错误划分很粗，教师无法只通过错误统计就准确把握学生语言能力。总之，自动批改距离投入教学前线还有很大的差距。

人工智能领域有句很有道理的笑话：人工智能，没有人工就没有智能。相比高考作文，汉语作为第二语言的写作数据还较为稀缺。受教学模式、学习阶段和母语的影响，留学生容易出现的语法错误类型极富多样性。今天在大多数人工智能应用中取得辉煌战绩的深度神经网络模型对数据规模和质量的要求则更加苛刻。

目前市场上较为成功的人工智能应用大多都因为构建了“服务—用户—数据”的正反馈闭环，即通过智能服务扩大用户群体，大量用户产生数据，数据驱动模型进一步改进服务效果。这就要求人工智能服务在先期必须达到用户基本可以忍受的效果。而对于汉语作为第二语言的句法错误检测任务，虽然已经取得了不小的进步，但还无法开启如导航、广告推荐这样的正反馈闭环。正如黎明之前的黑暗最难熬，推动智能起飞之前的这段人工之路也最艰苦。但好在，语言处理被视作人工智能皇冠上的明珠，越来越多的资本和人力都在不断涌入。相信句法错误检测这样的细分领域在可预见的未来也能进入飞速发展期。届时教师省心、学生省力的批改机器人就不再只停留于展示中了。

另一方面，技术评测将助力技术发展。毕竟光说不练假把式，在同一数据平台上一较高下，方可刺激学界和业界苦练真功。期待今天还停留在展示和概念阶段的AI能高速成长，为汉语国际传播贡献力量。