2020年05月24日 星期日
数据利用大师南丁格尔
武夷山

科学史话

    “提灯天使”、英国人南丁格尔是世界上第一位真正的女护士。护士节定在5月12日这一天,就是因为这一天是南丁格尔的生日。但很多人不知道的是,她还是善用统计数据的大师。

    说起南丁格尔,人们脑海里立刻浮现的是在克里米亚战争中为伤病员竭诚服务的白衣天使的形象。2008年面世的英国故事片《弗洛伦斯·南丁格尔》更是使这位伟大护士的美好形象深入人心。其实,她一生的大部分时间都在分析数据,为英国军队和政府提供决策支撑。她所做的工作与现代数据科学家所做的事差不多,只不过她拥有的数据样本量较小,而且只能依赖手工计算。

    南丁格尔生于意大利佛罗伦萨,在英国长大。她父亲非常在意她和姐姐的教育,她俩不仅学习希腊文、拉丁文、法文、德文、意大利文等多种语言文字,学习绘画、钢琴和女红等传统的女性必学科目,也学习当时供男生学习的科目,如数学。

    没想到,南丁格尔喜欢数学,对统计学发生了兴趣。9岁的时候,她就将园里的各种水果和蔬菜的相关数据组织在一些表格里。在收集贝壳时,她会使用表格和清单将贝壳记录得清清楚楚。她还阅读过比利时统计学家凯特勒的著作并加以评论。日后管理医院时,她经常收集病例和数据,这都与她早年对统计学的兴趣有关。

    她曾与家人和朋友多次去欧洲大陆长期旅行。她在德国杜塞尔多夫郊外的凯瑟斯沃斯女执事学院接受过几个月的护理培训,这是当时为数不多的提供全面护理培训的地方之一。

    在她执意坚持下,父母终于同意十几岁的南丁格尔去伦敦的一家淑女疗养院做了护士。那时,医院护士一般是未受过正规培训的老年妇女。1853年,克里米亚战争爆发,南丁格尔去伦敦的一家小型慈善医院担任护士长,该医院接收了一些伤病员。从此,她逐渐在护理和医学数据统计分析上大显身手。

    1854年,南丁格尔来到克里米亚野战医院工作,担任护士长。从前线返回后,她开展了较多的数据分析工作。她注意到,驻扎在英国本土的士兵的死亡率比英国男性的总体死亡率要高,而这些年轻人当年因为身体健康才有资格入伍,这是甚为奇怪的事。她利用数据找原因,发现一是军营的居住状况比较拥挤,卫生状况不好;二是住进医院的患者士兵更易被交叉感染。她用很多张形象的图来说明自己的意思,有很强的说服力。有人认为,在统计数据的图形显示方法上,她是一个真正的先驱。她开发了极座标图饼图的形式,或称为“南丁格尔玫瑰图”,相当于现代的圆形直方图。

    此后,她预测了一下假定英国士兵的健康状况达到英国男性的平均水平,部队的效能会是如何。同样,她也是用图形说话。当时,英国的统计学家几乎完全不习惯使用图形,而欧洲大陆的统计学家采用图形较多,尤其是极区图。南丁格尔也是善用极区图的好手。

    与此同时,南丁格尔对统计数据的误用有不少批评。她对数据集的不一致非常有意见,她曾说:“我仔细比较了来自6个不同官方数据源的统计数字,结果没有一组数据能同其余数据对得上。”

    数据相互对不上的原因之一,可能是记录数据的方式不一致。她曾经在1856年6月给英国皇家学会会员、军事改革的倡导者、地磁研究专家约翰·亨利·勒弗罗伊写信说:来自英国陆路运输军团的数据“极度混乱”,因为他们采用了“一种非同寻常的方法(或者说是根本没有方法)来记录统计数据”,一会儿把本地人统计进来,一会儿将其排除出去。

    南丁格尔对统计的细节非常在意。她说,如果医院只在每周的固定某一天进行统计,那么在两次统计日期之间入院并在入院后死亡的人数就丢失了。因此她估计,克里米亚战争期间,医院统计的死亡人数只是真实死亡人数的七分之一左右。

    她对当时官方统计数据的质量问题十分恼怒,以致于她对某些官员的诚信度表示怀疑,她说,这些官员要么无能,该懂的都不懂,要么有罪,有意识地掩盖真相。

    南丁格尔对英国部队医学数据和数据收集过程的批评,以及采用更严格的数据搜集方法的建议,对于军方改进数据统计工作起了很重要的作用。由于她在这方面的业绩,她当选为英国皇家统计学会的会员,是该学会有史以来第一位女会员。后来,她也成为美国统计学会的名誉会员。

京ICP备06005116