2016年11月28日 星期一
22点网民最嗨,他们在聊什么
文·本报记者 许 茜

■行业观察

    每天,你会在手机或电脑上输入多少字?何时最爱打字?最高频的网络称谓是什么?近日出炉的《中国网民的信息生产及情感价值结构演变报告(2012—2016)》给出了答案。该报告由中国人民大学新闻与社会发展中心与搜狗输入法大数据团队联合发布,以输入数据为研究对象,从行为、内容及场景等层面分析网民的观念、情感及认知的变迁。

    报告中的统计数据显示,在行为层面,我国网民日均打字总数达350亿之多;每人日均打字量在50—55个字之间,约等于发两条朋友圈的字数。同时,报告还对输入法的活跃时间进行了统计,一天中晚间22点睡前阶段,是网民全天打字最活跃的时段。

    在内容层面,女性比较热衷于使用表情符号,关注八卦与感情;而男性更倾向于政治和色情。五年间网民提及度最高的三大网络行为依次是直播、发红包和刷屏,“亲爱的”是最常用的网络称谓。根据社交、工作、游戏以及购物等不同话语场景,网民的输入表现也各不相同,比如社交场景就体现为微信和QQ平台活跃度最高,微博平台则呈现围观的特质。

    报告中总结出的行为与内容层面的偏好,也反映出社会问题的热度和趋势。据统计,近五年中国网民提及度最高的三个“社会问题”依次是:教育问题(41.64%)、劳动就业问题(15.81%)、食品安全问题(12.28%),其次是人口、物价、诚信、房价、家庭暴力、生态环境以及青少年犯罪等问题,基本涵盖了社会问题具体表现形式的主要方面。而在“私人话题”方面,爱情仍是其中的核心话题,工作是其次,并且随着电子商务的普及,购物成为民众除了维持社会关系网以外的第一核心领域。

    记者了解到,该报告数据主要来自搜狗输入法,按照不同输入场景分为社交、购物、娱乐和工作等,其中以社交平台数据作为核心进行选取;选取时段为2012年6月到2016年6月。

    如何有效处理海量数据呢?主要分两步:第一步是对数据进行分类与编码。按照社会问题、私人问题等方面,对数据来源中的前5000个高频词进行人工分类,由三位编码员进行编码。第二步是机器学习阶段。根据聚类算法,对人工编码学习后,对高频词进行有效学习和分类。

京ICP备06005116