大数据时代统计学面临的机遇与挑战
大数据给统计学带来了机遇、挑战和紧迫感。描述大数据的环境,利用大数据的目的和大数据带来的变革;介绍国内外有关大数据的研究动向;探讨大数据包含的信息,大数据的预处理、抽样和分析方法。
大数据抽样数据分析
一、大数据及其目的
狭义地讲,大数据是一个大样本和高维变量的数据集合。针对样本大的问题,统计学可以采用抽样减少样本量,达到需要的精度。关于维数高的问题,需要变量选择、降维、压缩、分解。但认知高维小样本存在本质的困难。广义地讲,大数据涵盖多学科领域、多源、混合的数据,自然科学、人文社会、经济学、通讯、网络、商业和娱乐等各领域的数据集相互重叠连成了一片数据的海洋。各学科之间数据融合和贯通,学科的边界己重叠和模糊。大数据涉及各种数据类型,包括文本与语言、录像与图像、时空、网络与图形。
二、大数据的信息和问题
大数据是多源异质的、覆盖不同范围的数据。为了融合各种数据,需要对数据来源、数据的获取方式和数据描述进行形式化,以支撑数据分析。大数据来自多种渠道,存在抽样偏倚、随机的和非随机的误差、无意的和有意的错误。数据收集的准则与数据分析和决策的准则不相符合,有些数据不是原始数据,而是推断的结果,数据的循环使用导致偏差和噪音被放大。数据量大不一定有用的信息多,大量的含偏差数据甚至会破坏信息。应意识到分析大数据也许会得到虚假知识,而自己却不知情。在大数据环境下,收集数据的人
也许不清楚未来使用数据的人要做什么;使用数据建模的人也许不清楚数据是如何得到的;使用模型的人也许不知道模型是从什么数据得出来的。因此,难免人们会根据自己的意图过分地解释模型,超出了原始数据所包含的信息范围。
获取的数据也可能存在选择偏倚,如医院就诊的病人和使用互联网的人不能代表研究总体。大数据难免存在不响应和缺失数据,有些数据是随机缺失的、非随机缺失的,因为敏感问题或隐私问题而缺失的。不同研究收集不同的、有重叠变量的数据集。数据本身含有的信息是有边界的,决定了数据分析解释的范围。模型只是数据信息的精练,不能向外延展数据的信息。
三、大数据的处理、抽样与分析
(一)数据的预处理
大数据的预处理包括数据清洗、不完全数据填补、数据纠偏与矫正。利用随机抽样数据矫正杂乱的、非标准的数据源。统计机构的数据是经过严格抽样设计获取的,具有总体的代表性和系统误差小的优势,但是数据获取和更新的周期长,尽管调查项目有代表性,但难以无所不包。而互联网数据的获取速度快、量大、项目繁细,但是难以避免数据获取的偏倚性。将统计机构的数据作为金标准和框架对互联网数据进行矫正,将互联网数据作为补充资源对统计机构的数据进行实时更新,也许是解决问题的一个思路。研究利用多源数据的重叠关系整合多数据库资源的方法,多种专题(panels)的数据可以相互联合,实现单一专题数据不能完成的目标。
(二)大数据环境的抽样
大数据的抽样方法有待研究,“样本”不必使用所有“数据”,不管锅有多大,只要充分搅匀,品尝一小勺就知道其滋味。针对大数据流环境,需要探索从源源不断的数据流中抽取足以满足统计目的和精度的样本。需要研究新的适应性、序贯性和动态的抽样方法。根据己获得的样本逐步调整感兴趣的调查项目和抽样对象,使得最近频繁出现的“热门”数据,也是感兴趣的数据进入样本。建立数据流的缓冲区,记录新发生数据的频数,动态调整不在样本中的数据进入样本的概率。
(三)大数据的分析与整合
针对大数据的高维问题,需要研究降维和分解的方法。探讨压缩大数据的方法,直接对压缩的数据核进行传输、运算和操作。除了常规的统计分析方法,包括高维矩阵、降维方法、变量选择之外,需要研究大数据的实时分析、数据流算法(data stream computing)。不用保存数据,仅扫描一遍数据的数据流算法,考虑计算机内存和外存的数据传送问题、分布数据和并行计算的方法。如何无信息损失或无统计信息损失地分解大数据集,独立并行地在分布计算机环境进行推断,各个计算机的中间计算结果能相互联系沟通,构造全局统计结果。
(四)网络图模型
网络图模型用图的结构描述高维变量之间的相互关系,包括无向图概率模型、贝叶斯网络、因果网络等。网络图模型是处理和分析高维大数据和多源数据库的有效工具,目前己经有丰富的图模型的软件系统,无向图模型利用有或无一条无方向边来描述变量之间的关联关系和条件独立性,可以将高维变量的统计推断问题分解为低维变量的统计推断问题。在一个由众多变量作为结点的大网络中,当收集到一部分变量的信息后,不用计算高维联合概率,而是采用网络传播信息流的方法有效地计算目标变量的后验概率。变量间的因果
关系,利用数据学习网络结构,发现产生数据的机制和因果关系网络。
四、机遇与挑战并存
一个新生事物的出现将必定导致传统观念和技术的革命。数码照相机的出现导致传统相片胶卷和影像业的己近消亡。如果大数据包含了所有父亲和儿子的身高数据,只要计算给定的父亲身高下所有儿子的平均身高就可以预测其儿子身高了。模型不再重要,当年统计学最得意的回归预测方法将被淘汰。大数据的到来将对传统的统计方法进行考验。统计学会不会象科学哲学那样,只佩戴着历史的光环,而不再主导和引领人们分析和利用大数据资源。现在其他学科和行业涌入大数据的热潮,如果统计学不抓紧参与的话,将面临着被边缘化的危险。按照波普的科学划界准则,只要我们能从大数据中提炼出具有可证伪的结论,那么这个结论还是科学的,可以用于知识积累。这些可证伪的大数据结论可作为进一步科学研究的假说,以数据驱动研究。我们在看到大数据给统计学带来了机遇的同时,也应该看到现在的统计方法普遍只适用于全部数据放在单个计算机内存的环境,分布式大数据和数据流的环境给统计学带来了挑战。统计学家不应该固守传统数据的环境,必须积极学习新生事物,适应新的大数据环境,扩展统计学的应用领域,创造出迎合大数据的新统计方法‘机遇”与“挑战”并存。
参考文献:
[1]林字.数据仓库原理与实践.北京:人民邮电出版社,2013.
[2]纳特?西尔弗著.胡晓蛟,张新,朱辰辰译.信号与噪声[M].北京:中信出版社.
因篇幅问题不能全部显示,请点此查看更多更全内容