统计学与数据分析过程可大致分为两个组成部分:定量分析方法(Quantitative techniques)和图解分析方法(graphical techniques)。定量分析方法是指那套产生数值型或表格型输出的统计学操作程序;比如,包括假设检验、方差分析、点估计、可信区间以及最小二乘法回归分析。这些手段以及与此类似的其他技术方法全都颇具价值,属于是经典分析方面的主流。
另一方面,还有一大套我们一般称之为图解分析方法的统计学工具。这些工具包括散点图、直方图、概率图、残差图(residual plot)、箱形图、块图以及双标图。探索性数据分析(Exploratory data analysis,EDA)就密切地依赖于这些手段以及与此类似的其他技术方法。图解分析操作程序不仅仅是在EDA背景下才使用的工具;在检验假设、模型选择、统计模型验证、估计量(estimator)选择、关系确定、因素效应判定以及离群值检出方面,此类图解分析工具还可以作为最佳捷径,用来深入认识数据集。此外,优质的统计图形还可以作为一种令人信服的沟通手段,用来向他人传达存在于数据之中的基本讯息。
图解式统计学方法具有四个方面的目标:⑴ 探究数据集的内容;⑵ 用于发现数据之中的结构;⑶ 检查统计学模型之中的假设;⑷ 沟通传达分析结果。[1]
如果不采用统计图形,也就会丧失深入认识数据基础结构之一个或多个方面的机会。
统计图形的起源可以追溯到人们最早试图分析数据的活动,而如今这种技术方法已经成为科学发展的关键手段之一。早在十八世纪,人们就采用了许多为我们当前所熟悉的统计制图手段和形式,如二维地图、示意地图、条图以及坐标纸。人们对于下列四个问题的关注推动了统计图形技术方法的发展:[2]
十七世纪和十八世纪期间的空间组织问题
十八世纪期间和十九世纪早期的离散比较问题
十九世纪期间的连续分布问题
十九世纪和二十世纪期间的多变量分布与相关问题
自1970年代以来,随着计算机图形学及其相关技术方法的复兴,统计图形目前已经东山再起,再度成为一种重要的分析工具。
统计图是利用点、线、面、体等绘制成几何图形,以表示各种数量间的关系及其变动情况的工具。表现统计数字大小和变动的各种图形总称。其中有条形统计图、扇形统计图、折线统计图、象形图等。在统计学中把利用统计图形表现统计资料的方法叫做统计图示法。其特点是:形象具体、简明生动、通俗易懂、一目了然。其主要用途有:表示现象间的对比关系;揭露总体结构;检查计划的执行情况;揭示现象间的依存关系,反映总体单位的分配情况;说明现象在空间上的分布情况。一般采用直角坐标系.横坐标用来表示事物的组别或自变量x,纵坐标常用来表示事物出现的次数或因变量y;或采用角度坐标(如圆形图)、地理坐标(如地形图)等。按图尺的数字性质分类,有实数图、累积数图、百分数图、对数图、指数图等;其结构包括图名、图目(图1中的标题)、图尺(坐标单位)、各种图线(基线、轮廓线、指导线等)、图注(图例说明、资料来源等)等。 图1 统计图