数理统计学

来自中文百科专业版
跳转至: 导航搜索

  数理统计学汉语拼音:Shuli Tongjixue;英语:Mathematical Statistics),研究关于有效地收集、整理和分析带随机性(偶然性)误差的数据的方法理论数学的分支学科。凡用实证方法研究问题,都得收集有关的数据,以其分析结果作为下结论的依据。结论可以是纯推断性的。如依对某一新的物理常数多次测定的结果,对其值作一估计;根据观察数据对某一假说的可信程度作出判断等。数据分析的结果也常作为决定采取何种行动的重要依据。如通过对特定试验所收集的数据的分析,显示在工艺上作某种改变,可能有助于提高产品质量。但是否采取行动,还必须结合可行性、经济效益和环保等方面的考虑。

  随着科技的进步,人类收集和分析数据的能力与日俱增。由于对精确性要求的提高(由定性深入到定量),数理统计方法的应用领域日见拓广。但它仍只是实体科学的一个辅助工具,并不能取代这些学科。它关心的只是在人类一切活动中所碰到的、在或大或小范围内有共同性的数据收集分析中的数学问题,而并不介入各种专业问题的专门研究。这一点把数理统计与种种实体科学分别开,且构成它作为一个数学分支的理由。这个特点也决定了它在意识形态上的中立性:它只是一种数学方法,本身不主张什么,也不构成统计学(包括社会经济统计学)中的一个学派。

简史

  数理统计学的发展大致可分为三个时期。

  19世纪末以前 在这个时期,数理统计方法主要应用于人口统计、天文测地、社会统计与生物统计几个方面,且有了不少发展。但数理统计学尚未成长为一个公认的数学分支,其主要标志是它缺乏一个统一的理论框架,且不存在专职的数理统计学家。当时,对发展数理统计方法有贡献的人,其主业是其他领域(如天文学、遗传学等),因工作需要而涉及数据处理的统计方法。

  20世纪上半叶 由于前期发展的积累及在英国出现了一批大师级的学者,这一时期数理统计学有了快速的发展,其结果不仅建立了统一的数学框架,使数理统计学成为一门严整的数学学科,而且发明了一系列有广泛用途的数理统计方法,大大开拓了数理统计方法的应用领域。许多现今常用的统计方法都是这个时期的产物。

  20世纪下半叶至今 在前期奠定的基础上,数理统计学进入一个大发展的时期。概率论和数学的进步为数理统计学的深入发展提供了工具。现实的需要提供了数理统计方法创新的动力。计算机的广泛应用,不但使不少以往因计算手段的局限而无法实施的统计方法有了实现的可能,而且本身已成为理论和方法研究的有力工具。

  这个时期的数理统计研究工作中,纯数学的、与实用无关的成分有比较显著的增加。这与本学科发展早期的实用取向有些背离。这引起一些学者的关注,并引发了关于数理统计学未来发展道路的讨论。与此相对的是数理统计学方法更深入地介入一些学科中,形成一些交叉学科,如生物统计、金融统计等。这些都是数理统计方法研究的热点。

主要内容

  有如下几个主要部分:

总体、样本和抽样

  总体指与所研究问题有关的个体的全部,又称母体。如要调查全国在读大学生的健康状况,则国内全部在读大学生是总体,其中的每一员是个体。如调查范围限于某地区,则总体相应缩小。个体的含义也与研究目的有关。如研究目的是弄清某地区农户的收入构成,则该地区的每一农户为个体,而不是指每个农民。在作社会经济方面的调查研究时,总体多是由有限数目的有形个体构成。在科学实验中,总体的形态与此有异。如研究在一定原材料和工艺条件下的产品质量,则总体是“在该原材料和工艺条件下已产出或未来可能产出的全部产品”。在这一例子中,理论上讲总体数目无限,其中有的个体只是想象中存在,而非“看得见、摸得着”的实体。

  样本是按一定的方式从总体中抽出的一些个体。“样本”一词既指所抽出的个体的全部,也可指其中的一部分。样本中所含个体的总数称为样本量。通常,研究者关注的是个体的一个或多个指标,如人的身高、体重、视力等。这样针对一个特定问题,数理统计学就用一些特定指标值取代个体,而总体也就由这些指标值(数值)构成。这使总体和样本脱去其生物或物理属性,而纯粹表现为一种数量形态。这是数理统计方法成为一种数学方法的根本原因。

  抽样是从总体中抽取个体(以形成样本)的行动。它有3种主要类型。

  ①有限总体抽样。指从数目有限的总体(如某地区的全部中、小型企业)中抽取一部分。抽取的原则主要在于保证总体中每一个体有同等机会被抽出(某些情况下,可赋予某些个体以更大或更小的被抽取机会),同时要兼顾到操作上的方便。如何实现这些目标的研究,构成数理统计学中的一个分支——抽样调查。

  ②通过试验获取数据。农业上通过种试验田以选择优良的种子品种,为确定一组最好的工艺参数而试制一些产品是属这种类型的抽样的例子。数理统计学关注试验中涉及的一般性的安排问题,目的是节省试验次数,并使所得数据有一个适合于统计分析的结构,从而达到高效并体现试验的目的。如何实现这些目标的研究,构成数理统计学的另一个分支——试验的设计与分析(见试验设计)。

  ③(被动式的)观察。“被动”的含义是观察者不干扰被观察对象。例如为研究吸烟与健康的关系,要观察一些吸烟者的吸烟状况及其健康状况,以与不吸烟者作对比。在这里一般只能进行被动的观察,而不能要求某人因为这项研究而吸烟。

  这种数据由于不是在控制条件下的试验所获得的,其随机性误差一般较大,而这必然会影响结论的可靠性和精确度。例如媒体中常报道的关于人的某种生活习惯与健康的关系的统计分析结果,往往有不一致以至矛盾之处。这种不一致或矛盾的产生就与统计结论是基于这类随机误差较大的数据有关。要想得到较可靠精确的结论,对数据的代表性、数据的量及所用统计方法的适当性应给予高度的注意。

数据的整理、简约和描述统计

  原始数据往往是一大堆杂乱无章的数字,从中难于直接解读出有用的信息。数据整理的目的,是通过适当形式(如图、表)表达数据中包含的有用信息,使之凸显出来。这一点也可通过计算某些特征数字实现。如为调查某行业工人的收入,抽样调查了1万人。这1万个人的数据可记成一厚本,不易看出有用的信息。经过数据整理,列成一个表,指明月收入500元以下的占多大比率,月收入500~1,000元、1,000~2,000元、2,000~3,000元和3,000元以上的各占多大比率,则可对这1万人的收入分布情况有清楚的印象。这种分布情况也可用图醒目地表示。如作一个圆,分成不同颜色、不同大小的扇形,以标示各部分所占比率。

  由样本计算出的特征数字,在数理统计学中叫统计量。依所关心的问题方面的不同,去构造各种不同的统计量,是数理统计学的一项重要研究内容。常用的统计量有:①算术平均值。又称样本均值。它是把样本中的一切数值相加再除以样本量所得(见算术平均数)。如上述例子中1万工人的平均收入,它反映一个总的水平。②样本中位数。指样本中的数值按大小顺序排列位居正中的那一个数(见中位数)。如样本量为偶数,则指正中那两个数的平均值。这两种统计量都是反映样本中数值的平均水平的数字特征。另一类重要的数字特征是刻画样本中数值的分散程度的,即大部分数值是集结在其平均值不远处,还是分散在较大的范围内的问题。这类统计量中最重要的是样本方差和样本标准差。

  描述统计之得名,在于其任务只是对样本进行“描述”。它的深一层的含义是:它只涉及手头已有的样本(如抽样调查了1万名工人的工资,则描述统计只涉及这1万个数据),而不试图把结论引出数据之外。

统计推断

  依据样本,对样本所来自的总体某方面(研究者感兴趣的方面)的性状,作出一定的推断。如在上述工人收入的例子中,研究者主要关心的是通过所抽出的1万人的调查资料,去推断该行业全部工人(可能数以百万计)的收入情况。这是它与描述统计的区别所在。在很大的程度上可以说,所谓数理统计方法,就是指统计推断方法。

  依推断形式和所讨论问题的不同,统计推断形成很多学科分支,如参数估计、假设检验、非参数统计、回归分析、多元统计分析和时间序列分析等。

统计决策

  基于统计分析和其他考虑而采取一种决策或行动。它与统计推断相比,有两大特点:一是重在落实到决策或行动,而统计推断可以只反映一种认识,不一定有后续行动。二是引入“损失”的概念反映行动的后果,这后果(损失)必须数量化即落实为经济上的损失。如考虑环境的代价,须将这种代价量化为经济损失。决策的准则是“损失在某种意义下最小化”。它之所以与数理统计学有关(因而称为统计决策),是因为决策的依据是对样本所作的统计分析,而样本有随机性,适用数理统计学方法(见统计决策理论)。

应用

  数理统计方法在工农业生产、自然科学和技术科学以及社会经济领域中都有广泛的应用。

  在农业中应用的一个主要方面,是对田间试验进行适当的设计和统计分析。另一方面是数量遗传学的方法。如培育高产品种的研究中的数据分析使用了多种统计方法。

  数理统计方法在工业中的应用,有两个主要方面:一是在工业生产中,常有试制新产品和改进老产品、改革工艺流程、使用代用原材料和寻求适当的配方等问题。正交设计、回归设计与回归分析、方差分析、多元分析等统计方法,是处理这类问题的有用工具。二是现代工业生产多有大批量和要求高可靠的特点,为保证产品质量,需要在连续的生产过程中进行工序控制,制定成批产品的抽样验收方案,对大批生产的元件进行寿命试验,以估计元件的可靠性及包含大量各种元件的系统的可靠性。为解决这些问题发展了一些统计方法,如种种形式的质量控制图、抽样检验、可靠性统计分析等,它们构成统计质量管理的内容。

  医学是较早使用数理统计方法的领域之一。在防治一种疾病时,需要找出导致这种疾病的种种因素。统计方法在发现和验收这种因素上,是一个重要工具。另一方面的应用是,通过临床试验,用统计分析确定一种药物对治疗某种疾病是否有用,用处多大,以及比较几种药物或治疗方法的效力;对比试验、列联表、回归分析等是这方面的常用工具。

  数理统计方法在自然科学和技术科学中的应用,有以下几个方面:在基础理论研究中,常常从一种观点出发,根据初步观察结果而提出一种学说或假说。它们是否正确,或在多大程度上正确,要诉诸大规模的实验验证,这里面就有实验的设计和数据的统计分析问题。有时,是通过统计分析发现某种规律性,然后在理论上去寻求解释。在应用性的研究中,常常因为对所研究的现象的规律性认识不充分,而不能不主要依靠对实验和观察数据的分析,去提出解决问题的办法。如统计方法用于地震、气象和水文方面的预报,都有一定的效果。数理统计方法在上述各领域中的作用很大。一般地说,无论是自然科学和技术科学,都离不开实验观察,都有处理数据的问题,因此也就有统计方法用武之地。

  统计方法在社会领域中应用的一个重要方面是抽样调查,在人力、物力、时间不允许进行全面调查时,使用抽样调查可以做到节省、快速,并获得满意的结果。另一方面,对社会现象的研究有向定量化发展的趋势。在经济科学中,定量化的趋势比其他社会科学部门更早且程度更深,如早在20世纪二三十年代,时间序列分析方法就曾用于市场预测。现在已建立一门边缘性质的学科——数量经济学,从简单的回归分析方法到艰深的随机过程统计方法,都在其中找到了应用。