史宁中:统计学与数学的区别
2020-10-19
网站类目:文章推荐
推荐理由:史宁中校长作为新课程标准修订的引领者,史校长关于《统计学与数学的区别》的论述有一定的前瞻性,起到了理论引领的作用。
数学历来被认为是确定性的科学,这就意味着,从同样的条件出发就应当得到同样的结论。如果得到的结论不一样,就会认为其中至少有一个结论是错误的。但在日常生活中,人们却会遇到大量的不确定性事件。比如,明天下雨的事件,彩票中奖的事件,等等,人们称这样的事件为随机事件。
在几乎所有的教科书中,概率的定义都采用了1814年拉普拉斯在《概率的哲学导论》中给出的一句话:概率是个分数,分子是有利情况的数目,分母是所有可能情况的数目。
人们称这样定义出的概率为古典概型。其实,拉普拉斯的定义是有条件的:一个条件是所有可能发生事件的数据是有限的,另一个条件就是随机事件发生可能性的大小是相等的。
考虑摸球问题。依据上述两个条件的要求:袋中球的个数必须有限,所有球(材质相同)的大小必须保持一致。如果袋子里有5个球,其中4个白球,1个红球,根据拉普拉斯的定义,摸一次球摸到白球的概率就是4/5,摸到红球的概率就是1/5。
在现实生活中,对于大多数的随机事件,人们不可能掌握很多信息,甚至不知道所有可能发生事件的数目是不是有限的,也不知道随机事件发生可能性的大小是否是相等的,因此,无法用拉普拉斯的方法定义随机事件的概率。比如,仍然考虑摸球的问题,如果事先不知道袋子里有多少个球,都有什么颜色的球,这样就无法定义摸出什么颜色球的概率。这样,对于绝大多数的随机事件,我们需要建立这样一个信念:
概率是随机事件的一个固有属性,但这个属性是未知的,只能对这个属性进行估计。
那么,我们应当如何估计未知的概率呢?只有一个方法:调查研究,通过数据进行估计。
仍然考虑摸球的问题,调查的方法就是有放回地摸球,记录摸到各种颜色球的次数,称这样的记录为数据。其中,“有放回”的操作是为了保证每次调查的条件都是一样的,称这样取得数据的操作过程为随机抽样。凭借直观,可以想象随机抽样之后,通过数据分析至少可以进行下面的估计:
1. 估计出袋子中白球比红球多;
2. 估计白球与红球的比例;
3. 如果知道球的总数,还可以分别估计白球和红球的数量。
一般而言,估计是一种推断的方法。通过数据对随机事件进行推断被称为“统计推断”或者“推断数据分析”。估计概率与定义概率是完全不一样的:定义概率需要对背景了如指掌,而且要给出相应的假设;估计概率只依靠数据,参照数据产生的背景抽象建立随机模型,给出估计方法。
尽管摸到红球的真实概率 p 未知,但是通过重复试验,可以得到实际摸到红球的次数 k,这就是数据。我们可以做这样的假设:如果真实概率为 p,那么这个概率应该使真实数据 k 出现的可能性最大。换言之,当 k 给定时,在某种假定的随机模型中,把使得出现 k 次的可能性最大的 p 值视为概率的估计。这就是统计中经常提到的最大似然估计。
对于统计学,对结果的判断更关注好与坏,而不是对与错。对于某些实际问题,不能说使用最大似然估计就是对的,不使用最大似然估计就是错的。只是说,在大多数情况下,使用最大似然估计是好的。事实上,针对一些特殊情况,最大似然估计不一定就是最好的方法。
于是,虽然统计学要用数学语言进行表达,但与传统的确定性数学是合而不同,分析这个区别,不仅有利于了解统计学,也有利于深刻地理解数学。大概有以下三个不同。
1
立论基础不同
数学是建立在概念和符号的基础上的,一个好的概念的形成,一个好的符号的表达,对数学的发展至关重要。而统计学是建立在数据的基础上的,是通过数据进行推断的。
2
推理方法不同
数学的证明是基于公理和假设的,证明的过程依赖的是演绎推理,得到的结论是必然成立的。统计学强调的是数据产生的背景,根据背景寻找合适的抽象方法和推断方法,推理的过程依赖的是归纳推理,得到的结论是或然成立的。
3
判断原则不同
因为传统数学研究的是确定性问题,因此,对结果的判断原则只能是“对”或“错”。而统计学是通过数据推断数据产生的背景,允许人们根据自己的理解提出不同的推断方法,因此,统计学对结果的判断原则只能是“好”或“坏”。在这个意义上,统计学不仅是一门科学,也是一门艺术,因为艺术作品允许“仁者见仁,智者见智”。正如《大美百科全书》对统计学的定义:
作为一个研究领域,统计学是关于收集和分析数据的科学和艺术,其目的是为了对一些不确定的事物进行较准确的推断。
史宁中
作者简介
东北师范大学资深教授,博士研究生导师,国内著名数理统计学家和教育家,义务教育数学课程标准修订组组长,普通高中数学课程标准修订组组长,教育部中小学教材审查委员,曾任国务院学位委员会学科评议组成员、教育部科学技术委员会数理学部委员、中国概率统计学会副理事长、东北师范大学校长。
原文引自史宁中著《数学基本思想18讲》,北京师范大学出版社2016年出版,有删节。