-
欢迎来到统计学课程
-
我早已盼望制作这套课程
-
好吧,我想要直捣黄龙地讨论核心课程
-
我将尽量运用案例教学
-
以使大家对统计学有一个总体的理解
-
这样是以防有人对统计学不熟悉
-
虽然,我想很多人直觉上了解统计学是什么
-
虽然,我想很多人直觉上了解统计学是什么
-
最核心的部分,好吧,概括而言,就是
-
一切围绕数据进行
-
我们可以大体上为统计学分类
-
基本可以分成三大类
-
第一种是描述性统计学
-
假设你有一大堆数据,你希望能在不把数据完全告诉别人
-
的情况下介绍这些数据的情况
-
你大概可以找到一些有标志性的数据
-
来代表所有的数据,而无需将所有的数据都说一次
-
来代表所有的数据,而无需将所有的数据都说一次
-
这就是描述性统计学
-
此外,还有一些统计学能对未来起预测作用
-
好吧,我大体把它们分成了一类
-
其中有推论统计学
-
推论统计学运用数据来对事物做结论
-
推论统计学运用数据来对事物做结论
-
假设你从总体中得到了一些样本
-
统计学中经常提到样本和总体
-
我想你应该对它们是什么有一些基础的认识,对么?
-
假设我调查三个即将为总统选举投票的选民
-
很显然我没有调查整个总体
-
我仅仅调查了一个样本
-
推论统计的妙处在于,我们只需对样本
-
进行一些数学计算,便有可能推断出
-
总体这个整体的情况
-
好吧,无论如何,我只是在对统计学是什么进行概括介绍
-
好吧,无论如何,我只是在对统计学是什么进行概括介绍
-
接下来,我们来学习统计学的核心内容,同时
-
我们将从描述统计开始学习
-
首先,如果别人给我们一组数据并且要求我们对其进行描述的话,我不知道我,或者大部分人会怎么做
-
首先,如果别人给我们一组数据并且要求我们对其进行描述的话,我不知道我,或者大部分人会怎么做
-
首先,如果别人给我们一组数据并且要求我们对其进行描述的话,我不知道我,或者大部分人会怎么做
-
嗯,或许我会找到其中最能代表这一组数据的个别数字
-
嗯,或许我会找到其中最能代表这一组数据的个别数字
-
或者,一些能体现集中趋势的数字
-
“集中趋势” 是统计学课本上常见的词
-
一组数字的集中趋势
-
这也叫做平均数
-
在这里,我使用“平均数”这个词的时候会比平时更加精确一些
-
当我在这里提到“平均数”时
-
它表示能描述一组数据的中心趋势,即集中位置或平均水平的一个值
-
它表示能描述一组数据的中心趋势,即集中位置或平均水平的一个值
-
或者说,最能代表一组数据的一个数值
-
我知道这听起来非常抽象,但让我们
-
先做几道题吧
-
有几种方法可以用来计算
-
一组数据的中心趋势,或平均数
-
你以前或许见过这些
-
它们是均值(即平均数)
-
事实上,均值有很多种,我们这里指的仅仅是
-
算数平均数
-
以后,当我们学习计算股票回报率时会学到几何平均数
-
或许某天还会学到调和平均数
-
包括均值、中位数和众数
-
用统计学的话说,这些都可用来表述一组数据
-
或是总体的集中趋势
-
又或是样本的集中趋势
-
同时它们都是集合性的——它们都可能是平均数的某种形态
-
同时它们都是集合性的——它们都可能是平均数的某种形态
-
我想,当我们看到例子时
-
可能会更加明白
-
在日常生活中,当人们谈论到平均数时
-
我想你在生活中已经计算过平均数了
-
人们通常指的是算数平均数
-
因此,通常情况下当人们说“让我们计算这些数字的平均数”
-
人们希望你计算的是算数平均数
-
人们希望你计算的是算数平均数
-
他们不想要中位数或众数
-
但在我们继续向下学习之前,让我们搞明白它们都是什么
-
但在我们继续向下学习之前,让我们搞明白它们都是什么
-
让我来编造一组数字
-
假设我有1
-
假设我还有一个1、一个2、一个3
-
以及一个4
-
我想这些足够了
-
我们只需要一个简单的例子
-
当谈到平均数时,算数平均数或许是大家最熟悉的
-
当谈到平均数时,算数平均数或许是大家最熟悉的
-
基本上你只需将所有数字相加,然后
-
除以数字的数目
-
在这个例子中,5个数的和就是1加1加2加3加4
-
然后除以5
-
然后除以5
-
结果是多少呢?
-
1加1等于2
-
2加2等于4
-
4加3等于7
-
7加4等于11
-
结果等于11除以5
-
就是?
-
二又五分之一
-
就等于2.2
-
所以,有人会说:“嘿,你知道
-
这个数字相当不错地代表了这组数据。”
-
这个数字相当不错地代表了这组数据。
-
这组数据中所有的数字和2.2都比较接近。”
-
你也可以认为,2.2代表了这组数据的集中趋势
-
你也可以认为,2.2代表了这组数据的集中趋势
-
通常说来,这将会是平均数。
-
更加精确地说,这是这组数据的算术平均数
-
更加精确地说,这是这组数据的算术平均数
-
你可以看到,它对这组数有一定的代表性
-
如果我不想告诉你这5个数字分别是什么
-
我可以说:“你知道,我有一组5个数据,而且
-
它们的均值是2.2。”这样至少告诉了你
-
这组数字大概会是怎样的
-
大概在下一个视频里,我们会谈到如何知道均值和
-
这组数据中每个数字的差是多少
-
所以,这就是其中一种衡量方法
-
除了这样计算平均数外,另一种衡量方法
-
就是把这组数按顺序排好
-
事实上我就是这么做的
-
让我们再次将这组数字从小到大排列
-
1,1,2,3,4
-
取中间的数字
-
我们看看,这里有1、2、3、4、5个数
-
所以中间的就是第三个数,对吗?
-
中间的数字是2
-
这组数据中,有两个比2大,还有
-
两个比2小
-
2就被称为中位数
-
所以,中位数涉及的计算非常少
-
事实上你只需将数字排序
-
然后你找到中间的数,比这个数大和比这个
-
数小的数字在这个组里一样多
-
所以这组数据的中位数就是2
-
你看,我指的是,这个中位数
-
和均值其实挺相近的
-
没有唯一正确的答案
-
均值和中位数都不是衡量平均数的唯一答案
-
它们只是衡量平均数的不同方法
-
这里就是中位数
-
我知道你大概在想:“好吧,当我们
-
有5个数的时候这些都很简单
-
但如果我们有6个数字呢?”那该怎么办呢?
-
如果这组数中有6个数怎么办?
-
1,1,2,3,4,让我们再加一个4
-
所以,我们现在没有中间的数字了,对么?
-
2不再是中位数,因为有2个数比它小
-
3个数比它大
-
3也不是中位数,因为组里有3个数比它大
-
不好意思,我说错了,有2个数比它大,3个数
-
比它小
-
所以没有数字在中间
-
当一组数据的个数是偶数,且要求你算出中位数
-
你所需要做的就是取中间的两个数字
-
然后计算这两个数字的算术平均数
-
然后计算这两个数字的算术平均数
-
因此,在这组数字中,中位数是2.5
-
好吧
-
但我们先不讨论这个,因为我想比较一下同组数据的
-
中位数、均值和众数之间的区别
-
中位数、均值和众数之间的区别
-
知道这个有助于学习,因为这三者容易让人混淆
-
知道这个有助于学习,因为这三者容易让人混淆
-
而且,这三个都是数学定义
-
是为了让我们更好的分析数字,可供运用的数学工具
-
是为了让我们更好的分析数字,可供运用的数学工具
-
这些计算公式并不会某天出现在天空,让人们
-
惊呼:“哦,如何计算平均数是宇宙的部分奥秘!”
-
惊呼:“哦,如何计算平均数是宇宙的部分奥秘!”
-
这些计算都是人类创造出来,以便使我们的大脑
-
能更好地处理数据
-
这组数据数目不多,但如果我们拥有的不是5个
-
数而是五百万个,你可以想象,你绝对不会愿意
-
一个一个地去分析这些数字
-
无论如何,在我进一步讨论前,我们先学习一下众数的概念
-
无论如何,在我进一步讨论前,我们先学习一下众数的概念
-
在一定程度上,我认为众数是最容易被人遗忘的
-
人们通常在考试时看到众数时总会惊讶万分
-
他们会觉得:“哦,这是一个很高深的概念!”
-
而事实上,众数在一定程度上是计算集中趋势或是平均数
-
最简单的方法
-
众数就是一组数据中最经常出现的数
-
在这个例子里,有两个1,其他的数字都各自只有一个,对吗?
-
在这个例子里,有两个1,其他的数字都各自只有一个,对吗?
-
所以,这里的众数就是1
-
因此,众数就是最多的数
-
现在,你可能会说:“哇,Sal,如果这个是我们的数组怎么办?
-
现在,你可能会说:“哇,Sal,如果这个是我们的数组怎么办?
-
1,1,2,3,4,4。” 这里,有两个1,还有两个4
-
在这种情况下,计算众数就更困难一点
-
因为1和4都可能成为众数
-
你可以说众数是1,或者众数是4
-
但是这样都不够精确
-
可能你会需要让那个问你问题的人澄清一下他的意图
-
可能你会需要让那个问你问题的人澄清一下他的意图
-
大部分时候,如果你在考试时遇到这个问题时
-
答案都不会这么模糊
-
通常一组数据中会有一个最经常出现的数字
-
现在,你可能会问,好吧,为什么一种计算方法还不够
-
现在,你可能会问,好吧,为什么一种计算方法还不够
-
你知道我们学习平均数的目的,为什么我们不干脆仅仅使用平均数呢?
-
你知道我们学习平均数的目的,为什么我们不干脆仅仅使用平均数呢?
-
又或者,为什么我们不一直用算术平均数进行计算呢?
-
中位数和众数有什么用呢?
-
好吧,我将试着举一个例子,看看你明不明白
-
好吧,我将试着举一个例子,看看你明不明白
-
然后你可以自己进一步思考一下
-
假设我有这样一组数
-
3,3,3,3,3,以及,100
-
那么,算术平均数是多少?
-
我有5个3以及1个100
-
所以答案是用115除以6,对吗
-
我有六个数
-
115只是这六个数的和
-
所以结果是:115是6的多少倍?
-
上一
-
一六得六
-
55除以6,上9
-
六九五十四
-
所以答案是19又1/6
-
好吧
-
我仅仅将所有数相加然后除以个数
-
我仅仅将所有数相加然后除以个数
-
但是我的问题是,这个答案真的能代表这组变量么
-
但是我的问题是,这个答案真的能代表这组变量么
-
我的意思是,我有很多的3,只有一个100
-
但是,我们得到的集中趋势却是19又1/6
-
我的意思是,19又1/6并不能很好地代表这组数据的情况
-
我的意思是,19又1/6并不能很好地代表这组数据的情况
-
或许在不同的问题下,这个答案是正确的
-
但是看起来还是有点怪,对不对?
-
我觉得,我的直觉告诉我,集中趋势应该是一个更靠近3的数字
-
因为组里有很多的3
-
在这里,众数会告诉我们什么呢?
-
这些数字已经是从小到大排列的,对吗?
-
如果它们是随机给出的,你首先需要将其从小到大排列
-
然后你看看,中间的那个数是什么?
-
我们看看,因为这组数的数目是偶数,中间的两个数是3和3
-
我们看看,因为这组数的数目是偶数,中间的两个数是3和3
-
3和3的平均数——我应该说得更加精确
-
3和3的平均数——我应该说得更加精确
-
计算3和3的算术平均数,答案是3
-
这个数字可能是衡量这组数字的
-
集中趋势或是平均数更加准确的指标,对吗?
-
根本上说,使用中位数计算时,我不会受到组里
-
比其他数大很多、很不一样的数字的影响
-
比其他数大很多、很不一样的数字的影响
-
在统计学上,它们被称为不具代表性的异常值(溢出值)
-
举例说明这样的数字,假设当我们谈起平均房价时
-
这个城市的房子大概都是10万美金
-
但是,其中却有一栋房子价值1000亿美金
-
如果某人告诉你,假设,平均房价是1百万美金
-
你对这个城市可能会有十分错误的印象
-
你对这个城市可能会有十分错误的印象
-
但是,如果告诉你房价的中位数是10万美金,那么
-
你对这个城市的真实房价就会有更好的了解
-
类似地,这个中位数,可能会给你关于这组数据
-
具体情况如何的更好的解释
-
因为算术平均数受到异常值的影响,有所偏离
-
因为算术平均数受到异常值的影响,有所偏离
-
同时,要能够找到这个异常值
-
一个统计学家可能会说,一看到它我就知道是它
-
一个统计学家可能会说,一看到它我就知道是它
-
对于异常值并没有一个正式的定义
-
但是异常值通常是一个明显地与其他数字不同的数
-
有时候,异常值的产生是来源于衡量错误或其他原因
-
最后,让我们讨论众数
-
这组数中最多见的数字是什么?
-
组里有5个3和一个100
-
所以,最常见的数字,再一次是3
-
在这个例子里,当你有一个异常值的时候,中位数
-
和众数可能,你知道,可能是用来描述一组变量
-
更加合适的指标
-
更加合适的指标
-
可能这只是一种度量错误
-
但是我不知道,我们并不了解实际上这些代表什么
-
但是我不知道,我们并不了解实际上这些代表什么
-
如果这些是房价的话,我可能会认为说这些更能
-
代表这个地区真实的房价情况
-
代表这个地区真实的房价情况
-
但如果这些数字是其他情况的产物,例如是一次考试的成绩
-
那么,可能,班上有一个孩子
-
六个孩子中有一个学得非常非常好,而且其他孩子都不学习
-
六个孩子中有一个学得非常非常好,而且其他孩子都不学习
-
这个更能表明,一定程度上,在这个层次的学生平均水平如何
-
这个更能表明,一定程度上,在这个层次的学生平均水平如何
-
无论如何,我这次的内容就讲到这里
-
我希望你们多和数字做游戏,同时
-
独自思考一下这些概念
-
在下一个视频中,我们将会学到更多
-
描述性统计学的内容
-
我们不再谈论集中趋势,而是谈论
-
集中趋势外数字的离散程度
-
集中趋势外数字的离散程度
-
下次见!