欢迎来到统计学课程 我早已盼望制作这套课程 好吧,我想要直捣黄龙地讨论核心课程 我将尽量运用案例教学 以使大家对统计学有一个总体的理解 这样是以防有人对统计学不熟悉 虽然,我想很多人直觉上了解统计学是什么 虽然,我想很多人直觉上了解统计学是什么 最核心的部分,好吧,概括而言,就是 一切围绕数据进行 我们可以大体上为统计学分类 基本可以分成三大类 第一种是描述性统计学 假设你有一大堆数据,你希望能在不把数据完全告诉别人 的情况下介绍这些数据的情况 你大概可以找到一些有标志性的数据 来代表所有的数据,而无需将所有的数据都说一次 来代表所有的数据,而无需将所有的数据都说一次 这就是描述性统计学 此外,还有一些统计学能对未来起预测作用 好吧,我大体把它们分成了一类 其中有推论统计学 推论统计学运用数据来对事物做结论 推论统计学运用数据来对事物做结论 假设你从总体中得到了一些样本 统计学中经常提到样本和总体 我想你应该对它们是什么有一些基础的认识,对么? 假设我调查三个即将为总统选举投票的选民 很显然我没有调查整个总体 我仅仅调查了一个样本 推论统计的妙处在于,我们只需对样本 进行一些数学计算,便有可能推断出 总体这个整体的情况 好吧,无论如何,我只是在对统计学是什么进行概括介绍 好吧,无论如何,我只是在对统计学是什么进行概括介绍 接下来,我们来学习统计学的核心内容,同时 我们将从描述统计开始学习 首先,如果别人给我们一组数据并且要求我们对其进行描述的话,我不知道我,或者大部分人会怎么做 首先,如果别人给我们一组数据并且要求我们对其进行描述的话,我不知道我,或者大部分人会怎么做 首先,如果别人给我们一组数据并且要求我们对其进行描述的话,我不知道我,或者大部分人会怎么做 嗯,或许我会找到其中最能代表这一组数据的个别数字 嗯,或许我会找到其中最能代表这一组数据的个别数字 或者,一些能体现集中趋势的数字 “集中趋势” 是统计学课本上常见的词 一组数字的集中趋势 这也叫做平均数 在这里,我使用“平均数”这个词的时候会比平时更加精确一些 当我在这里提到“平均数”时 它表示能描述一组数据的中心趋势,即集中位置或平均水平的一个值 它表示能描述一组数据的中心趋势,即集中位置或平均水平的一个值 或者说,最能代表一组数据的一个数值 我知道这听起来非常抽象,但让我们 先做几道题吧 有几种方法可以用来计算 一组数据的中心趋势,或平均数 你以前或许见过这些 它们是均值(即平均数) 事实上,均值有很多种,我们这里指的仅仅是 算数平均数 以后,当我们学习计算股票回报率时会学到几何平均数 或许某天还会学到调和平均数 包括均值、中位数和众数 用统计学的话说,这些都可用来表述一组数据 或是总体的集中趋势 又或是样本的集中趋势 同时它们都是集合性的——它们都可能是平均数的某种形态 同时它们都是集合性的——它们都可能是平均数的某种形态 我想,当我们看到例子时 可能会更加明白 在日常生活中,当人们谈论到平均数时 我想你在生活中已经计算过平均数了 人们通常指的是算数平均数 因此,通常情况下当人们说“让我们计算这些数字的平均数” 人们希望你计算的是算数平均数 人们希望你计算的是算数平均数 他们不想要中位数或众数 但在我们继续向下学习之前,让我们搞明白它们都是什么 但在我们继续向下学习之前,让我们搞明白它们都是什么 让我来编造一组数字 假设我有1 假设我还有一个1、一个2、一个3 以及一个4 我想这些足够了 我们只需要一个简单的例子 当谈到平均数时,算数平均数或许是大家最熟悉的 当谈到平均数时,算数平均数或许是大家最熟悉的 基本上你只需将所有数字相加,然后 除以数字的数目 在这个例子中,5个数的和就是1加1加2加3加4 然后除以5 然后除以5 结果是多少呢? 1加1等于2 2加2等于4 4加3等于7 7加4等于11 结果等于11除以5 就是? 二又五分之一 就等于2.2 所以,有人会说:“嘿,你知道 这个数字相当不错地代表了这组数据。” 这个数字相当不错地代表了这组数据。 这组数据中所有的数字和2.2都比较接近。” 你也可以认为,2.2代表了这组数据的集中趋势 你也可以认为,2.2代表了这组数据的集中趋势 通常说来,这将会是平均数。 更加精确地说,这是这组数据的算术平均数 更加精确地说,这是这组数据的算术平均数 你可以看到,它对这组数有一定的代表性 如果我不想告诉你这5个数字分别是什么 我可以说:“你知道,我有一组5个数据,而且 它们的均值是2.2。”这样至少告诉了你 这组数字大概会是怎样的 大概在下一个视频里,我们会谈到如何知道均值和 这组数据中每个数字的差是多少 所以,这就是其中一种衡量方法 除了这样计算平均数外,另一种衡量方法 就是把这组数按顺序排好 事实上我就是这么做的 让我们再次将这组数字从小到大排列 1,1,2,3,4 取中间的数字 我们看看,这里有1、2、3、4、5个数 所以中间的就是第三个数,对吗? 中间的数字是2 这组数据中,有两个比2大,还有 两个比2小 2就被称为中位数 所以,中位数涉及的计算非常少 事实上你只需将数字排序 然后你找到中间的数,比这个数大和比这个 数小的数字在这个组里一样多 所以这组数据的中位数就是2 你看,我指的是,这个中位数 和均值其实挺相近的 没有唯一正确的答案 均值和中位数都不是衡量平均数的唯一答案 它们只是衡量平均数的不同方法 这里就是中位数 我知道你大概在想:“好吧,当我们 有5个数的时候这些都很简单 但如果我们有6个数字呢?”那该怎么办呢? 如果这组数中有6个数怎么办? 1,1,2,3,4,让我们再加一个4 所以,我们现在没有中间的数字了,对么? 2不再是中位数,因为有2个数比它小 3个数比它大 3也不是中位数,因为组里有3个数比它大 不好意思,我说错了,有2个数比它大,3个数 比它小 所以没有数字在中间 当一组数据的个数是偶数,且要求你算出中位数 你所需要做的就是取中间的两个数字 然后计算这两个数字的算术平均数 然后计算这两个数字的算术平均数 因此,在这组数字中,中位数是2.5 好吧 但我们先不讨论这个,因为我想比较一下同组数据的 中位数、均值和众数之间的区别 中位数、均值和众数之间的区别 知道这个有助于学习,因为这三者容易让人混淆 知道这个有助于学习,因为这三者容易让人混淆 而且,这三个都是数学定义 是为了让我们更好的分析数字,可供运用的数学工具 是为了让我们更好的分析数字,可供运用的数学工具 这些计算公式并不会某天出现在天空,让人们 惊呼:“哦,如何计算平均数是宇宙的部分奥秘!” 惊呼:“哦,如何计算平均数是宇宙的部分奥秘!” 这些计算都是人类创造出来,以便使我们的大脑 能更好地处理数据 这组数据数目不多,但如果我们拥有的不是5个 数而是五百万个,你可以想象,你绝对不会愿意 一个一个地去分析这些数字 无论如何,在我进一步讨论前,我们先学习一下众数的概念 无论如何,在我进一步讨论前,我们先学习一下众数的概念 在一定程度上,我认为众数是最容易被人遗忘的 人们通常在考试时看到众数时总会惊讶万分 他们会觉得:“哦,这是一个很高深的概念!” 而事实上,众数在一定程度上是计算集中趋势或是平均数 最简单的方法 众数就是一组数据中最经常出现的数 在这个例子里,有两个1,其他的数字都各自只有一个,对吗? 在这个例子里,有两个1,其他的数字都各自只有一个,对吗? 所以,这里的众数就是1 因此,众数就是最多的数 现在,你可能会说:“哇,Sal,如果这个是我们的数组怎么办? 现在,你可能会说:“哇,Sal,如果这个是我们的数组怎么办? 1,1,2,3,4,4。” 这里,有两个1,还有两个4 在这种情况下,计算众数就更困难一点 因为1和4都可能成为众数 你可以说众数是1,或者众数是4 但是这样都不够精确 可能你会需要让那个问你问题的人澄清一下他的意图 可能你会需要让那个问你问题的人澄清一下他的意图 大部分时候,如果你在考试时遇到这个问题时 答案都不会这么模糊 通常一组数据中会有一个最经常出现的数字 现在,你可能会问,好吧,为什么一种计算方法还不够 现在,你可能会问,好吧,为什么一种计算方法还不够 你知道我们学习平均数的目的,为什么我们不干脆仅仅使用平均数呢? 你知道我们学习平均数的目的,为什么我们不干脆仅仅使用平均数呢? 又或者,为什么我们不一直用算术平均数进行计算呢? 中位数和众数有什么用呢? 好吧,我将试着举一个例子,看看你明不明白 好吧,我将试着举一个例子,看看你明不明白 然后你可以自己进一步思考一下 假设我有这样一组数 3,3,3,3,3,以及,100 那么,算术平均数是多少? 我有5个3以及1个100 所以答案是用115除以6,对吗 我有六个数 115只是这六个数的和 所以结果是:115是6的多少倍? 上一 一六得六 55除以6,上9 六九五十四 所以答案是19又1/6 好吧 我仅仅将所有数相加然后除以个数 我仅仅将所有数相加然后除以个数 但是我的问题是,这个答案真的能代表这组变量么 但是我的问题是,这个答案真的能代表这组变量么 我的意思是,我有很多的3,只有一个100 但是,我们得到的集中趋势却是19又1/6 我的意思是,19又1/6并不能很好地代表这组数据的情况 我的意思是,19又1/6并不能很好地代表这组数据的情况 或许在不同的问题下,这个答案是正确的 但是看起来还是有点怪,对不对? 我觉得,我的直觉告诉我,集中趋势应该是一个更靠近3的数字 因为组里有很多的3 在这里,众数会告诉我们什么呢? 这些数字已经是从小到大排列的,对吗? 如果它们是随机给出的,你首先需要将其从小到大排列 然后你看看,中间的那个数是什么? 我们看看,因为这组数的数目是偶数,中间的两个数是3和3 我们看看,因为这组数的数目是偶数,中间的两个数是3和3 3和3的平均数——我应该说得更加精确 3和3的平均数——我应该说得更加精确 计算3和3的算术平均数,答案是3 这个数字可能是衡量这组数字的 集中趋势或是平均数更加准确的指标,对吗? 根本上说,使用中位数计算时,我不会受到组里 比其他数大很多、很不一样的数字的影响 比其他数大很多、很不一样的数字的影响 在统计学上,它们被称为不具代表性的异常值(溢出值) 举例说明这样的数字,假设当我们谈起平均房价时 这个城市的房子大概都是10万美金 但是,其中却有一栋房子价值1000亿美金 如果某人告诉你,假设,平均房价是1百万美金 你对这个城市可能会有十分错误的印象 你对这个城市可能会有十分错误的印象 但是,如果告诉你房价的中位数是10万美金,那么 你对这个城市的真实房价就会有更好的了解 类似地,这个中位数,可能会给你关于这组数据 具体情况如何的更好的解释 因为算术平均数受到异常值的影响,有所偏离 因为算术平均数受到异常值的影响,有所偏离 同时,要能够找到这个异常值 一个统计学家可能会说,一看到它我就知道是它 一个统计学家可能会说,一看到它我就知道是它 对于异常值并没有一个正式的定义 但是异常值通常是一个明显地与其他数字不同的数 有时候,异常值的产生是来源于衡量错误或其他原因 最后,让我们讨论众数 这组数中最多见的数字是什么? 组里有5个3和一个100 所以,最常见的数字,再一次是3 在这个例子里,当你有一个异常值的时候,中位数 和众数可能,你知道,可能是用来描述一组变量 更加合适的指标 更加合适的指标 可能这只是一种度量错误 但是我不知道,我们并不了解实际上这些代表什么 但是我不知道,我们并不了解实际上这些代表什么 如果这些是房价的话,我可能会认为说这些更能 代表这个地区真实的房价情况 代表这个地区真实的房价情况 但如果这些数字是其他情况的产物,例如是一次考试的成绩 那么,可能,班上有一个孩子 六个孩子中有一个学得非常非常好,而且其他孩子都不学习 六个孩子中有一个学得非常非常好,而且其他孩子都不学习 这个更能表明,一定程度上,在这个层次的学生平均水平如何 这个更能表明,一定程度上,在这个层次的学生平均水平如何 无论如何,我这次的内容就讲到这里 我希望你们多和数字做游戏,同时 独自思考一下这些概念 在下一个视频中,我们将会学到更多 描述性统计学的内容 我们不再谈论集中趋势,而是谈论 集中趋势外数字的离散程度 集中趋势外数字的离散程度 下次见!