1 00:00:00,990 --> 00:00:03,270 欢迎来到统计学课程 2 00:00:03,270 --> 00:00:06,380 我早已盼望制作这套课程 3 00:00:06,380 --> 00:00:08,710 好吧,我想要直捣黄龙地讨论核心课程 4 00:00:08,710 --> 00:00:12,220 我将尽量运用案例教学 5 00:00:12,220 --> 00:00:14,990 以使大家对统计学有一个总体的理解 6 00:00:14,990 --> 00:00:16,850 这样是以防有人对统计学不熟悉 7 00:00:16,850 --> 00:00:18,550 虽然,我想很多人直觉上了解统计学是什么 8 00:00:18,550 --> 00:00:20,660 虽然,我想很多人直觉上了解统计学是什么 9 00:00:22,414 --> 00:00:27,169 最核心的部分,好吧,概括而言,就是 10 00:00:27,169 --> 00:00:28,590 一切围绕数据进行 11 00:00:28,590 --> 00:00:30,540 我们可以大体上为统计学分类 12 00:00:30,540 --> 00:00:32,640 基本可以分成三大类 13 00:00:32,640 --> 00:00:35,330 第一种是描述性统计学 14 00:00:35,330 --> 00:00:39,150 假设你有一大堆数据,你希望能在不把数据完全告诉别人 15 00:00:39,150 --> 00:00:41,480 的情况下介绍这些数据的情况 16 00:00:41,480 --> 00:00:45,360 你大概可以找到一些有标志性的数据 17 00:00:45,360 --> 00:00:47,560 来代表所有的数据,而无需将所有的数据都说一次 18 00:00:47,560 --> 00:00:48,540 来代表所有的数据,而无需将所有的数据都说一次 19 00:00:48,540 --> 00:00:50,370 这就是描述性统计学 20 00:00:50,370 --> 00:00:51,510 此外,还有一些统计学能对未来起预测作用 21 00:00:51,510 --> 00:00:53,110 好吧,我大体把它们分成了一类 22 00:00:53,110 --> 00:00:55,110 其中有推论统计学 23 00:00:58,310 --> 00:01:00,908 推论统计学运用数据来对事物做结论 24 00:01:00,920 --> 00:01:02,200 推论统计学运用数据来对事物做结论 25 00:01:02,200 --> 00:01:06,500 假设你从总体中得到了一些样本 26 00:01:06,500 --> 00:01:08,890 统计学中经常提到样本和总体 27 00:01:08,890 --> 00:01:11,390 我想你应该对它们是什么有一些基础的认识,对么? 28 00:01:11,390 --> 00:01:13,800 假设我调查三个即将为总统选举投票的选民 29 00:01:13,800 --> 00:01:16,500 很显然我没有调查整个总体 30 00:01:16,500 --> 00:01:18,160 我仅仅调查了一个样本 31 00:01:18,160 --> 00:01:21,780 推论统计的妙处在于,我们只需对样本 32 00:01:21,780 --> 00:01:24,890 进行一些数学计算,便有可能推断出 33 00:01:24,890 --> 00:01:27,740 总体这个整体的情况 34 00:01:27,740 --> 00:01:29,760 好吧,无论如何,我只是在对统计学是什么进行概括介绍 35 00:01:29,760 --> 00:01:30,800 好吧,无论如何,我只是在对统计学是什么进行概括介绍 36 00:01:30,800 --> 00:01:33,620 接下来,我们来学习统计学的核心内容,同时 37 00:01:33,620 --> 00:01:34,746 我们将从描述统计开始学习 38 00:01:37,931 --> 00:01:41,012 首先,如果别人给我们一组数据并且要求我们对其进行描述的话,我不知道我,或者大部分人会怎么做 39 00:01:41,040 --> 00:01:44,330 首先,如果别人给我们一组数据并且要求我们对其进行描述的话,我不知道我,或者大部分人会怎么做 40 00:01:44,330 --> 00:01:47,320 首先,如果别人给我们一组数据并且要求我们对其进行描述的话,我不知道我,或者大部分人会怎么做 41 00:01:47,320 --> 00:01:51,030 嗯,或许我会找到其中最能代表这一组数据的个别数字 42 00:01:51,030 --> 00:01:54,430 嗯,或许我会找到其中最能代表这一组数据的个别数字 43 00:01:54,430 --> 00:01:57,092 或者,一些能体现集中趋势的数字 44 00:01:57,092 --> 00:01:59,900 “集中趋势” 是统计学课本上常见的词 45 00:01:59,900 --> 00:02:03,040 一组数字的集中趋势 46 00:02:07,040 --> 00:02:09,375 这也叫做平均数 47 00:02:09,375 --> 00:02:11,780 在这里,我使用“平均数”这个词的时候会比平时更加精确一些 48 00:02:11,780 --> 00:02:16,060 当我在这里提到“平均数”时 49 00:02:16,060 --> 00:02:20,090 它表示能描述一组数据的中心趋势,即集中位置或平均水平的一个值 50 00:02:20,090 --> 00:02:22,640 它表示能描述一组数据的中心趋势,即集中位置或平均水平的一个值 51 00:02:22,640 --> 00:02:25,430 或者说,最能代表一组数据的一个数值 52 00:02:25,430 --> 00:02:27,030 我知道这听起来非常抽象,但让我们 53 00:02:27,030 --> 00:02:28,870 先做几道题吧 54 00:02:28,870 --> 00:02:31,850 有几种方法可以用来计算 55 00:02:31,850 --> 00:02:35,200 一组数据的中心趋势,或平均数 56 00:02:35,200 --> 00:02:37,950 你以前或许见过这些 57 00:02:37,950 --> 00:02:40,534 它们是均值(即平均数) 58 00:02:40,534 --> 00:02:42,960 事实上,均值有很多种,我们这里指的仅仅是 59 00:02:42,960 --> 00:02:44,040 算数平均数 60 00:02:50,660 --> 00:02:53,810 以后,当我们学习计算股票回报率时会学到几何平均数 61 00:02:53,810 --> 00:02:55,040 或许某天还会学到调和平均数 62 00:02:55,040 --> 00:03:02,640 包括均值、中位数和众数 63 00:03:02,640 --> 00:03:07,050 用统计学的话说,这些都可用来表述一组数据 64 00:03:07,050 --> 00:03:10,620 或是总体的集中趋势 65 00:03:10,620 --> 00:03:12,650 又或是样本的集中趋势 66 00:03:12,650 --> 00:03:15,590 同时它们都是集合性的——它们都可能是平均数的某种形态 67 00:03:15,590 --> 00:03:17,070 同时它们都是集合性的——它们都可能是平均数的某种形态 68 00:03:17,070 --> 00:03:18,520 我想,当我们看到例子时 69 00:03:18,520 --> 00:03:19,470 可能会更加明白 70 00:03:19,470 --> 00:03:23,440 在日常生活中,当人们谈论到平均数时 71 00:03:23,440 --> 00:03:26,100 我想你在生活中已经计算过平均数了 72 00:03:26,100 --> 00:03:28,710 人们通常指的是算数平均数 73 00:03:28,710 --> 00:03:30,320 因此,通常情况下当人们说“让我们计算这些数字的平均数” 74 00:03:30,320 --> 00:03:32,530 人们希望你计算的是算数平均数 75 00:03:32,530 --> 00:03:34,470 人们希望你计算的是算数平均数 76 00:03:34,470 --> 00:03:36,490 他们不想要中位数或众数 77 00:03:36,490 --> 00:03:38,780 但在我们继续向下学习之前,让我们搞明白它们都是什么 78 00:03:38,780 --> 00:03:41,110 但在我们继续向下学习之前,让我们搞明白它们都是什么 79 00:03:41,110 --> 00:03:43,230 让我来编造一组数字 80 00:03:43,230 --> 00:03:45,630 假设我有1 81 00:03:45,630 --> 00:03:50,220 假设我还有一个1、一个2、一个3 82 00:03:50,220 --> 00:03:52,885 以及一个4 83 00:03:52,885 --> 00:03:55,410 我想这些足够了 84 00:03:56,170 --> 00:03:58,370 我们只需要一个简单的例子 85 00:03:58,370 --> 00:04:02,650 当谈到平均数时,算数平均数或许是大家最熟悉的 86 00:04:02,650 --> 00:04:05,710 当谈到平均数时,算数平均数或许是大家最熟悉的 87 00:04:05,710 --> 00:04:07,600 基本上你只需将所有数字相加,然后 88 00:04:07,600 --> 00:04:09,160 除以数字的数目 89 00:04:09,160 --> 00:04:16,290 在这个例子中,5个数的和就是1加1加2加3加4 90 00:04:16,290 --> 00:04:19,420 然后除以5 91 00:04:19,420 --> 00:04:21,020 然后除以5 92 00:04:21,020 --> 00:04:21,540 结果是多少呢? 93 00:04:21,540 --> 00:04:23,470 1加1等于2 94 00:04:23,470 --> 00:04:25,600 2加2等于4 95 00:04:25,600 --> 00:04:27,640 4加3等于7 96 00:04:27,640 --> 00:04:29,500 7加4等于11 97 00:04:29,500 --> 00:04:32,550 结果等于11除以5 98 00:04:32,550 --> 00:04:33,040 就是? 99 00:04:33,040 --> 00:04:34,410 二又五分之一 100 00:04:34,410 --> 00:04:38,320 就等于2.2 101 00:04:38,320 --> 00:04:39,560 所以,有人会说:“嘿,你知道 102 00:04:39,560 --> 00:04:41,060 这个数字相当不错地代表了这组数据。” 103 00:04:41,060 --> 00:04:42,490 这个数字相当不错地代表了这组数据。 104 00:04:42,490 --> 00:04:44,680 这组数据中所有的数字和2.2都比较接近。” 105 00:04:44,680 --> 00:04:47,390 你也可以认为,2.2代表了这组数据的集中趋势 106 00:04:47,390 --> 00:04:49,140 你也可以认为,2.2代表了这组数据的集中趋势 107 00:04:49,140 --> 00:04:51,400 通常说来,这将会是平均数。 108 00:04:51,400 --> 00:04:53,450 更加精确地说,这是这组数据的算术平均数 109 00:04:53,450 --> 00:04:55,410 更加精确地说,这是这组数据的算术平均数 110 00:04:55,410 --> 00:04:56,740 你可以看到,它对这组数有一定的代表性 111 00:04:56,740 --> 00:04:59,210 如果我不想告诉你这5个数字分别是什么 112 00:04:59,210 --> 00:05:01,030 我可以说:“你知道,我有一组5个数据,而且 113 00:05:01,030 --> 00:05:03,680 它们的均值是2.2。”这样至少告诉了你 114 00:05:03,680 --> 00:05:05,900 这组数字大概会是怎样的 115 00:05:05,900 --> 00:05:08,510 大概在下一个视频里,我们会谈到如何知道均值和 116 00:05:08,510 --> 00:05:12,500 这组数据中每个数字的差是多少 117 00:05:12,500 --> 00:05:13,840 所以,这就是其中一种衡量方法 118 00:05:13,840 --> 00:05:17,150 除了这样计算平均数外,另一种衡量方法 119 00:05:17,150 --> 00:05:19,510 就是把这组数按顺序排好 120 00:05:19,510 --> 00:05:20,460 事实上我就是这么做的 121 00:05:20,460 --> 00:05:23,340 让我们再次将这组数字从小到大排列 122 00:05:23,340 --> 00:05:26,810 1,1,2,3,4 123 00:05:26,810 --> 00:05:28,490 取中间的数字 124 00:05:28,490 --> 00:05:31,790 我们看看,这里有1、2、3、4、5个数 125 00:05:31,790 --> 00:05:34,010 所以中间的就是第三个数,对吗? 126 00:05:34,010 --> 00:05:34,940 中间的数字是2 127 00:05:34,940 --> 00:05:37,240 这组数据中,有两个比2大,还有 128 00:05:37,240 --> 00:05:38,610 两个比2小 129 00:05:38,610 --> 00:05:39,720 2就被称为中位数 130 00:05:39,720 --> 00:05:41,560 所以,中位数涉及的计算非常少 131 00:05:41,560 --> 00:05:43,440 事实上你只需将数字排序 132 00:05:43,440 --> 00:05:45,620 然后你找到中间的数,比这个数大和比这个 133 00:05:45,620 --> 00:05:48,260 数小的数字在这个组里一样多 134 00:05:48,260 --> 00:05:51,430 所以这组数据的中位数就是2 135 00:05:51,430 --> 00:05:53,010 你看,我指的是,这个中位数 136 00:05:53,010 --> 00:05:54,320 和均值其实挺相近的 137 00:05:54,320 --> 00:05:56,020 没有唯一正确的答案 138 00:05:56,020 --> 00:05:58,550 均值和中位数都不是衡量平均数的唯一答案 139 00:05:58,550 --> 00:06:01,890 它们只是衡量平均数的不同方法 140 00:06:01,890 --> 00:06:05,020 这里就是中位数 141 00:06:05,020 --> 00:06:06,980 我知道你大概在想:“好吧,当我们 142 00:06:06,980 --> 00:06:08,640 有5个数的时候这些都很简单 143 00:06:08,640 --> 00:06:12,160 但如果我们有6个数字呢?”那该怎么办呢? 144 00:06:12,160 --> 00:06:14,260 如果这组数中有6个数怎么办? 145 00:06:14,260 --> 00:06:19,880 1,1,2,3,4,让我们再加一个4 146 00:06:19,880 --> 00:06:21,660 所以,我们现在没有中间的数字了,对么? 147 00:06:21,660 --> 00:06:24,870 2不再是中位数,因为有2个数比它小 148 00:06:24,870 --> 00:06:26,600 3个数比它大 149 00:06:26,600 --> 00:06:28,820 3也不是中位数,因为组里有3个数比它大 150 00:06:28,820 --> 00:06:31,530 不好意思,我说错了,有2个数比它大,3个数 151 00:06:31,530 --> 00:06:32,550 比它小 152 00:06:32,550 --> 00:06:33,990 所以没有数字在中间 153 00:06:33,990 --> 00:06:36,390 当一组数据的个数是偶数,且要求你算出中位数 154 00:06:36,390 --> 00:06:38,500 你所需要做的就是取中间的两个数字 155 00:06:38,500 --> 00:06:43,750 然后计算这两个数字的算术平均数 156 00:06:43,750 --> 00:06:45,050 然后计算这两个数字的算术平均数 157 00:06:45,050 --> 00:06:50,770 因此,在这组数字中,中位数是2.5 158 00:06:50,770 --> 00:06:51,730 好吧 159 00:06:51,730 --> 00:06:54,020 但我们先不讨论这个,因为我想比较一下同组数据的 160 00:06:54,020 --> 00:06:56,680 中位数、均值和众数之间的区别 161 00:06:56,680 --> 00:06:57,620 中位数、均值和众数之间的区别 162 00:06:57,620 --> 00:07:00,160 知道这个有助于学习,因为这三者容易让人混淆 163 00:07:00,160 --> 00:07:01,340 知道这个有助于学习,因为这三者容易让人混淆 164 00:07:01,340 --> 00:07:03,760 而且,这三个都是数学定义 165 00:07:03,760 --> 00:07:05,930 是为了让我们更好的分析数字,可供运用的数学工具 166 00:07:05,930 --> 00:07:08,470 是为了让我们更好的分析数字,可供运用的数学工具 167 00:07:08,470 --> 00:07:11,720 这些计算公式并不会某天出现在天空,让人们 168 00:07:11,720 --> 00:07:13,660 惊呼:“哦,如何计算平均数是宇宙的部分奥秘!” 169 00:07:13,660 --> 00:07:16,980 惊呼:“哦,如何计算平均数是宇宙的部分奥秘!” 170 00:07:16,980 --> 00:07:20,380 这些计算都是人类创造出来,以便使我们的大脑 171 00:07:20,380 --> 00:07:22,110 能更好地处理数据 172 00:07:22,110 --> 00:07:24,670 这组数据数目不多,但如果我们拥有的不是5个 173 00:07:24,670 --> 00:07:26,760 数而是五百万个,你可以想象,你绝对不会愿意 174 00:07:26,760 --> 00:07:28,780 一个一个地去分析这些数字 175 00:07:28,780 --> 00:07:31,640 无论如何,在我进一步讨论前,我们先学习一下众数的概念 176 00:07:31,640 --> 00:07:33,410 无论如何,在我进一步讨论前,我们先学习一下众数的概念 177 00:07:33,410 --> 00:07:36,200 在一定程度上,我认为众数是最容易被人遗忘的 178 00:07:36,200 --> 00:07:39,650 人们通常在考试时看到众数时总会惊讶万分 179 00:07:39,650 --> 00:07:41,930 他们会觉得:“哦,这是一个很高深的概念!” 180 00:07:41,930 --> 00:07:45,420 而事实上,众数在一定程度上是计算集中趋势或是平均数 181 00:07:45,420 --> 00:07:49,450 最简单的方法 182 00:07:49,450 --> 00:07:53,810 众数就是一组数据中最经常出现的数 183 00:07:53,810 --> 00:07:56,220 在这个例子里,有两个1,其他的数字都各自只有一个,对吗? 184 00:07:56,220 --> 00:07:57,510 在这个例子里,有两个1,其他的数字都各自只有一个,对吗? 185 00:07:57,510 --> 00:08:00,230 所以,这里的众数就是1 186 00:08:00,230 --> 00:08:02,840 因此,众数就是最多的数 187 00:08:02,840 --> 00:08:04,890 现在,你可能会说:“哇,Sal,如果这个是我们的数组怎么办? 188 00:08:04,890 --> 00:08:05,880 现在,你可能会说:“哇,Sal,如果这个是我们的数组怎么办? 189 00:08:05,880 --> 00:08:11,620 1,1,2,3,4,4。” 这里,有两个1,还有两个4 190 00:08:11,620 --> 00:08:14,040 在这种情况下,计算众数就更困难一点 191 00:08:14,040 --> 00:08:17,810 因为1和4都可能成为众数 192 00:08:17,810 --> 00:08:20,270 你可以说众数是1,或者众数是4 193 00:08:20,270 --> 00:08:23,135 但是这样都不够精确 194 00:08:23,135 --> 00:08:24,840 可能你会需要让那个问你问题的人澄清一下他的意图 195 00:08:24,840 --> 00:08:25,790 可能你会需要让那个问你问题的人澄清一下他的意图 196 00:08:25,790 --> 00:08:28,510 大部分时候,如果你在考试时遇到这个问题时 197 00:08:28,510 --> 00:08:29,190 答案都不会这么模糊 198 00:08:29,190 --> 00:08:33,164 通常一组数据中会有一个最经常出现的数字 199 00:08:33,164 --> 00:08:35,950 现在,你可能会问,好吧,为什么一种计算方法还不够 200 00:08:35,950 --> 00:08:36,900 现在,你可能会问,好吧,为什么一种计算方法还不够 201 00:08:36,900 --> 00:08:38,490 你知道我们学习平均数的目的,为什么我们不干脆仅仅使用平均数呢? 202 00:08:38,490 --> 00:08:40,270 你知道我们学习平均数的目的,为什么我们不干脆仅仅使用平均数呢? 203 00:08:40,270 --> 00:08:43,220 又或者,为什么我们不一直用算术平均数进行计算呢? 204 00:08:43,220 --> 00:08:45,080 中位数和众数有什么用呢? 205 00:08:45,080 --> 00:08:47,890 好吧,我将试着举一个例子,看看你明不明白 206 00:08:47,890 --> 00:08:50,710 好吧,我将试着举一个例子,看看你明不明白 207 00:08:50,710 --> 00:08:52,020 然后你可以自己进一步思考一下 208 00:08:52,020 --> 00:08:53,950 假设我有这样一组数 209 00:08:53,950 --> 00:09:04,350 3,3,3,3,3,以及,100 210 00:09:04,350 --> 00:09:08,960 那么,算术平均数是多少? 211 00:09:08,960 --> 00:09:12,070 我有5个3以及1个100 212 00:09:12,070 --> 00:09:17,350 所以答案是用115除以6,对吗 213 00:09:17,350 --> 00:09:20,090 我有六个数 214 00:09:20,090 --> 00:09:21,990 115只是这六个数的和 215 00:09:21,990 --> 00:09:27,270 所以结果是:115是6的多少倍? 216 00:09:27,270 --> 00:09:28,600 上一 217 00:09:28,600 --> 00:09:30,520 一六得六 218 00:09:30,520 --> 00:09:32,320 55除以6,上9 219 00:09:32,320 --> 00:09:34,370 六九五十四 220 00:09:34,370 --> 00:09:35,950 所以答案是19又1/6 221 00:09:37,210 --> 00:09:38,470 好吧 222 00:09:39,140 --> 00:09:40,610 我仅仅将所有数相加然后除以个数 223 00:09:40,610 --> 00:09:42,150 我仅仅将所有数相加然后除以个数 224 00:09:42,150 --> 00:09:44,840 但是我的问题是,这个答案真的能代表这组变量么 225 00:09:44,840 --> 00:09:45,560 但是我的问题是,这个答案真的能代表这组变量么 226 00:09:45,560 --> 00:09:47,740 我的意思是,我有很多的3,只有一个100 227 00:09:47,740 --> 00:09:51,270 但是,我们得到的集中趋势却是19又1/6 228 00:09:51,270 --> 00:09:53,610 我的意思是,19又1/6并不能很好地代表这组数据的情况 229 00:09:53,610 --> 00:09:54,080 我的意思是,19又1/6并不能很好地代表这组数据的情况 230 00:09:54,080 --> 00:09:56,390 或许在不同的问题下,这个答案是正确的 231 00:09:56,390 --> 00:09:57,850 但是看起来还是有点怪,对不对? 232 00:09:57,850 --> 00:09:59,800 我觉得,我的直觉告诉我,集中趋势应该是一个更靠近3的数字 233 00:09:59,800 --> 00:10:02,660 因为组里有很多的3 234 00:10:02,660 --> 00:10:06,770 在这里,众数会告诉我们什么呢? 235 00:10:06,770 --> 00:10:09,720 这些数字已经是从小到大排列的,对吗? 236 00:10:09,720 --> 00:10:11,375 如果它们是随机给出的,你首先需要将其从小到大排列 237 00:10:11,375 --> 00:10:13,480 然后你看看,中间的那个数是什么? 238 00:10:13,480 --> 00:10:16,375 我们看看,因为这组数的数目是偶数,中间的两个数是3和3 239 00:10:16,375 --> 00:10:18,410 我们看看,因为这组数的数目是偶数,中间的两个数是3和3 240 00:10:18,410 --> 00:10:20,890 3和3的平均数——我应该说得更加精确 241 00:10:20,890 --> 00:10:21,820 3和3的平均数——我应该说得更加精确 242 00:10:21,820 --> 00:10:26,800 计算3和3的算术平均数,答案是3 243 00:10:26,800 --> 00:10:30,390 这个数字可能是衡量这组数字的 244 00:10:30,390 --> 00:10:34,400 集中趋势或是平均数更加准确的指标,对吗? 245 00:10:34,400 --> 00:10:38,120 根本上说,使用中位数计算时,我不会受到组里 246 00:10:38,120 --> 00:10:40,720 比其他数大很多、很不一样的数字的影响 247 00:10:40,720 --> 00:10:42,080 比其他数大很多、很不一样的数字的影响 248 00:10:42,080 --> 00:10:43,765 在统计学上,它们被称为不具代表性的异常值(溢出值) 249 00:10:43,765 --> 00:10:47,010 举例说明这样的数字,假设当我们谈起平均房价时 250 00:10:47,010 --> 00:10:51,580 这个城市的房子大概都是10万美金 251 00:10:51,580 --> 00:10:54,140 但是,其中却有一栋房子价值1000亿美金 252 00:10:54,140 --> 00:10:56,120 如果某人告诉你,假设,平均房价是1百万美金 253 00:10:56,120 --> 00:10:58,440 你对这个城市可能会有十分错误的印象 254 00:10:58,440 --> 00:10:59,760 你对这个城市可能会有十分错误的印象 255 00:10:59,760 --> 00:11:03,640 但是,如果告诉你房价的中位数是10万美金,那么 256 00:11:03,640 --> 00:11:06,440 你对这个城市的真实房价就会有更好的了解 257 00:11:06,440 --> 00:11:08,720 类似地,这个中位数,可能会给你关于这组数据 258 00:11:08,720 --> 00:11:11,820 具体情况如何的更好的解释 259 00:11:11,820 --> 00:11:15,550 因为算术平均数受到异常值的影响,有所偏离 260 00:11:15,550 --> 00:11:18,030 因为算术平均数受到异常值的影响,有所偏离 261 00:11:18,030 --> 00:11:19,990 同时,要能够找到这个异常值 262 00:11:19,990 --> 00:11:22,130 一个统计学家可能会说,一看到它我就知道是它 263 00:11:22,130 --> 00:11:23,110 一个统计学家可能会说,一看到它我就知道是它 264 00:11:23,110 --> 00:11:25,450 对于异常值并没有一个正式的定义 265 00:11:25,450 --> 00:11:28,290 但是异常值通常是一个明显地与其他数字不同的数 266 00:11:28,290 --> 00:11:31,190 有时候,异常值的产生是来源于衡量错误或其他原因 267 00:11:31,190 --> 00:11:33,020 最后,让我们讨论众数 268 00:11:33,020 --> 00:11:35,310 这组数中最多见的数字是什么? 269 00:11:35,310 --> 00:11:38,590 组里有5个3和一个100 270 00:11:38,590 --> 00:11:41,440 所以,最常见的数字,再一次是3 271 00:11:41,440 --> 00:11:44,905 在这个例子里,当你有一个异常值的时候,中位数 272 00:11:44,905 --> 00:11:46,700 和众数可能,你知道,可能是用来描述一组变量 273 00:11:46,700 --> 00:11:50,650 更加合适的指标 274 00:11:50,650 --> 00:11:51,650 更加合适的指标 275 00:11:51,650 --> 00:11:53,220 可能这只是一种度量错误 276 00:11:53,220 --> 00:11:54,370 但是我不知道,我们并不了解实际上这些代表什么 277 00:11:54,370 --> 00:11:55,250 但是我不知道,我们并不了解实际上这些代表什么 278 00:11:55,250 --> 00:11:57,530 如果这些是房价的话,我可能会认为说这些更能 279 00:11:57,530 --> 00:12:00,700 代表这个地区真实的房价情况 280 00:12:00,700 --> 00:12:03,050 代表这个地区真实的房价情况 281 00:12:03,050 --> 00:12:05,520 但如果这些数字是其他情况的产物,例如是一次考试的成绩 282 00:12:05,520 --> 00:12:07,850 那么,可能,班上有一个孩子 283 00:12:07,850 --> 00:12:09,750 六个孩子中有一个学得非常非常好,而且其他孩子都不学习 284 00:12:09,750 --> 00:12:10,410 六个孩子中有一个学得非常非常好,而且其他孩子都不学习 285 00:12:10,410 --> 00:12:13,680 这个更能表明,一定程度上,在这个层次的学生平均水平如何 286 00:12:13,680 --> 00:12:14,680 这个更能表明,一定程度上,在这个层次的学生平均水平如何 287 00:12:14,680 --> 00:12:17,830 无论如何,我这次的内容就讲到这里 288 00:12:17,830 --> 00:12:20,430 我希望你们多和数字做游戏,同时 289 00:12:20,430 --> 00:12:21,460 独自思考一下这些概念 290 00:12:21,460 --> 00:12:24,960 在下一个视频中,我们将会学到更多 291 00:12:24,960 --> 00:12:25,480 描述性统计学的内容 292 00:12:25,480 --> 00:12:27,510 我们不再谈论集中趋势,而是谈论 293 00:12:27,510 --> 00:12:30,410 集中趋势外数字的离散程度 294 00:12:30,410 --> 00:12:31,520 集中趋势外数字的离散程度 295 00:12:31,520 --> 00:12:33,370 下次见!