統計学の講義へようこそ。
この講義では、しばしば実際に役に立つ事をやっていきたいと思います。
とりあえず、私はこの講義で統計学の要を伝えていきたいと思っています。
なるべくたくさんの例を挙げていくつもりです。そして、出来たら
あなたに統計とはどういう物か、という感覚を持っていただけたらなぁ、と思っています。
そして、まったく何も統計を知らない人でも分かる所から始めて行きたいと思います。
といっても多くの人が、統計とはどういうものか、という事を
なんとなく感覚では分かっていると思いますが。
とても一般的に言えば、統計とは
データについて考える事全般と言えます。
そして統計は大きく幾つかの分野、
そうですね、だいたい3つのカテゴリに分ける事が出来ます。
まず記述統計。
あなたがたくさんのデータを持っていて、その事について他の非に何か伝えたい、でも
データを全部渡さないでそれを行いたい、というような場合。
そういう時に、もしかしたら何らかの数字、
データの全体を表すような、しかしデータ自体ではないような物を
見つけられる場合があります。
それは恐らく記述統計、というものです。
他にも、予測も統計に含まれます。
えー、予測は他の幾つかの要素と合わせて
推測統計という分野を構成しています。
データを使って物事について結論を下す、という場合、
それは推測統計を行なっている、という事になります。
こんな例を考えましょう。母集団から何らかのデータをサンプリングしたとします---ところで
これから母集団とサンプル(標本集団、以下サンプルで統一)についてたくさんの話をしていきますが、
現時点ではあなたは、なんとなくしか言葉の意味が分からないと思います。ですよね?
もし私が大統領選の選挙に行く人を三人調査したとします。
すると、明らかに私は投票者全員を調べた訳ではありません。
私はサンプルを調べた、という事になります。
推測統計とは一体何なのか?というと、私達がサンプルに対して何らかの数学を行い、
そこから母集団の全体に対して何らかの結論が推測出来るか?
という事全体を扱う分野です。
とにかく、これが統計とはなんぞや?という事に対する
おおまかな見取り図です。
では、実際に中身に入って行きましょう。まずは
記述統計から始めます。
最初に私や、私に限らず多くの人が全てのデータを与えられて
それについて説明せよ、と言われた時に、
最初にしたいと思う事です。
えー、もしかしたら私は何か、データ全体を
もっとも良く表すなんらかの数、
言い換えると、中心的傾向を表す数を思いつくかもしれません。
--中心的傾向は統計の教科書で良く目にすることになる単語です。
数字の集合の中心的傾向。
そしてそれは、アベレージとも呼ばれます。
ここで、私は少し普段よりも厳密に「アベレージ」という語を
使っていきたいと思います。この文脈で「アベレージ」について話す時、
それはただ、なんらかの形で私達に中心的傾向を
感じさせる数字、ということのみを意味します。
言い換えると、その集合をもっとも良く代表する数、といっても良いかもしれません。
ここまでの話はとても抽象的に感じるでしょうね。分かります。では具体的に
幾つかの例を見てみましょう。
数の集合があった時にその中心的傾向、または
アベレージを測る方法は幾つかあります。
あなたはたぶん、これらを見たことがあるでしょう。
それは平均です。
実際には幾つかの種類の平均がありますが、
当面は算術平均に限定したいと思います。
幾何平均と調和平均については
後日扱いたいと思います。
平均、メディアン(中央値)、モード(最頻値)というものがあります。
そして統計学では、これらは全てある種の
データの集合を代表する値、または母集団の中心的傾向、または、
サンプルの中心的傾向、と言う言い方が出来ます。
そしてそれらをまとめて--またはそれら全てが
アベレージの一種と言う事になります。
実際の例を見るともうちょっと
よく分かると思います。
日常生活では、人々がアベレージについて話すときは恐らく
おっと私はあなたが既に日常生活でアベレージを計算した事がある、と思っていますが--とにかく、そういう時人々は、
だいたいは算術平均について話しています。
だから普通、誰かが「これらの数字の
アベレージをとろう!」と言う場合、
あなたに算術平均を計算して欲しい、と思ってます。
メディアンやモードを計算して欲しい、とは思わないはずです。
先に進む前に、これらが何なのか、
はっきりさせておきましょう。
数の集合を用意しましょう。
数字 1があるとします。
もう一つ1が、そして2、3
さらに4があるとします。
これだけあればいいでしょう。
シンプルな例が良いので。
では平均、または同じことですが算術平均は
皆さんがアベレージについて話す時にもっとも慣れ親しんでいる事だと思います。
それはズバリ!全ての数字を足して、
総数で割った物です。
ですからこの場合、1足す1足す2足す3足す4。
そしてそれから、1、2、3、
4、5。つまり5で割ります。
つまり?
1足す1は2。
2足す2は4。
4足す3は7。
7足す4は11。
だからそれは11/5と等しくて
つまり?
2 1/5 (にとごぶんのいち)
それはまた2.2とも等しい。
それはいわば、「ヘイ!
これってこの数の集合の、なかなか良い
代表値だぜ。だって
これら全部の数と一番近い、まさにその値
なんだからさ」 という事になる。言い換えると、2.2は
この集合の中心的傾向を表している。
日常会話ではアベレージ、と言っておしまいと思う。
しかしもう少し厳密に言うなら、この値は
この集合の算術平均、というのが正しい。
そして、それは、この集合をある意味で代表していると言える。
もし私が5つの数字の羅列をあなたに渡したく無くとも、
「私は5つの数を持っていて、
その平均は2.2です」とは言える訳です。それは貴方に
それらの数がどこにあるかの「場所」を、少なくとも多少は伝える訳です。
次回は数字達がその「場所」からどのくらい離れているのか
をどう表すかについての話をする事になるでしょう。
とにかく、これが一つ目の尺度です。
もう一つの尺度としては、このようにアベレージを出す代わりに
数字を小さい順番に並べて、
今回は既にそう並んでますが、
では、まずは順番に並べて書いてみましょう。
1, 1, 2, 3, 4.
で、ただ真ん中の数字を取る。
この場合、1、2、3、4、5と5つの数字がありますね。
だから真ん中の数字というとここの数字と
なります。ですよね?
真ん中の数字は2です。
2より大きい数が2つあり
2より小さい数も2つあります。
この値がメディアン、と呼ばれる物です。
見ての通り、ほとんど計算を必要としません。
ただ数を大きさの順番に並べて
そしてどんな値であろうと、それより大きい数と小さい数が
同じ数になる値を探す。
つまり、この集合のメディアンは2となる訳です。
そして見ての通り、この値は
平均とかなり近い値となってます。
どちらかが正解、という訳ではありません。
どちらかかアベレージとして「より良い」という事はありません。
それらはただ、違うやり方でのアベレージの測り方、というだけです。
これがメディアンです。
あなたがどう思うか分かりますよ。「ふむ、
5つの数ならこいつは簡単だ。では
6個の数なら?」どうなるでしょうか?
もしこれが対象となる集合だったら?
1、1、2、3、よし、ここに4を足しましょう。
今や、真ん中の数が無くなってしまいました。ですよね?
つまり、2はもう真ん中じゃない。だって2つ小さい数と、
3つの大きい数があるから。
そして3も真ん中出はない。だって3つの大きな数と、、、
おっと失礼、2つの大きな数と3つの
小さな数があるのですから。
だから真ん中の数が無い。
だから偶数個の数の集合があって誰かに
メディアンを探して、と頼まれたら、あなたがすべき事は
真ん中の2つの値を取って、その2つの算術平均を
とるのです。
公正ですね。
では、またこの件は脇にどけて、元の集合に戻りましょう。
というのは、メディアン、平均、モードを
同じ集合に対して比較したいからです。
でもこの事は知っておくと良いでしょう。
たまにちょっと混乱しますからね。
これらは皆、定義です。
これらは、我々の頭で数字の群れの中を
歩き回る為の数学的ツールなのです。
これらの定義は、決してある日誰かが
太陽の表面にこれらの数式を見て、「おー、あれが宇宙の一部で
アベレージがこのように計算されなくちゃいけないのか!」と発見した訳ではありません。
これらは人間が作った物です。自分達の頭で
たくさんの数字の群れの中を歩き回るために作ったものなのです。
これはたくさんのデータではありません。ですがもし5つの数の代わりに、
500万個の数だとしてみなさい。そうすれば
一つ一つ、いちいち全部の数について考えていくなんてうんざりなのが分かるでしょう。
話を戻して、続きを話しましょう。
モードとは何か、です。
そしてこのモードこそが
ほとんどの人がたぶん忘れるか、ずっと知らないまま
試験の時に目にして混乱する事になる物と思います。なぜなら
「うわ、なんか難しそうだ」と感じるからです。でもある意味、
モードは中心的傾向を表す尺度の中では、
一番簡単なものと言えます。
モードとはようするにその集合の中でもっともよく目にする数の事です。
この例なら、1が二つあるのに、それ以外が
すべて一つづつしかありません。ですよね?
だからこのモードは1です。
モードは一番出現回数の多い数という事です。
それでは、とあなたはこう思うかもしれません。「ヘイ、この場合は
どうなるんだい?
1,1,2,3,4,4」 この場合は1が二つ、4も二つあります。
ここがモードがちょっとトリッキーな所です。何故なら
どちらもモードの答えとなるからです。
あなたは実際に、このモードは1とも
4とも言えます。ちょっと曖昧なんです。
だからあなたは、モードを求めるように訪ねてきた人に
もうちょっと明確にしてもらうように頼みたくなるでしょう。
試験の時に出てくる問題ではだいたいこの曖昧なケースは
避けてあると思います。
集合の中に、一番たくさん出現する数があるはずです。
ここまでくると、アベレージなんて、なんでどれか
一つじゃダメなんだ?と思うかもしれません。
何故アベレージをいくつも学ぶのか、
いつも一つのアベレージを使えばいいんじゃないのか?
または(同じ事ですが)、何故算術平均をいつも使わないのか?
メディアンやモードは何が長所なんだ?と。
では、それに対する例を一つ挙げてみます。そしてそれが
あなたにとって正しく感じますか?という事を見てみましょう。
そうしたらもう少し納得出来ると思います。
こんな数の集合を考えてみましょう。
3, 3, 3, 3, 3と、、、なんでもいいですがでは100。
この場合算術平均は?
一つ、二つ、三つ、四つ、五つの3と100。
だから115を6で割る。ですよね?
一つ、二つ、三つ、四つ、五つ、六つ、六つの数字がある訳ですから。
115はただこれらの数を足しただけ。
これは何と等しいかというと-- 115の中に6が幾つ入るかというと、
6が一回入る。
1かける6は6。
55は9回入る。
9かける6は54。
だからそれは19 1/6と等しい。
結構。
ただ全ての数を足して、
それらの個数で割る。
しかし私が言いたいのは、これは本当に
この集合を代表してますか?
つまり、たくさんの3と、それに100がある。すると、
突然、中心的傾向は19 1/6になってしまう。
どうも 19 1/6はこの集合を表しているようには
思えません。
もちろん、何に使うか、による訳ですが、
でもちょっとなんか違う、と思いません?
つまり、私の直感では、この中心的傾向は
たぶん3に近い何かと思うのです。だって3がたくさんあるんだから。
では、メディアンは私達になんと言うでしょう?
すでにこれらの数字は順番に並んでます。ですよね?
もし私が順不同にこの数字を渡したら、あなたは順番に
並べなおして、真ん中の数字は何か?と考えます。
見てみましょう。真ん中の二つの数字は、これは偶数個なので、
3と3です。
だからこの二つのアベレージを取ると--統計の言葉で
ちゃんと言うべきですね。
3と3の算術平均を取ると、3になります。
そしてこれは、この集合の中心的傾向を表す数値としては、
より良いと言えそうです。
やった事はメディアンを取る事です。すると、
他と大きくずれた大きな数字の影響を
あまり受けないで済んだ訳です。
統計学では、「異常値」と呼びます。
例えば家の価格のアベレージについて話している時、
だいたいその町のほとんどの家が10万ドルで、そしてそこに
一つ1兆円の家があったとします。
そういう時は、もし誰かがその町の家の価格のアベレージが
100万ドル、と言ったら、あなたはその町について、とても
間違った印象を抱くでしょう。
でも家の価格のメディアンは10万ドルで、だから
その町の家の価格について、より良い感覚を得られます。
同様に、このメディアンという物の方が、これらの数の
集合についてもより良い感覚を得られると思います。
何故なら算術平均はこの、いわゆる外れ値に
凄いゆがめられてしまうからです。
そして何が異常値か、をどう見分けるのか?
それには統計学者は
見れば分かる、と答えます。
そこには正式な定義がある訳ではありませんが、
いかにも突き出た値、またそれはしばしば
計測した時のミスのせいだったりするものです。
そして最後に、モード。
何がこの集合の中で一番出現回数が多い数か?
3が五個あります。で、100。
だから一番出現回数が多い数は、ふたたび、3です。
だからこの場合、異常値がある場合、メディアンと
モードは、多くの場合、これらの数を代表させるのに
多少はマシと言って良いと思います。
多少はマシと言って良いと思います。
これはただの計測の失敗かもしれません。
でも我々は実際の所これらが何を表すのかは
良く分かりません。
もしこれらが家の価格なら、私はこれらはたぶん
より敷地面積あたりのコストをうまく表している、と
主張出来ると思います。
でももしこれが何か違う物、例えば試験の点数だったとすると、
6人のクラスの中で一人だけ
とても、とても良く出来る子がいて、そしてその他の
子供たちは勉強しなかった、という事なのかも。
そしてこれは、そのレベルの生徒達が、アベレージとしては
どのくらい出来るかをよりうまく代表してるでしょう。
とにかく、これらについて全て説明しました。
あなた達に、たくさんの数字でこれらのコンセプトを
試してみる事をお勧めします。
次のビデオでは、記述統計学についてもっと
見ていきます。
中心的傾向について話す代わりに、今後はそれぞれが
どれくらい中心的傾向から広がっているかを
話していきます。
次にビデオでお会いしましょう。