めざせ ! データ分析の達人 vol.4 / 池内 正晴

1.集団の特徴を表す代表値

 集団の特性を理解したり、複数の集団を比較するために、その集団をあらわす代表値を利用することが多い。代表値として利用される指標としては、平均値、最頻値、中央値などがあるが、一番良く使われているのが平均値(算術平均)ではなかろうか。

 この平均値というのは、非常にわかりやすいため、一番使われる機会が多いのではあるが、集団の代表値として無条件に利用されていることが、しばしば見受けられる。

 今回は、簡単な例を見ながら、望ましい代表値について考えてみたい。

 

2.さまざまな代表値の使用例

 1)平均点による比較

 学校などで1クラスあたりの人数が15名で10点満点の小テストを実施した結果を事例として、代表値について考えてみる。

 1組と2組の各生徒の得点が次のような結果であったとする。

 

   1組={1,2,3,3,4,4,4,4,5,5,5,6,6,7,8}

   2組={2,3,4,4,5,5,5,6,6,6,6,7,7,8,9}

 

 1組、2組の平均はそれぞれ4.5点、5.5点であり、どちらも多くの生徒が平均値近くの点数を取ると共に、約半数の生徒が平均値以上の点数を取っていることから、平均値を比較することにより、各クラスの得点状況を認識することができる。

 

 2)平均点に標準偏差を加えた比較

 3組の各生徒の得点が次のような結果であったとする。。

 

   3組={2,3,3,4,4,5,5,6,6,6,7,7,8,8,9}

 

 平均点は2組と同じ5.5点であるが、平均値近くの成績を取っている生徒が3組のほうが少ない。このことは平均値だけでは表すことができず、違いを表すためには「標準偏差」を用いる。(標準偏差はデータの散らばり具合をあらわす指標、説明は紙面の都合上割愛するが、ExcelではSTDEVP関数で求めることができる)

 2組、3組の標準偏差はそれぞれ1.8、2.0であり、3組各生徒の得点が平均値から見て、2組より散らばっていることを表すことができる。

 

 3)中央値による比較

 4組の各生徒の得点が次のような結果であったとする。

 

   4組={0,1,1,1,1,2,2,2,2,3,3,4,6,8,9}

 

 4組の平均点を見ると3.0点であるが、約半数の生徒が平均点以上の点数を取っている1~3組と状況が違い、比率的に平均点以下の生徒の人数のほうがかなり多いという状況になっている。このことを表すためには「中央値」を用いる。(各生徒の点数を得点順に並べ、全体で真ん中の順位にある点数で、ExcelではMEDIAN関数で求めることができる)1組、4組の中央値はそれぞれ、4、2であり、4組のほうが低い点数を取った生徒が多いということを表すことができる。1~3組は、平均値と中央値の差はあまりないが、4組は平均値より中央値が小さくなっているため、平均値より低い点数を多くの生徒が取っていることがわかる。

 

 4)最頻値による比較

 5組の各生徒の得点が次のような結果であったとする。

 

   5組={0,1,6,6,7,7,7,8,8,8,8,9,9,9,10}

 

 5組の平均点を見ると、6.9点となるのであるが、各生徒の得点を見ると多くの生徒が8点を取っていることがわかる。このような状況を表すためには、「最頻値」を用いる。(得点別の生徒数を見た場合に生徒数が一番多い点数、ExcelではMODE関数により求めることができる)5組の最頻値は8点であり、一番多くの生徒が8点を取っていることを表すことができる。

 

 5)異常値の除外

 5組の成績において2名だけが0点、1点と極端に低い点数を取っている。その場合は異常値の可能性についても考慮すべきである。この2名について状況を調べてみると、試験当日に体調が非常に悪かったにもかかわらず、無理して受験をしたということであれば、この2名を除外して考えるということも考えられる。そうすると平均値は7.8点となり、最頻値の8点にかなり近いものになる。

 

 6)ふた山の分布

 最後に6組の各生徒の得点が次のような結果であったとする。

 

   6組={1,2,2,2,3,3,4,8,6,7,7,8,8,9,9}

 

 6組の平均値を見ると5.3点であるが、5点を取った生徒は一人もいないうえに、5点前後の点数も非常に少ないという状況である。これについては、「中央値」や「最頻値」を使用しても、的確に特徴を示すことは難しい。

 

3.データを正しい判断材料として活用するために

 ここまでの説明の中で、集団の特徴を表す代表値をいろいろと見てきた。しかし、生徒の点数を並べてみるだけでは、どの代表値の利用が適しているかについて、データの羅列を眺めているだけで、見分けることは難しい。そこで威力を発揮するのが度数分布図である。たとえば、6組各生徒の成績について、度数分布図であらわすと次のようになる。

 

  10点 :
   9点 : **
   8点 : ***
   7点 : **
   6点 : *
   4点 : *
   2点 : ***
   1点 : *
   0点 :

 

 こうすることにより、代表値であらわすことが難しかった6組の成績についても、特徴を簡単に理解することができる。 他のクラスについても同じように分布図を書いていただけると、それぞれの特徴を一目瞭然で理解いただけると思う。

 すべての集団が1組のように、平均値付近に多くのデータが集まっていて、正規分布に近い形になることが明らかである場合は、各集団の代表値として平均値を利用することは、理解のしやすさから見ても適していると考えられるが、データの分布状況が明らかでない場合は、度数分布図を作ってみることを強くお勧めする。そして全体を鳥瞰したうえで、正しく特徴をとらえ、比較することに適した代表値を選び、それを用いて分析をおこなうことにより、得られたデータを正しい判断材料として活用することができるのである。

 

------------------------------------------------------------------------

■執筆者プロフィール

 

池内 正晴 (Masaharu Ikeuchi)

学校法人聖パウロ学園

    光泉中学・高等学校

ITコーディネータ