データの活用
学習のめあて
- 平均値・中央値・最頻値の意味を説明し、適切に求められる
- 範囲などを使ってデータの散らばりを表し、比較できる
- ヒストグラム・度数分布表・箱ひげ図・散布図などから情報を読み取れる
- 外れ値や偏りを意識して、目的に合う代表値を選んで説明できる
- データの比較結果を、根拠(数値・図)を示して文章でまとめられる
解説
データの活用は、「数を計算するだけ」ではなく、データから何が言えるかを根拠つきで説明する学習です。たとえば「どちらのクラスのテストがよい?」のような問いに、平均だけでなく散らばりも含めて考える力が必要になります。
0. 用語の整理(最初にここを固める)
- データ:調べて集めた数値や結果。
- 個数(データ数):データがいくつあるか。例:30人分ならデータ数は30。
- 度数:ある階級(区間)に入るデータの個数。
- 階級:データを区切った区間。例:40〜49点、50〜59点。
- 外れ値:ほとんどの値とかけ離れて極端に大きい(小さい)値。必ず「間違い」ではないが、代表値をゆがめることがあります。
1. 代表値(データを代表する数)
代表値は「データの中心」を表す数で、主に3つあります。
- 平均値(へいきんち):すべてを足してデータ数で割る。
平均 = (合計) / (データ数)
良い点:計算で1つに決まり、全体を反映しやすい。
注意:外れ値の影響を受けやすい。 - 中央値(ちゅうおうち):小さい順に並べたときの真ん中。
データ数が奇数:真ん中の1つ。
データ数が偶数:真ん中の2つの平均。
良い点:外れ値の影響を受けにくい。 - 最頻値(さいひんち):最も多く出てくる値。
良い点:「よくある値」が分かる。
注意:同じ回数の値が複数あることもあります(その場合は最頻値が複数)。
2. 散らばり(データの広がり)
代表値が同じでも、データのばらつきが違うことがあります。そこで散らばりを表す量を使います。
- 範囲(はんい):最大値 - 最小値。
例:最大 92、最小 45 なら範囲は 47。
注意:最大・最小だけで決まるので、外れ値があると大きく変わります。
3. 度数分布表とヒストグラム
データがたくさんあるときは、値をいくつかの階級に分けて整理します。
- 度数分布表:階級ごとの度数を表にまとめたもの。
- ヒストグラム:横軸に階級、縦軸に度数をとり、棒で表すグラフ。
読み取りのポイント:
- 棒が高い階級:その範囲のデータが多い(集まりやすい)。
- 右に偏る・左に偏る:点数が高い(低い)方に分布が寄っている可能性。
4. 箱ひげ図(中学で重要)
箱ひげ図は、データの散らばりと中心をまとめて見られる図です。次の5つの値を使います。
- 最小値
- 第1四分位数(Q1):小さい方から 1/4 あたり(下位25%の境目)
- 中央値(Q2)
- 第3四分位数(Q3):小さい方から 3/4 あたり(下位75%の境目)
- 最大値
箱ひげ図の読み取りポイント:
- 箱(Q1〜Q3)の長さ:中央50%の散らばりの大きさ(箱が長いほどばらつきが大きい)。
- 中央値の位置:箱の中央より片寄っていれば、データが片側に寄っている可能性。
- ひげ:全体の広がり(最小〜最大)。
※四分位数の求め方は学校のやり方(並べ方・区切り方)で少し違う場合がありますが、基本は「小さい順に並べて、半分、さらに半分」で考えます。
5. 散布図と相関(中2〜中3でよく扱う)
2つの数量の関係を見るときに散布図を使います。
- 散布図:横軸を x、縦軸を y として、データを点で表す。
- 正の相関:x が増えると y も増える傾向。
- 負の相関:x が増えると y は減る傾向。
- 相関がない:傾向がほとんど見られない。
注意:相関があるからといって、必ず「原因と結果」が言えるわけではありません。別の要因が関係している可能性もあります。
6. 代表値をどう選ぶか(判断の練習)
- 外れ値が少なく、全体を平均的に表したい → 平均値
- 外れ値があり、中心を公平に表したい → 中央値
- よくある値・人気の値を表したい → 最頻値
7. まとめ方(記述の型)
データを比較して説明するときは、次の型が便利です。
- 結論(どちらが高い/安定している など)
- 根拠(平均・中央値・箱の長さ・範囲など具体的数値)
- 補足(外れ値の有無、散らばり、偏り など)
例:「A組は平均が高いがばらつきも大きい。B組は中央値が高く、箱が短いので安定している」など、数値や図を使って説明します。
問題に挑戦
-
基礎:平均値
次の5つのデータの平均値を求めなさい。 6, 8, 9, 7, 10
ヒントを見る
合計を出して、データ数(5)で割ります。
答えを見る
合計は 6 + 8 + 9 + 7 + 10 = 40。平均値は 40/5 = 8。
-
基礎:中央値(奇数個)
次のデータの中央値を求めなさい。 12, 7, 9, 15, 10
ヒントを見る
小さい順に並べて、真ん中の値を探します。
答えを見る
小さい順に並べると 7, 9, 10, 12, 15。真ん中は 10 なので中央値は 10。
-
基礎:中央値(偶数個)
次のデータの中央値を求めなさい。 3, 8, 6, 10
ヒントを見る
小さい順に並べて、真ん中の2つの平均です。
答えを見る
並べると 3, 6, 8, 10。真ん中の2つは 6 と 8 なので、中央値は (6 + 8)/2 = 7。
-
基礎:最頻値
次のデータの最頻値を求めなさい。 4, 6, 6, 7, 8, 8, 8, 9
ヒントを見る
いちばん多く出てくる値を数えます。
答えを見る
8 が3回で最も多いので最頻値は 8。
-
基礎:範囲(散らばり)
次のデータの範囲を求めなさい。 22, 18, 25, 19, 31
ヒントを見る
最大値 - 最小値です。
答えを見る
最大値は 31、最小値は 18。範囲は 31 - 18 = 13。
-
標準:外れ値と代表値の選択
次のデータはある日の歩数(千歩)です。 6, 7, 7, 8, 8, 9, 25。このデータの中心を表すのに、平均値と中央値のどちらが適切だと考えられますか。理由も簡単に述べなさい。
ヒントを見る
25 が他より極端に大きいかどうかに注目します。
答えを見る
中央値が適切。理由:25 が外れ値のように極端に大きく、平均値はその影響で大きくなりすぎて「ふだんの歩数」を表しにくいから。並べると 6,7,7,8,8,9,25 で中央値は 8。
-
標準:度数分布表(度数を数える)
次のテストの点数(10人分)を階級 40〜49、50〜59、60〜69、70〜79、80〜89 に分けたとき、60〜69 の度数はいくつですか。点数:42, 55, 61, 67, 73, 78, 81, 69, 58, 64
ヒントを見る
60以上69以下に入る値を数えます(61, 67, 69, 64 など)。
答えを見る
60〜69 に入るのは 61, 67, 69, 64 の4つ。よって度数は 4。
-
標準:箱ひげ図の準備(五数要約)
次のデータを小さい順に並べ、最小値・中央値・最大値を求めなさい。 5, 12, 9, 7, 10, 8, 6
ヒントを見る
まず並べ替えます。データ数は7なので中央値は4番目。
答えを見る
小さい順:5, 6, 7, 8, 9, 10, 12。最小値 5、中央値 8、最大値 12。
-
応用:2つの集団の比較(代表値と散らばり)
A組とB組のテスト点(各6人分)が次の通りです。A組:60, 62, 63, 65, 90, 92。B組:58, 60, 62, 64, 66, 68。平均値と範囲をそれぞれ求め、どちらが「高得点」と言えそうか、どちらが「安定」と言えそうかを述べなさい。
ヒントを見る
平均=合計/6。範囲=最大-最小。外れ値のような高い点があるかも見ます。
答えを見る
A組の平均:(60+62+63+65+90+92)=432、432/6=72。範囲:92-60=32。B組の平均:(58+60+62+64+66+68)=378、378/6=63。範囲:68-58=10。高得点と言えそうなのは平均が高いA組。ただしA組は範囲が大きくばらつきが大きい。安定と言えそうなのは範囲が小さいB組。
-
応用:散布図の読み取り(相関)
あるクラスで「勉強時間 x(時間)」と「テスト点 y(点)」を調べたところ、点が右上がりに集まる散布図になりました。このとき、x と y の関係はどのように説明できますか。
ヒントを見る
右上がりは「x が増えると y も増える傾向」を表します。
答えを見る
勉強時間 x が増えるほどテスト点 y も高くなる傾向があるので、正の相関があると説明できます。ただし、相関があるだけで必ず因果関係(原因と結果)が断定できるとは限りません。
-
応用:データを文章でまとめる
次のデータ(8人分)の特徴を、代表値と散らばりを使って30〜60字程度でまとめなさい。 2, 3, 3, 4, 4, 4, 5, 12
ヒントを見る
外れ値(12)に触れ、平均と中央値の違いにも触れるとよいです。平均は外れ値の影響を受けます。
答えを見る
小さい順は 2,3,3,4,4,4,5,12。中央値は (4+4)/2=4、最頻値は4。12が外れ値で平均は大きめになりやすい。範囲は 12-2=10。