15.データの分析

1.データの階級と度数
[b][size=100][size=150][b][size=100][size=150][color=#999999]このページは電子ブック「[i][url=https://www.geogebra.org/m/vffm84sw]探求 数学[/url]Ⅰ」の一部です[/i]。[/color][br][/size][/size][/b][/size][/size][/b][br]25人のデータがあるとする。[br]身長の高い順に並んでもらったときのデータです。[br]身長={ 180,179,179,179,178, 178,176,176,175,173, [br]    171,171,170,169,169, 165,165,164,163,162,[br] 160,158, 158,155,153}[br]25人の集団の特徴を知るためには、単純化をするのがよい。[br]そのためにデータの値の範囲を一定に区切る。これが[color=#0000ff][b]階級(ranks, classes)[/b]。[br][/color]階級ごとのデータ数を[color=#0000ff][b]度数(degree)[/b]という。[br]これを表にしたものが「度数分布表」、[br]グラフにしたものが「[b][u]ヒストグラム(Histo[/u]gram)[/b]」。[/color][br]階級の幅によっては、データ分布のようすが違って見えることがある。[br]これは、データの疎密差が大きいときにおきる。 [br][br][br]
2.データを代表する値
[br][color=#0000ff][b]平均値(average,mean、略してm)[/b][/color]:[i]m[/i]=合計÷データの個数[br][color=#0000ff][b]最頻値(mode)[/b][/color]:個数が最も多い値(階級の場合は[b]階級の中央値[/b])[color=#0000ff][br][b]中央値(median)[/b][/color]:データを値の大きさの順に並べたときの[b]中間の順位[/b]にくる値。[br]データ数が偶数のときは、2数の平均値。[br][color=#0000ff][br][b]四分位数(quartile1,2,3)[/b][/color]:データの4等分の境目の値。まず、データを中央値で2等分する。[br][b]・[u]中央値未満[/u][/b][b][u]のデータの中央値[/u][/b]を[color=#0000ff]第1四分位数[/color](quartile1)という。[br]・もともとの中央値を、[color=#0000ff]第2四分位数[/color](quartile2=median)という。[br][b]・[u]中央値より大[/u][/b][b][u]のデータの中央値[/u][/b]を[color=#0000ff]第3四分位数[/color](quartile3)という。[br]3つの四分位数の分布を数直線上の箱にかき、[br]最小値までの線、最大値までの線をひげにしてつけた図を[color=#0000ff][b][u]箱ひげ図(Box[/u]plot)[/b][/color]という。[br]最小値、最大値、3つの四分位数の5数でデータを特徴づけることから、5数要約ともいう。[br]範囲=最大値ー最小値、つまりデータ範囲[br]四分位範囲=第3四分位ー第1四分位、つまり、箱の長さ。[br]四分位偏差=四分位範囲÷2、つまり、データの散らばり具合。平均とは関係ない。[br][br][b]分散([color=#0000ff]variance[/color] 略してv)[/b]:データの平均からのデータのバラツキ。[br]v=[math]\frac{1}{n}\sum\left(x-m\right)^2[/math]。データと平均の差を[color=#0000ff]偏差[/color]という。[br][color=#0000ff][b]分散=偏差の2乗の平均[/b][/color]したもの。[br](例)式変形により、[color=#0000ff][b][size=150]分散=(2乗の平均)ー(平均の2乗)[/size][/b][/color][br][br][math]v=\frac{1}{n}\sum\left(x-m\right)^2=\frac{\sum\left(x^2-2m\cdot x+m^2\right)}{n}=\frac{\sum x^2}{n}+\left(-2m\right)\frac{\sum x}{n}+\frac{\sum m^2}{n}=\frac{\sum x^2}{n}+\left(-2m^2\right)+m^2=\frac{\sum x^2}{n}-\left(\frac{\sum x}{n}\right)^2[/math][br][b][color=#0000ff][size=150]標準偏差(standard deviation[/size][/color][/b]略して、[b]sd[/b]):[math]sd=\sqrt{v}[/math]。[b]分散の平方根[/b]。[br]ルートすることで、分散の次元を変量と同じにし足し引きできるようにしたものに意味がでる。[br]偏差値:平均を偏差値50とすると、SDが偏差値10の差に相等とする。[br](例)平均点が30点で、標準偏差が15点のテストの場合、[br]0,15,30,45,60,75(点)の順に偏差値30,40,50,60,70,80になる。[br]
3.2つの項目の関連を見る
[b][size=150]<相関係数の求め方>[/size][/b][color=#0000ff][br]相関(correlation, interrelation)[/color]には正と負がある。[br][color=#0000ff]正の相関[/color]があるのは、一方の増加が他方の増加に関係があるとみられるとき。[br]相関を見やすくするための図が[color=#0000ff][u]散布図(Scatter[/u]Plot)[/color]です。[br][color=#0000ff]負の相関[/color]は反対の動きが見られるとき。[br][color=#0000ff]無相関[/color]は変化の連動性がみられないとき。[br][br][color=#0000ff](例)[/color]25人の身長と体重の関係を調べると、[br]比例はしないが身長が大きい人は体重が大きいという、ざっくりとした傾向がみられるとしたら、[br]身長と体重には正の相関があると言える。[br]学校外での1日の平均学習時間と体重には関係がみられないとしたら、無相関。[br]1日の運動時間が長い人はおよそ、体重が少なくなる傾向があるとしたら、[br]負の相関があると言える。[br][br][color=#0000ff][b]共分散:データと平均の差を偏差という。[br][/b][/color] 2項X,Yについてのx偏差とy偏差の積の平均をxyの[color=#0000ff]共分散(covariance)[/color]という。[br][math]Sxy=\frac{1}{n}\sum\left(x-m_x\right)\left(y_{ }-m_y\right)[/math][br]xy平面を2直線x=mx, y=myで切り分けることで、4種のデータに分けられる。[br][color=#0000ff][b]X=x-mx,Y=y-myとすると、X、Yともに正だとXYも正、X,Yのともに負でもXYが正になる[/b][/color]。[br]この2つの領域にデータの大半があるならば、データ全体は(X,Y)=(0,0)を通る右上がりの[br]直線に多く分布するから、共分散が正で絶対値が増えると正の相関が高いことに対応する。[br]逆に、X,Yの正負が反対の場合は、平均からのXの変位とYの変位が逆になるデータが多くなり、[br]積XYが負のデータが多くなる。だから、XY総和の平均である共分散が負になっていく。[br][br][color=#0000ff]相関係数(correlation coefficeant)[/color]:2量の共分散Sxyを2量の変量の標準偏差の積SxSyで割った商。[br] r=[math]\frac{1}{n}\sum\left(x-m_x\right)\left(y-m_y\right)\cdot\frac{1}{\sqrt{\frac{1}{n}\sum\left(x-m^x\right)^2}\sqrt{\frac{1}{n}\sum\left(y-m_y\right)^2}}=\frac{\sum\left(x-m_x\right)\left(y-m_y\right)}{\sqrt{\sum\left(x-m_x\right)^2}\sqrt{\sum\left(y-m_y\right)^2}}[/math][br][b][size=150]<相関係数の性質>[br][/size][/b][color=#0000ff]「相関係数の絶対値は1以下である。」[br][/color]n人のXとYの偏差データを、n要素をもつaベクトル、bベクトルとする。[br]r=aとbの内積/(aの大きさ・bの大きさ)[br]=[math]\frac{\left(a\cdot b\right)}{\parallel a\parallel\parallel b\parallel}[/math]=cosθ(θは2つのベクトルの作る角)[br][br]r=cosθは-1以上1以下。[br][b]r=0のとき、θ=90°(無相関)。[/b][br]r=1のとき、 θ=0(最大の正の相関)2つのベクトルは同じ向きに重なる。[br]r=-1のとき、θ=180°(最大の負の相関)2つのベクトルは逆向きに1直線になる。[br][br]また、コーシーシュワルツ不等式∑a[sup]2​[/sup]∑b[sup]2[/sup]​≥(∑​a​b​)[sup]2[/sup]からも、[math]1\ge\frac{\left(\sum ab\right)^2}{\sum a^2\sum b^2}[/math]と言える。[br]右辺は相関係数の2乗である。[br]だから、相関係数の絶対値は1以下。[br][color=#0000ff]「相関係数は単位によらない」[br][/color]・xに[b]k倍のx[/b]を代入すると、[br]xの偏差がk倍になるので、∑の性質から、[b]共分散[/b]はk倍になる。[br]xの[b]標準偏差[/b]もk2乗倍の和のルートでk倍になる。[br][b]相関係数[/b]の分母、分子ともにk倍になるので[b]k倍の影響は相殺[/b]される。[br]

Information: 15.データの分析