[WIP]マンガでわかる統計学をRでやってみる(1)

タイトルの通りなのだが、統計学を学べる初心者向けの良書として挙がる「マンガでわかる統計学」の内容をRで実践してみようという試みである。
実際のこの書籍には「Excelで計算してみよう」という付録が巻末についている。これをExcelではなくRでやってみようということた。

第1章

は、やることがないので飛ばす。

第2章

度数分布表とヒストグラム

ラーメン屋のデータを使って度数分布表を求めているので、同様に求めます。
データを入力したcsvファイルbest50.csvを用意しておいて、それを読み込むところから。

hist関数は、デフォルトでは階級が 「○○より大きくて■■以下」となっている。
書籍では、階級の範囲は「○○以上■■未満」となっているので、区間の両端が含まれるかどうかの指定right =right = FALSEとして「○○以上■■未満」を実現する。
また、seq(500,1000,100)は、seq(min(x),max(x),階級の幅) を指定している。

Rplot


平均

ボーリング大会の結果から各チームの平均スコアを求める。

各チームのスコアをデータフレームにする。

データフレームを出力してみる。

各チームの平均を求める。
せっかくデータフレームなので一気に求めてしまう。

colMeans 関数便利ですね。

中央値

ボーリング大会の結果から中央値を求める。
中央値とはデータを小さな順に並べた際に真ん中に位置する値のこと。
データの個数が奇数なら真ん中の人が、データの個数が偶数なら、「データの個数/2」番目と「データの個数/2 + 1」番目の平均が中央値となる。

各チームの中央値を求めてみます。

colMean みたいな便利なやつないんですかね。

標準偏差

標準偏差とは散らばりの程度をあらわす指標。具体的には平均からのズレをあらわす指標である。
標準偏差は次のような特長を持つ。

  • 最小値が0
  • データの「散らばりの程度」が大きいほど値が大きくなる

標準偏差 = √ (個々のデータ – 平均)^2 を足したもの / データの個数

ひとまず部分部分を求めていく。

まずは平均

次に個々のデータ - 平均

そして(個々のデータ - 平均)^2

つづいて(個々のデータ - 平均)^2 を足したもの

最後に√ (個々のデータ - 平均)^2 を足したもの / データの個数

ここまでできたので、Bチームの標準偏差は一気に求めてしまいます。

例題

第二章の最後に例題が掲載されていますのでこちらをやってみたいと思います。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする