[WIP]データフレームについて

データフレームとは

data.frame クラスを持つリストのこと。
データフレームは表形式(矩形)データ構造のため、行と列を持つ。しかし行列で実装されているわけではなくリストである。

  • 数値、文字、因子(文字型)など異なる型のデータを持つ
  • 各行列は必ずラベルを持つ
  • ラベルによる操作が可能
  • 各列の要素の型は異なっていてもokay
  • すべての列は同じ高さでなければならない
  • 同じ高さの列により矩形となる

データフレームを使ってみる

データの準備

R には有名なデフォルトで使えるデータセット iris というのがあります。iris とはあやめの花のこと。こちらを使ってデータフレームでできることを試してみます。
R で以下のように打ってみます。

するとこんなふうに出力されます。

データの数が150個、変数が5つあることが確認できます。
5つの変数とは以下です。

  • Sepal.Length:がく片の長さ
  • Sepal.Width:がく片の幅
  • Petal.Length:花びらの長さ
  • Petal.Width:花びらの幅
  • Species:あやめの種類

さらにデータの型を確認してみます。

iris はデータフレームであることがわかります。iris を利用すると、データを作成する手間が省けて便利です。
ここまでがデータフレーム型のデータの準備です。

データフレームへのアクセス方法

データフレームはリスト構造と矩形構造の両方なので、以下のような方法でアクセスできます。

  • リスト演算子を使ってデータフレームから列を抽出
    • データフレーム[i]、データフレーム[[i]]、データフレーム$変数名
  • 行列形式の表記法でアクセス
    • データフレーム[i,j」、データフレーム[i,]、データフレーム[,j]

では実際に。

指定した変数のデータだけを取り出す

がく片の長さのデータだけを取り出したい場合

出力結果は省略しますが、このように変数名を指定してそのデータだけを取り出すことができます。

指定した変数の平均

平均値を算出します。

データを要約

summary 関数が使えますので、列ごとのデータの特長をあっというまに把握することができます。

iris には Species が3種類あって、それぞれ50個のデータが保存されていることもわかりますね。
ついでに、by 関数を使って Species ごとの要約統計量を出してみます。
by(データフレーム名, 層別する変数名 ,summary) に形式に従います。すると以下のような結果が得られます。

スポンサーリンク

シェアする

  • このエントリーをはてなブックマークに追加

フォローする