TidyData

意義

TidyData は「変数を列、観測を行にする」という中核原則によって、データクリーニングの複雑さを大幅に下げ、データ形式変換ではなくビジネス課題に集中できるようにします。

論文

論文の著者は Hadley Wickham です。この論文は、データ処理の小さなモジュールであるデータ整理について論じています。整然としたデータセットは操作、モデリング、可視化が容易で、特定の構造を持つためです。

この論文は読むことを強くおすすめします。Tidy Data を参照してください。

VSeed における TidyData

VSeed DSL の dataset 設定は TidyData 形式のデータセットです。

中核的な特徴は次のとおりです。

  1. 各変数が 1 列: 変数の値は「年齢」「性別」のように個別の列に保存されます。
  2. 各観測が 1 行: 1 つの観測対象に関するすべての変数値が 1 行を構成します。たとえば、ある人の年齢と性別の情報です。
  3. 各観測単位が 1 テーブル: 人、時間、場所など、異なる種類の観測単位は分けて保存するべきです。

したがって、SQL クエリの結果は追加のデータ処理なしで、VSeeddataset 設定へ直接渡せます。これにより分析と可視化をすばやく行えます。