TidyData
意義
TidyData は「変数を列、観測を行にする」という中核原則によって、データクリーニングの複雑さを大幅に下げ、データ形式変換ではなくビジネス課題に集中できるようにします。
論文
論文の著者は Hadley Wickham です。この論文は、データ処理の小さなモジュールであるデータ整理について論じています。整然としたデータセットは操作、モデリング、可視化が容易で、特定の構造を持つためです。
この論文は読むことを強くおすすめします。Tidy Data を参照してください。
VSeed における TidyData
VSeed DSL の dataset 設定は TidyData 形式のデータセットです。
中核的な特徴は次のとおりです。
- 各変数が 1 列: 変数の値は「年齢」「性別」のように個別の列に保存されます。
- 各観測が 1 行: 1 つの観測対象に関するすべての変数値が 1 行を構成します。たとえば、ある人の年齢と性別の情報です。
- 各観測単位が 1 テーブル: 人、時間、場所など、異なる種類の観測単位は分けて保存するべきです。
したがって、SQL クエリの結果は追加のデータ処理なしで、VSeed の dataset 設定へ直接渡せます。これにより分析と可視化をすばやく行えます。