TidyData

意义

TidyData 通过 “变量为列、观测为行” 的核心原则,大幅降低了数据清洗的复杂度,使我们能更专注于业务问题而非数据格式转换。

论文

论文作者Hadley Wickham, 论文讨论数据处理中的一个小模块, 数据整理, 因为整洁的数据集易于操作、建模和可视化,并且具有特定的结构.

该篇论文, 非常建议阅读, 请查阅: Tidy Data

TidyData 在 VSeed 中的应用

VSeed DSL 中的dataset配置就是 TidyData 格式的数据集.

核心特征如下:

  1. 每个变量一列:变量值存储在单独列中,如 “年龄”“性别”。
  2. 每个观测一行:每个观测对象的所有变量值构成一行,如一个人的年龄和性别信息。
  3. 每种观测单位一个表:不同类型的观测单位(如人、时间、地点)应分开存储。

因此SQL查询的结果, 可以直接传入VSeeddataset配置中, 无需额外的数据处理, 即可快速进行分析与可视化.