TidyData

의미

TidyData는 "변수는 열, 관측은 행"이라는 핵심 원칙을 통해 데이터 정리의 복잡도를 크게 낮추고, 데이터 형식 변환보다 비즈니스 문제에 더 집중할 수 있게 합니다.

논문

논문 저자는 Hadley Wickham입니다. 이 논문은 데이터 처리의 작은 모듈인 데이터 정리를 다룹니다. 정돈된 데이터셋은 조작, 모델링, 시각화가 쉽고 특정한 구조를 갖기 때문입니다.

이 논문은 읽어보는 것을 강력히 권장합니다. Tidy Data를 참고하세요.

VSeed에서의 TidyData

VSeed DSL의 dataset 설정은 TidyData 형식의 데이터셋입니다.

핵심 특징:

  1. 각 변수는 하나의 열: 변수 값은 "나이", "성별"처럼 별도 열에 저장됩니다.
  2. 각 관측은 하나의 행: 하나의 관측 대상에 대한 모든 변수 값이 하나의 행을 이룹니다. 예를 들어 한 사람의 나이와 성별 정보입니다.
  3. 각 관측 단위는 하나의 테이블: 사람, 시간, 장소처럼 서로 다른 유형의 관측 단위는 분리해 저장해야 합니다.

따라서 SQL 쿼리 결과를 추가 데이터 처리 없이 VSeeddataset 설정에 직접 전달할 수 있으며, 빠르게 분석과 시각화를 수행할 수 있습니다.