Home [BoostCamp AI Tech / Level 1 - Data Viz] Day11 - Introduction
Post
Cancel

[BoostCamp AI Tech / Level 1 - Data Viz] Day11 - Introduction

Data Viz : Introduction


Introduction

출처: https://boostlabs.com/blog/10-types-of-data-visualization-tools/

데이터 시각화(Data Visualization) 는 ML/DL을 진행하기 이전에 사용하는 데이터의 전반적인 분포를 확인하고 전처리를 진행하기 위해 필요한 과정이다. 시각화는 데이터를 바라보는 관점이 중요한데, 관점뿐 아니라 여러가지를 고려해서 시각화를 진행해야한다.

시각화의 요소

  • 목적
    데이터 시각화를 진행하기에 앞서 왜 시각화를 진행하는가? 가 중요하다. 주식 데이터라면 주가의 흐름을 보기 위해서, 의료 데이터라면 어떤 환자의 특성이 질병과 관련이 높은지 등을 보게된다.
    통계적인 수치가 드러나는 내용들을 시각적으로 표현한다면 데이터가 직관적으로 더 와닿을 것이다.
  • 독자
    이 시각화 자료를 누가 읽는가? 도 중요한 시각화의 요소이다. 연구자가 보는 것과 기업 매니저가 보는 시각은 당연히 다를 것이다. 많은 데이터 시각화는 일반적인 사람들 혹은 대회 참가자들에게 제공되는 시각화인 경우가 많아 일반화된 시각화를 많이 진행한다.
  • 데이터
  • 스토리
  • 방법
  • 디자인

개인적으로 위에 언급한 요소들 중 주의깊게 고려하는 것은 데이터디자인이다. 데이터의 특성에 따라 표현해야하는 방식이 달라지기도 하고 바라봐야하는 관점도 달라지기 때문이다. 또한 디자인은 데이터를 조작할 수 있는 요소이기 때문에 매우 주의를 기울여야하는 부분이다. 통계의 함정이라는 말이 존재하듯이 데이터를 시각화한 결과는 그래프의 축, 원형 데이터의 비율과 같은 것들을 조절하면 데이터 수치를 건드리지 않고 사람들에게 데이터를 조작한 것과 같은 효과를 주게된다.

찬성이 82.9%지만 마치 50%정도로 보이게 표현하고 있다. (출처: MBN 판도라)

디자인은 특히 데이터를 바라보는 가장 중요한 요소인데, 우리는 객관적인 시각을 갖고 있다는 착각을 하고 있기 때문이다. 하지만 우리의 눈은 생각보다 객관적이지 않다. 사람을 많은 에너지를 소모하는 것을 피하는 방향으로 진화했기 때문에 직관적인 표현을 우선으로 인식한다. 그렇기 때문에 시각화를 진행하는 사람은 이와 같은 것을 반드시 고려해야한다.

우리의 눈은 생각보다 부정확하다.

데이터

데이터의 종류에 맞춰 시각화를 보는 관점도 다른데, 데이터셋의 형태에 따라 어떤 point로 시각화를 할 지 알아보자

정형 데이터

정형데이터는 가장 자주 접하게되는 데이터셋이다. 테이블 형태로 주어지는 데이터이며 일반적으로 csv, tsv 형태로 데이터가 제공된다. Row가 1개의 item, Column이 attribute(feature)를 의미한다.

  • 시각화 Point
    • 통계적 특성과 feature간의 관계
    • 데이터 간의 관계
    • 데이터 간 비교

시계열 데이터

시계열 데이터는 시간의 흐름을 갖는 데이터이다. 시간적 흐름의 특징을 잘 살려야하고 계절성, 추게와 같은 특징을 살려야한다.

  • 시각화 Point
    • 추세(Trend)
    • 계절성(Seasonal)
    • 주기성(Cycle)

지리/지도 데이터

지도 데이터는 단순 지도 위치만의 의미보다는 주위의 정보를 활용하는 것이 중요하다.

  • 시각화 Point
    • 주변 정보의 활용
    • 거리, 경로 등의 정보

관계 데이터

출처 : http://www.martingrandjean.ch/network-visualization-shakespeare/

관계 데이터는 그래프로 표현하는 데이터에 많이 활용하는 경우가 많다. 그래프의 특수한 형태인 트리의 형태로 표현하는 경우가 많으며 객체간의 관계를 나타낸다.

  • 시각화 Point
    • 객체는 Node로 관계는 Link로 표현
    • 크기, 색, 수 등으로 가중치를 표현
    • 휴리스틱하게 노드를 배치
    • 관계 데이터에서 포함관계가 존재한다면 Tree, Treemap 등으로 표현하기도 한다.
This post is licensed under CC BY 4.0 by the author.

[Elastic Search] Elasticsearch의 구조

[BoostCamp AI Tech / Level 1 - Data Viz] Day11 - Basic Plots

Comments powered by Disqus.