본문 바로가기
품질관리

통계 기초 그래프 활용 - Histogram, Box Plot, Scatter Plot

by ㉾℡®㉾℡® 2021. 4. 18.

미니탭(Minitap)에는 여러 통계 분석을 위한 그래프(Graph)가 여러 종류 있다. 대표적으로 Histogram, Dot Plot, Box Plot 등 현업에서도 자주 이용하는 그래프이다.

 

하지만 내가 원하는 결과를 확인하기 위해 적합한 그래프를 선택하는 것이 관건이다. 오늘 포스팅은 어떤 상황에 어떤 그래프를 써야하는 지 알게 될 것이다.

 

산포 확인

- Histogram

 

비교

- Box Plot

 

상관관계 확인

- Scatter Plot

 

그래프는 데이터를 시각화할 수 있다. 따라서 데이터를 통해 전체적 경향성을 한눈에 확인할 수 있는 장점이 있다. 미니탭의 그래프는 종류가 다양하다. 이 종류는 데이터가 이산형, 연속형이냐에 따라 구분된다.

 

이산형은 1, 2, 3 처럼 연속적이지 않고 따로 독립적인 데이터를 의미한다. 연속형은 길이, 무게 등과같이 연속적으로 연결된 데이터이다. 먼저, 그렇다면 각 조건별로 사용해야하는 그래프 종류에 대해 알아보자.

 

산포확인

산포는 데이터의 흩어진 정도이다. 그래프로 산포를 확인하기 위해서는 주로 Dot plot과 Histogram을 사용한다.

 

두 그래프는 둘 다 산포를 확인한다는 점에서 동일하다. 하지만, Histogram이 조금 더 보기 편하다. Dot plot은 데이터를 점으로 찍은 그래프다.

 

Histogram은 데이터의 변동을 시각적으로 표현한다. 이는 단순히 표에서는 확인하기 어려운 경향도 쉽게 확인할 수 있다. 이상점 확인은 그래프 모양을 통해 판단할 수 있다.

 

비교

- Box plot

Box Plot은 데이터 그룹간 분포 비교에 효과적인 그래프이다. 또한 데이터의 분포와 이상치 판별에 용이하다. Box Plot은 총 5개의 통계량으로 구성된다.

  1. 최소값
  2. 제1사분위수
  3. 중앙값
  4. 제3사분위수
  5. 최대값

 

- Box Plot의 특징

  • Box Plot의 중심에는 선은 평균(Mean)이 아니라 중앙값(Median) 이다. 평균의 위치는 데이터의 분포에 따라서 달라질 수 있다. Box Plot 내의 상자 크기가 비대칭인 경우에는 면적이 더 작은 부분에 유사한 크기의 데이터가 밀집되어 있다고 판단할 수 있다.
  • Box는 전체 데이터의 50%를 나타낸다. Box Plot의 Box는 데이터 전체를 나타내고 있다고 오해할 수 있다. 하지만 Box는 전체 데이터의 50%다.
  • Box Plot는 데이터 분포를 파악할 수는 없다. Box Plot은 위에 설명한 5개의 통계량을 한눈에 파악할 수 있는 장점이 있다. 하지만, 데이터 분포 확인은 꼭 Histogram을 따로 확인해야 한다.

상관관계 확인

- Scatter Plot

Scatter Plot은 한국말로 '산포도'이다.

 

Scatter Plot의 특징

  • 두 변수간의 상관관계를 파악할 수 있다. 또한, 선형회귀분석을 통해 선형방정식을 도출할 수 있다.
  • 산점도는 상관관계를 알 수는 있지만, 인과관계는 알 수 없다.

댓글