반응형
Notice
Recent Posts
Recent Comments
Link
«   2025/06   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30
Archives
Today
Total
관리 메뉴

GBEY

[통계학] 기초통계 복습 #1 - 변수, 분포, 평균 등 본문

데이터분석

[통계학] 기초통계 복습 #1 - 변수, 분포, 평균 등

리스보아 2023. 8. 20. 21:22
반응형

변수, 분포, 평균 등 기초 통계 복습하기

 

목차

연속변수 vs 이산형변수

분포

표준편차

정규분포

편포도

평균, 중앙, 최빈값

 

 


 

🔹 연속변수(Continuous) vs 이산형 변수(Discrete)

이산형 변수

불연속 변수는 몇 개의 값 중 하나가 될 수 있고,

그 사이의 값은 될 수 없다.

도시: 서울, 부산, 대구, 포항, ...

 

 

또한, 어느 데이터베이스에서 설정한 특정 그룹의 값이 될 수도 있다.

Age Group: 20대, 30대, 40대...

 

 

발 사이즈는 8.1(inch) 등 연속 변수이지만 신발 사이즈는 이산형 변수이다.

신발 사이즈: 230, 235, 240, ...

 

연속 변수

연속 변수는 그 값의 한계가 있는 동시에 그 사이의 어느 값이든 될 수 있다.

은행 잔고: 100만원, 1000만원, -100만원(신용카드), 133,222,333원 등

 

 

그렇다면 나이는 연속 변수일까, 이산형 변수일까?

 -> 데이터베이스의 셋팅마다 다름

만약 나이를 출생년도로만 받는다면 월, 일은 모르므로 특정 값만 될 수 있음 -> 불연속 변수

 

 

 

🔹 분포(Distribution)

분포의 정의?

A probability distribution is a mathematical function that, stated in simple terms, can be thought of as providing the probability of occurrence of different possible outcomes in an experiment.
- Wikipedia

 

보통 분포를 생각하면 차트를 떠올리지만 분포는 기저 데이터 및 관찰과 연결되어있는 수학적 함수다.

 

만약 어떤 데이터베이스에서 나이 컬럼의 데이터들 중 하나를 고른다면?

59, 26, 21, 32... 이런 값들을 결과값으로 얻을 확률을 알려주는 함수이다.

 

또는,

고객 명단에서 어떤 사람이 남성일 확률?

어떤 사람의 잔고가 197.33 달러일 확률?

어떤 사람의 성별이 남자일 확률?

 

 

이산형 변수의 그래프 (ex. 나이)

아래 그래프는 불연속 변수의 확률을 설명해주는 그래프.

P(x = 30~40) = 0.3 이라는 뜻은

어떤 고객이 30~40대일 확률이 30%라는 뜻이다.

불연속 변수의 확률에 대한 그래프

 

연속 변수의 그래프 (ex. 잔고)

아래 그래프의 가로축은 잔고($) 인데, $10,000 일 확률이 0.5(50%)라는 뜻이 아니다.

연속 변수의 경우에는 한 가지 값이 될 확률은 0에 수렴한다.

연속 변수의 확률을 구하기 위해서는

두 지점을 잡고 곡선 아래의 면적을 구해야 한다. (적분해서 구할 수 있음)

불연속 변수의 확률을 나타내는 그래프

 

 

🔹 표준편차

은행 고객 테이블에 5명의 데이터가 있고, 키(단위 inch)를 살펴보기로 하자.

5명의 키는 61.2, 62, 65.1, 70.4, 70.9 이다.

 

이때의 평균은

61.2 + 62 + 65.1 + 70.4 + 70.9 / 5 = 65.92

 

하지만 평균은 데이터에 대한 정보를 많이 주지 못한다.

데이터가 흩어져 있는 정도는 더 많은 정보를 준다.

 

* 범위 (최대값 - 최소값)

이상치 등이 있을 때 의미있는 정보를 주지 못함

 

* 분산(Variance)

각 변수가 평균으로부터 얼마나 떨어져 있는지를 알려줌

각 데이터가 평균 근처에 많이 분포하면 분산은 낮고

평균에서 멀리 떨어져 있다면 분산은 높을것

분산 공식

(수학공식 쓰는거 진짜 힘드네🤪)

 

이 경우 분산을 구해보면 16.64

 

 

* 표준편차(Std. Dev.)

분산에 제곱근을 취한 값

분산도, 표준편차도 널리 쓰이지만 표준편차의 좋은 점은 데이터와 단위가 맞다는 것.

(분산은 제곱하였기 때문에)

 

표준편차를 구해보면 4.08

인치를 다루고 있었기 때문에 단위가 일치하게 됨

 

평균, 분산, 표준편차를 그리스 문자로 쓰면?

평균: μ

분산:  σ^2

표준편차: σ

 

 

🔹 정규분포(Normal Distribution)

정규분포도

평균을 0이라 하면,

어떤 값이 -1σ ~ σ 범위가 될 확률은 34.1 + 34.1 = 68.2% 가 된다.

어떤 값이 -2σ ~ 2σ 범위가 될 확률은 95.6% 가 된다.

(그래프 아래 %값을 다 더해보면 95.4가 나오는데 강의에서는 95.6 이라고 하는데 이유 아시는 분?😅)

 

왜 정규분포가 대단할까?

이 세상의 많은 것들이 정규 분포를 따르기 때문.

예를들면, 20살 남녀의 키 분포 등!

 

중심 극한 정리를 통해 왜 세상 많은 것들이 정규분포를 따르는지 알 수 있다.

--> 나중에 살펴보기!

 

 

🔹 편포도 or 왜도(Skewness)

좌측 편포와 우측 편포 그래프

튀어나온 부분을 보고 좌측 편포인지 우측 편포인지 판단하면 반대임!

꼬리를 보고 판단해야함.

좌측에 이상치가 많을 경우 좌측에 꼬리가 생김 : 좌측 편포

우측에 이상치가 많을 경우 좌측에 꼬리가 생김 : 우측 편포

 

 

🔹 평균, 중앙, 최빈값(Mean, Median, Mode)

* 평균:

   모든 데이터를 더해서 갯수로 나눈 값

* 중앙값:

   데이터를 일렬로 나열했을 때 좌측, 우측에서 동일하게 이동해서 가운데에 있는 값

   -> 중복된 데이터도 포함해서 세야 함! (분포도가 아니라 데이터 중심으로 생각하기)

   -> 이상치가 있다고 해도 평균처럼 영향을 받지 않음

중앙값 설명

* 최빈값:

가장 많이 나오는 값!

확률 밀도 함수에서 그래프의 최고점에 해당됨

 

반응형