Part 04 통계분석
Section 01 자료분석
핵심 포인트: 변수의 특징, 질적변수, 양적변수, 이산변수, 연속변수
출제빈도:하
01 자료분석
자료분석은 데이터에서 변수와 관측치를 확인함. 또한, 모수(전체)를 대상으로 분석할 수가 없으므로 표본을 추출하여 자료를 분석함.
- 해당분야의 관련지식과 통계지식을 사용해서 최선의 의사결정을 하기 위해 자료를 정리하고 분석하는 활동
- 자료분석을 위해서 변수와 상수 사용. 변수(Variable)는 값이 달라질 수 있는 것[ex. 혈압, 키, 나이 등]. 상수(Constant)는 값이 달라지지 않는 것
- 관측치는 모집단으로 추출된 표본의 수
▶ 자료분석
모수(Parameter)
- 전체 집단을 설명하는 진실된 값. 통계는 전수조사를 할 수 없기 때문에 모수와 표본 간의 오차 범위를 예측하는 것
- R 프로그래밍으로 통계분석을 위해서 관측치와 변수를 확인함
▶ R 스튜디오에서 관측치와 변수 확인
- R에서 dim() 함수를 사용하면 관측치와 변수를 확인할 수 있다.
- head() 함수는 데이터에서 상위 6개의 데이터를 조회해서 화면에 출력한다.
▶ R 스튜디오에서 변수 및 데이터 타입 확인
- str() 함수를 사용하면 변수리스트와 변수의 데이터 타입(int: 정수, num: 실수, factor: 범주형)을 확인할 수 있다.
잔차(Residual)
- 관측 값과 계산 값의 차이를 의미하며 잔차를 연구하여 각종 오차를 계산함.
02 변수(Variable)
- 측정결과가 조사대상과 다른 값으로 나타날 수 있는 속성 혹은 특성
- 변수는 속성을 수량화할 수 있는지 여부에 따라서 양적변수와 질적변수로 구분됨.
- 또한 변수가 어떠한 값이라도 가질 수 있는지 아니면 특정 수치만 가질 수 있는지에 따라서 연속변수 및 비연속변수로 구분됨.
- 변수들 간의 상호관련성, 즉 인과관계가 있는지에 따라서 독립변수와 종속변수로 구분됨
▶ 변수들 간의 관계
1) 독립변수와 종속변수
- 변수는 독립변수와 종속변수로 분류될 수가 있고 독립변수는 원인이 되는 변수로 종속변수에 영향을 주는 변수임.
▶ 독립변수와 종속변수
구분 |
내용 | |
독립변수 (Independent variable) |
설명변수로 원인이 되는 변수 | |
종속변수 (Dependent variable) |
결과변수로 독립변수에 영향을 받아서 결과가 되는 변수 |
2) 질적변수와 양적변수
※ 변수는 질적변수와 양적변수로 구분됨. 질적변수는 수치로 나타낼 수 없는 변수이고, 양적변수는 수치로 나타낼 수 있는 변수
- 변수는 데이터의 형태에 따라서 질적변수와 양적변수로 분류되며 질적변수는 수치로 나타낼 수 없는 변수이고, 양적변수는 수치로 나타낼 수 있는 변수
- 질적변수는 빈도를 분석하고, 양적변수는 평균, 분산 등으로 계산될 수 있음.
▶ 질적변수와 양적변수
구분 |
내용 | |
질적변수 (Qualitative variable) |
수치로 나타낼 수 없는 변수 ex. 회사명, 직종, 혈액형 등 |
|
양적변수 (Quantitative variable) |
수치로 나타낼 수 있는 변수 ex. 체중, 온도, 나이, 키 등 |
3) 이산변수와 연속변수
- 이산변수는 하나하나 셀 수 있는 정수 값을 가지고 있는 변수이고 연속변수는 소수점 이하의 값을 가질 수 있는 변수를 의미
▶ 이산변수와 연속변수
구분 |
내용 | |
이산변수 (Discrete variable) |
셀 수 있는 정수 값을 가지고 있는 변수 ex. 학생수, 직원수 등 |
|
연속변수 (Continuous variable) |
소수점 이하의 값을 가질 수 있는 변수 ex. 온도, 체중 등 |
4) 명목변수와 서열변수
※ 명목변수는 범주를 구분하기 위해서 각 범주에 수치를 부여
- 명목변수는 자료를 서로 다른 범주로 구분해서 수치화하고 서열변수는 자료에 서열을 매기기 위해서 사용되는 변수
▶ 명목변수와 서열변수
구분 |
내용 | |
명목변수 (Nominal variable) |
자료를 서로 다른 범주로 구분하며, 각 범주에 수치를 부여함 ex. 1은 남성, 2는 여성으로 부여 |
|
서열변수 (Ordinal variable) |
자료에 서열을 부여하기 위해서 수치를 사용 ex. 1은 만족, 2는 보통, 3은 불만족으로 구분 |
5) 등간변수와 비변수(비율변수)
▶ 등간변수와 비율변수
구분 |
내용 | |
등간변수 (Interval variable) |
자료를 서열뿐만 아니라 상대적 차이까지 제시함 ex. 온도 20도와 30도의 차이는 10도 |
|
비율변수 (Ratio variable) |
자료를 분류, 서열, 차이와 함께 절대영점까지 표현함 ex. 키 180cm=90cm X 2배 |
'공부 끄적끄적 > ADsP' 카테고리의 다른 글
[ADsP] Part 4_section 02_표본조사 (0) | 2022.04.18 |
---|