본문 바로가기
공부 끄적끄적/ADsP

[ADsP] Part 4_section 01_자료분석

by yejineee 2022. 4. 18.

Part 04 통계분석

Section 01 자료분석

핵심 포인트: 변수의 특징, 질적변수, 양적변수, 이산변수, 연속변수

출제빈도:하


01 자료분석

자료분석은 데이터에서 변수와 관측치를 확인함. 또한, 모수(전체)를 대상으로 분석할 수가 없으므로 표본을 추출하여 자료를 분석함.

 

  • 해당분야의 관련지식과 통계지식을 사용해서 최선의 의사결정을 하기 위해 자료를 정리하고 분석하는 활동
  • 자료분석을 위해서 변수와 상수 사용. 변수(Variable)는 값이 달라질 수 있는 것[ex. 혈압, 키, 나이 등]. 상수(Constant)는 값이 달라지지 않는 것
  • 관측치는 모집단으로 추출된 표본의 수

▶ 자료분석

 

모수(Parameter)
- 전체 집단을 설명하는 진실된 값. 통계는 전수조사를 할 수 없기 때문에 모수와 표본 간의 오차 범위를 예측하는 것

 

  • R 프로그래밍으로 통계분석을 위해서 관측치와 변수를 확인함

▶ R 스튜디오에서 관측치와 변수 확인

  • R에서 dim() 함수를 사용하면 관측치와 변수를 확인할 수 있다.
  • head() 함수는 데이터에서 상위 6개의 데이터를 조회해서 화면에 출력한다.

▶ R 스튜디오에서 변수 및 데이터 타입 확인

  • str() 함수를 사용하면 변수리스트와 변수의 데이터 타입(int: 정수, num: 실수, factor: 범주형)을 확인할 수 있다.

 

잔차(Residual)
- 관측 값과 계산 값의 차이를 의미하며 잔차를 연구하여 각종 오차를 계산함.

 


02 변수(Variable)

  • 측정결과가 조사대상과 다른 값으로 나타날 수 있는 속성 혹은 특성
  • 변수는 속성을 수량화할 수 있는지 여부에 따라서 양적변수와 질적변수로 구분됨.
  • 또한 변수가 어떠한 값이라도 가질 수 있는지 아니면 특정 수치만 가질 수 있는지에 따라서 연속변수 및 비연속변수로 구분됨.
  • 변수들 간의 상호관련성, 즉 인과관계가 있는지에 따라서 독립변수와 종속변수로 구분됨

▶ 변수들 간의 관계

 

1) 독립변수와 종속변수

  • 변수는 독립변수와 종속변수로 분류될 수가 있고 독립변수는 원인이 되는 변수로 종속변수에 영향을 주는 변수임.

▶ 독립변수와 종속변수

구분
내용
독립변수
(Independent variable)
설명변수로 원인이 되는 변수
종속변수
(Dependent variable)
결과변수로 독립변수에 영향을 받아서 결과가 되는 변수

 

2) 질적변수와 양적변수

변수는 질적변수와 양적변수로 구분됨. 질적변수는 수치로 나타낼 수 없는 변수이고, 양적변수는 수치로 나타낼 수 있는 변수

 

  • 변수는 데이터의 형태에 따라서 질적변수와 양적변수로 분류되며 질적변수는 수치로 나타낼 수 없는 변수이고, 양적변수는 수치로 나타낼 수 있는 변수
  • 질적변수는 빈도를 분석하고, 양적변수는 평균, 분산 등으로 계산될 수 있음.

▶ 질적변수와 양적변수

구분
내용
질적변수
(Qualitative variable)
수치로 나타낼 수 없는 변수
ex. 회사명, 직종, 혈액형 등
양적변수
(Quantitative variable)
수치로 나타낼 수 있는 변수
ex. 체중, 온도, 나이, 키 등

 

3) 이산변수와 연속변수

  • 이산변수는 하나하나 셀 수 있는 정수 값을 가지고 있는 변수이고 연속변수는 소수점 이하의 값을 가질 수 있는 변수를 의미

▶ 이산변수와 연속변수

구분
내용
이산변수
(Discrete variable)
셀 수 있는 정수 값을 가지고 있는 변수
ex. 학생수, 직원수 등
연속변수
(Continuous variable)
소수점 이하의 값을 가질 수 있는 변수
ex. 온도, 체중 등

 

4) 명목변수와 서열변수

 명목변수는 범주를 구분하기 위해서 각 범주에 수치를 부여

 

  • 명목변수는 자료를 서로 다른 범주로 구분해서 수치화하고 서열변수는 자료에 서열을 매기기 위해서 사용되는 변수

▶ 명목변수와 서열변수

구분
내용
명목변수
(Nominal variable)
자료를 서로 다른 범주로 구분하며, 각 범주에 수치를 부여함
ex. 1은 남성, 2는 여성으로 부여
서열변수
(Ordinal variable)
자료에 서열을 부여하기 위해서 수치를 사용
ex. 1은 만족, 2는 보통, 3은 불만족으로 구분

 

5) 등간변수와 비변수(비율변수)

▶ 등간변수와 비율변수

구분
내용
등간변수
(Interval variable)
자료를 서열뿐만 아니라 상대적 차이까지 제시함
ex. 온도 20도와 30도의 차이는 10도
비율변수
(Ratio variable)
자료를 분류, 서열, 차이와 함께 절대영점까지 표현함
ex. 키 180cm=90cm X 2배

'공부 끄적끄적 > ADsP' 카테고리의 다른 글

[ADsP] Part 4_section 02_표본조사  (0) 2022.04.18