본문 바로가기
2023_국민대/텍스트 데이터 분석

[텍데분] Data Science 소개

by yejineee 2023. 4. 11.

Data Science 데이터 과학

정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론 등을 동원하는 융합분야

Big Data 빅데이터

통상적으로 사용되는 데이터 수집, 관리 및 처리 소프트웨어의 수용한계를 넘어서는 크기의 데이터

거대한 데이터 그 자체로서 가치를 갖고 있음

Data Mining 데이터 마이닝

대규모로 저장된 데이터안에서 체계적이고 자동적으로 통계적규칙이나 짜임을 분석하여, 가치있는 정보를 빼내는 과정

Insight를 추출하는 일련의 과정

Machine Learning 머신러닝

기계가 일일이 코드로 명시하지 않은 동작을 데이터로 부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야

Artificial Intelligence 인공지능

인간의 학습능력, 추론능력, 지각능력을 인공적으로 구 현하려는 컴퓨터 과학의 세부분야 중 하나


데이터 기반의 문제해결 프로세스

Five-step Process

1. 문제 정의

Q. 어떤 문제를 해결할 것이며, 이를 위해 필요한 데이터는 무엇인가?

  • 문제 정의 및 목표 설정
  • 필요한 데이터 및 수집 방법 정의

2. 데이터 획득

Q. 데이터를 어떻게 수집할 것인가?

Q. 데이터 수집과 관련된 이슈는 없는가?

  • 데이터 수집
  • 데이터 획득과 관련된 이슈 검토 (프라이버시 문제 등)

3. 데이터 탐색

데이터 통합, 전처리 및 탐색적 데이터 분석(EDA)

EDA시, 주의해야 할 점 → Bias에 빠지지 않기!

  • 데이터 전처리 (이상치 제거, 데이터 결합 등)
  • 데이터 시각화 등을 통한 탐색

4. 모델링

문제에 맞는 머신러닝 알고리즘을 적용하여 모델링

  • 모델링 수행
  • 평가 결과가 안좋다면, 이전 단계들을 다시 수행

5. 배포

제품의 배포 및 시스템 유지 보수

  • 학습한 모델을 실제 field에 배포
  • 모니터링 및 시스템 유지 보수