TextAnalytics2 [텍데분] Regular Expression 1 Regular Expression 정규표현식 특정한 문자의 패턴을 정의하는 방식 특정한 규칙을 가진 문자열 탐색 ex. 이메일 주소만 추출, 전화번호만 추출, ip주소만 추출 정규표현식 활용 방법 데이터 수집하기 특정한 패턴을 갖는 데이터만 수집 데이터 전처리하기 특정 패턴을 갖고 있는 데이터 제거 정규표현식 활용 예시 파이썬에서 정규표현식을 사용하기 위해서는 re라는 모듈 불러와서 사용 # 휴대폰 번호 가운데 자리를 *로 변경 data = \ """kim 010-1234-5678 park 010-8765-4321""" # 정규표현식 미사용 result = [] for line in data.split('\n'): tmp_result = [] for word in line.split(' '): if le.. 2023. 4. 12. [텍데분] Text Analytics 소개 Text Analytics Text mining, text data mining(TDM), text analytics 이란? text에서 high-quality information을 추출하는 process 출처|https://en.wikipedia.org/wiki/Text_mining Motivation Unstructured data(비정형 데이터)의 폭발적인 증가 → 텍스트 데이터는 다양한 source에서 생성되며 쉽게 접할 수 있음 Web Scraping, API등의 기능을 활용하여 텍스트 데이터 수집 가능 text analytics 예시 Summarization/Visualization Topic Modeling Document Classification Spam filtering Sentime.. 2023. 4. 11. 이전 1 다음