본문 바로가기

연습8

[Pentaho] Salary Classification 사용 데이터 : Salary Prediction Classification 데이터 출처| https://www.kaggle.com/datasets/ayessa/salary-prediction-classification 데이터 목적 급여(50K이하 또는 50K초과) 에 대한 분류 데이터 형태: csv 파일 데이터 column 의미 age: 나이 workclass: 직업 분류 fnlwgt: education: 학력 education-num: 교육 번호 marital-status: 혼인 상태 occupation: 직업 relationship: 관계 race: 인종 sex: 성별 capital-gain: 자본 이득 capital-loss: 자본 손실 hours-per-week: 주별 근무 시간 native-co.. 2022. 5. 4.
[Pentaho] Stroke Prediction Dataset 사용 데이터 : Stroke Prediction Dataset 데이터 출처| https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset 데이터의 목적 성별, 연령, 다양한 질병 및 흡연 상태와 같은 데이터를 이용하여 환자가 뇌졸중에 걸릴 가능성이 있는지 예측하는 데 사용된다. 데이터 형태: csv 파일 데이터 column 의미 id: 고유식별자 gender: "Male", "Female", "Other" age: 환자의 나이 hypertension: 환자가 고혈압이 없는경우 0, 있는 경우 1 heart_disease: 환자가 심장 질환이 없으면 0, 있으면 1 ever_married: "No" 또는 "Yes" work_type: "chi.. 2022. 4. 22.
[Pentaho활용] 노래연습장 data 사용 데이터 : 노래연습장 데이터 데이터 출처| LOCALDATA - 지방행정인허가데이터개방:데이터다운로드 데이터 형태: csv 파일 노래연습장 데이터 총 62638개의 row, 59개의 column 전체적 flow 데이터 전처리 후, csv파일로 내보내기 같은 의미인 필드, 분석에 필요 없는 필드 없애기 번호, 개방 서비스명, 개방 서비스 아이디, 개방자치단체코드, 관리번호, 영업상태명, 상세영업상태명, 소재지전화, 소재지면적, 소재지우편번호, 소재지전체주소,도로명우편번호, 사업장명, 최종수정시점, 데이터갱신구분, 데이터갱신일자, 업태구분명, 좌표정보(x), 좌표정보(y), 문화체육업종명, 문화사업자구분명, 주변환경명, 제작취급품목내용, 건물용도명, 통로너비, 조명시설조도, 비디오재생기명, 조명시설유무.. 2022. 4. 19.
[크롤링] 셀레니움_사용_1 난이도| ★☆☆☆☆ Google에서 파이썬 공식 홈페이지로 이동하기 # 모듈 import 하기 import pandas as pd import warnings warnings.filterwarnings('ignore') from selenium import webdriver from selenium.webdriver.common.action_chains import ActionChains from selenium.webdriver.common.keys import Keys import time # 경로, 드라이버, url 설정하기 # 경로 설정 path = 'C:\chromedriver_win32\chromedriver.exe' url = 'https://www.google.co.kr/' # 드라이버 설.. 2022. 4. 15.
[Pentaho활용] Amazon Seller-Order Status Prediction 사용 데이터 : amazon seller 정보 데이터 출처| Amazon Seller - Order Status Prediction | Kaggle 데이터의 목적 주문 상태를 예측하는 모델을 만드는 것 (Delivered to buy 또는 Returned to seller) 데이터 형태: excel 파일 데이터 column 의미 order_no: 고유 아마존 주문 번호 order_date: 주문한 날짜 buyer: 구매자의 이름 ship_city: 배송 주소 도시 ship_state: 배송 주소 상태 sku - Unique: 제품의 식별자 description: 제품 설명 quantity: 주문 단위 수 item_total: 구매자가 지불한 총금액 shipping_fee: 보스 레더가 아이템을 배송하기 .. 2022. 4. 14.
[크롤링] 셀레니움(Selenium)_다나와 크롤링하기 다나와 페이지를 사용해서 크롤링 연습하기 다나와 페이지 링크| http://www.danawa.com/ 여러 카테고리 중 PC견적 부분을 선택하여 이 부분을 크롤링할 것이고, 해당 페이지에서 PC주요부붐 중 CPU로, 각 제품을 클릭하여 그 안에 있는 제품 정보를 크롤링하여 데이터 프레임으로 만들어 csv파일로 내보내는 과정을 만들 것이다. 코드를 작성하면서 에러가 발생한 곳을 처리하면서 생각한 중요한 것 global 전역 변수를 잘 활용하고, 필요한 곳에 잘 넣어주기 작동하면서 시간 여유 잘 할당하기 driver.implicitly_wait(10) 보다는 time.sleep(1)이 더 나은 것 같다. url에 /robots.txt 을 붙여 제한되어있는지 확인하기 Allow : / -> 허용 Disall.. 2022. 4. 13.