STUDY/Python 17

Python[빅데이터] 데이터 크롤링(3)

(2) Selenium 1. daum 페이지에서 이미지들 다운받아 저장하기 from selenium import webdriver import time #...(1) import urllib.request as req import os driver = webdriver.Chrome("temp/chromedriver") driver.get("https://search.daum.net/search?w=img&nil_search=btn&DA=NTB&enc=utf8&q=%EC%9E%A5%EB%AF%B8") time.sleep(3) (1) time 모듈은 시간과 관련된 함수들을 제공 time.sleep() 함수를 사용하여 코드 실행을 일정 시간 동안 중지 time.time() 함수를 사용하여 현재 시간을 초 단위..

STUDY/Python 2023.03.07

Python[빅데이터] 데이터 크롤링(2)

(2) Selenium 웹 브라우저 자동화 도구. 웹 브라우저를 제어하고 웹 페이지를 스크래핑하거나 웹 애플리케이션을 자동화 할 수 있다. Selenium은 동적인 웹 페이지에서 데이터를 추출하거나 웹 애플리케이션을 테스트하기에 적합합니다. 🔧선작업 1.크롬브라우저 버전 확인하기(도움말 -> 크롬정보) 2. http://chromedriver.chromium.org/downloads => 내 크롬정보와 동일한크롬드라이버 다운받기. chromdriver_win32.zip 3.압축풀기 4.chromdriver.exe의 위치정하기: C:\\Users\\User\\pyworkspace\\temp 5.pip install selenium 라고 anaconda prompt에 등록하기 from selenium imp..

STUDY/Python 2023.03.06

Python[빅데이터] 데이터 크롤링(1)

👆크롤링: 웹페이지(xml)을 긁어서 자료를 만드는 것 빅데이터 종류 1. 정형데이터 : csv, excel, db table 2. 반정형데이터 : html, xml, json,... ✨크롤링✨, BeautifulSoup, Selenium 모듈 3. 비정형데이터 : 이미지,동영상,... 1) BeautifulSoup: 파이썬에서 가장 많이 사용되는 HTML 및 XML 구문 분석(정적인 웹 페이지추천) 라이브러리 1. 외부에서 데이터 긁어서 읽어보기 from bs4 import BeautifulSoup #BeautifulSoup = htmp, xml 파싱 모듈 import urllib.request as req url="

STUDY/Python 2023.03.06

Python[빅데이터] 데이터 전처리(3)

데이터 연계/통합 두개의 DataFrame 연결하기 1. concat(): 물리적 두개의 데이터를 연결(그냥 위아래로 붙임) result2=pd.concat([df1,df2], axis=0) 2. merge: 컬럼을 기준으로 컬럼값이 같은 값인 경우 레코드를 병합.(sql문장의 inner join과 같은 의미) #조인컬럼: id의 값이 같을 때 이름이 같은건 조인하고 아닌건 안나타남 result3=pd.merge(df1, df2) #or result3=pd.merge(df1,df2,on="id") result3.info() #df1.id == df2.id 것이 5개임 3. outer merge 1) how="left" : 왼쪽 데이터는 조인되는 값이 없어도 선택(출력됨) => left outer join..

STUDY/Python 2023.03.06

Python[빅데이터] 데이터 전처리(2)

#데이터 전처리 : 원본데이터를 원하는 형태로 변경하는 과정 1. 결측값 처리 : 값이 없는 경우. ❤️2. 중복데이터 처리 ❤️3. 오류데이터 존재.(결측값과 목표는 같지만 목적이 조금 다름) 2. 중복데이터 처리 - duplicated() : 중복데이터 찾기. 첫번째 데이터는 False,같은 데이터인 경우 두번째 True - drop_duplicates() : 중복데이터를 제거. 중복된 데이터 중 한개는 남김. df = pd.DataFrame({"c1":['a','a','b','a','b'], "c2":[1,1,1,2,2], "c3":[1,1,2,2,2]}) df_dup = df.duplicated() df_dup #0 False / 1 True / 2 False/ 3 False/ 4 False co..

STUDY/Python 2023.03.06

Python[빅데이터] 데이터 전처리(1)

#데이터 전처리 : 원본데이터를 원하는 형태로 변경하는 과정 ❤️1. 결측값 처리 : 값이 없는 경우. 2. 중복데이터 처리 3. 오류데이터 존재.(결측값과 목표는 같지만 목적이 조금 다름) 1. 결측값 처리 : 값이 없는 경우. 1.결측값 확인 import seaborn as sns import pandas as pd df=sns.load_dataset("titanic") df.info() #11 deck 203 non-null category (전체 891개의 non-null값이 존재함) df.deck.unique() #Categories (7, object): ['A', 'B', 'C', 'D', 'E', 'F', 'G'] + NULL값 df.deck.value_counts() #결측값 제외한 값의..

STUDY/Python 2023.02.24

Python[빅데이터] pandas 활용(3)

*지도 처리 계속... 1.지도 마크별 색구분하기 import pandas as pd import folium #--(1) df= pd.read_csv("data/Library.csv") #--(2) df.시설명.head() library_map = folium.Map(location=[37.55,126.98],zoom_start=12) #--(3) for name, lat, lng, kbn in zip(df.index, df.위도, df.경도,df.시설구분): if kbn =='구립도서관' or kbn=='국립도서관': color ='green' elif kbn =='사립도서관': color ='red' else: color='blue' folium.Marker\ ([lat,lng],popup=name..

STUDY/Python 2023.02.24

Python[빅데이터] pandas 활용(2)

#지도시각화 👆선작업! pip install folium -> 아나콘다 pmp에 등록한다. 1.지도 만들기 import folium #--(1) seoul_map = folium.Map(location=[37.55,126.98], zoom_start=12) seoul_map.save("seoul.html") #--(2) 1.지도만들기 1)folium 연결=>지도를 시각화 할 수 있는 모듈 2)location=[37.55,126.98] : 지도의 중앙 GPS값 / #zoom_start=12 : 지도 확대값을 seoul_map에 넣고. html파일을 만든다. import pandas as pd #--(1) df=pd.read_excel("data/서울지역 대학교 위치.xlsx", index_col=0) #-..

STUDY/Python 2023.02.23

Python[빅데이터] pandas 활용(1)

이 부분을 읽기 전에 아래 링크인 판다스 관련 내용을 참고합시다! Python_[anaconda] 데이터 관리(3) 1.오라클 접속 👆기초작업 *오라클 데이터 베이스에 접속하기_ cx_Oracle이용 Python 에서 Oracle Database 에 접속해 조회, 등록등 작업하려면 파이썬 라이브러리(DB접속 드라이버)가 필요! 아나콘다 promp oort2.tistory.com 빅데이터를 다룰때 제일 힘든건 첫째도 자료 모으기. 둘째도 자료모으기 입니다. 크롤링하는 것도 나중에 배운다는데 배우고 나면 정리하겠습니다. #오늘 자료: 행정안전부발 정책자료-> 연령별인구현환(2022년도) 1. data를 참고해서 필요한 부분을 추출해 그래프로 출력. import pandas as pd import matplo..

STUDY/Python 2023.02.23

Python_[anaconda] 데이터 관리(3)

1.오라클 접속 👆기초작업 *오라클 데이터 베이스에 접속하기_ cx_Oracle이용 Python 에서 Oracle Database 에 접속해 조회, 등록등 작업하려면 파이썬 라이브러리(DB접속 드라이버)가 필요! 아나콘다 prompt -> pip install cx_Oracle -> 엔터 #pip install : 외부모듈을 설정 명령어. import cx_Oracle #오라클 접속을 위한 모듈. 기본설정 아님 #connect("사용자 아이디", "비밀번호", "서버IP/SID") conn = cx_Oracle.connect('oort','1234','localhost/xe') cur = conn.cursor() cur.execute("select * from student") #student 테이블 출..

STUDY/Python 2023.02.20