Python
-
웹 크롤링Python 2024. 2. 16. 16:59
정적 웹크롤링¶ In [13]: import os import sys import urllib.request client_id = # "id" client_secret = # "secret" word=input('검색할 뉴스 내용을 입력해 주세요 ') result=input('한 번에 표시할 검색 결과 수를 입력해 주세요 ') page=input('원하는 페이지 번호를 입력해 주세요: ') sort=input('정렬 순서를 입력해 주세요 (정확도순: 1, 날짜순: 2): ') if sort=='1': sort_word='sim' else: sort_word='date' encText = urllib.parse.quote(word) # 인코딩 url = "https://openapi.naver.com/v1..
-
-
-
그래프와 시각화Python 2023. 11. 28. 17:19
맷플롯립 API 간단하게 살펴보기 주피터 노트북 환경에서 %matplotlib notebook 실행한 다음(IPYTHON인 경우 %matplotlib) 간단한 그래프 그리기 In [3]: import matplotlib.pyplot as plt In [4]: %matplotlib Installed qt5 event loop hook. Shell is already running a gui event loop for qt5. Call with no arguments to disable the current loop. Using matplotlib backend: QtAgg In [5]: data = np.arange(10) In [6]: data Out[6]: array([0, 1, 2, 3, 4, 5, ..
-
데이터 준비: 조인, 병합, 변형Python 2023. 11. 27. 17:12
계층적 색인 계층적인 색인(hierarchical indexing)은 축에 대해 둘 이상의 인덱스 단계를 지정할 수 있도록 함 > 고차원 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능 In [43]: data = pd.Series(np.random.uniform(size=9), ...: index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'], ...: [1, 2, 3, 1, 3, 1, 2, 2, 3]]) In [44]: data Out[44]: a 1 0.317961 2 0.034492 3 0.213850 b 1 0.604714 3 0.786766 c 1 0.564637 2 0.672718 d 2 0.159659 3 0.301101 dtype: float..
-
데이터 정제 및 준비Python 2023. 11. 21. 12:21
누락된 데이터 처리 float64 dtype을 가지는 데이터의 경우 판다스는 실숫값인 NaN으로 누락된 데이터 표시 이런 값을 감싯값(sentinel value)이라 부르며 누락된(혹은 null) 값임을 나타내기 위해 등장 In [24]: float_data = pd.Series([1.2, -3.5, np.nan, 0]) In [25]: float_data Out[25]: 0 1.2 1 -3.5 2 NaN 3 0.0 dtype: float64 # isna 메서드는 값이 null인 경우 True를 가지는 불리언 Series 반환 In [26]: float_data.isna() Out[26]: 0 False 1 False 2 True 3 False dtype: bool 파이썬의 내장 None 값 또한 NA ..
-
데이터 로딩과 저장, 파일 형식Python 2023. 11. 20. 17:15
데이터 로딩(data loading)은 데이터를 읽고 접근 가능하도록 하는 작업, 데이터 분석에서의 도구를 사용하는 첫 번째 단계 유사한 용어인 파싱(parsing)(구문 분석)은 텍스트 데이터를 불러와 표나 다른 데이터 형식으로 해석하는 과정 텍스트 파일에서 데이터를 읽고 쓰는 법 In [1]: !cat ex1.csv 'cat'은(는) 내부 또는 외부 명령, 실행할 수 있는 프로그램, 또는 배치 파일이 아닙니다. In [2]: !type ex1.csv a,b,c,d,message 1,2,3,4,hello 5,6,7,8,world 9,10,11,12,foo 유닉스의 cat 명령어를 통해 파일 내용 확인, 윈도우 사용자는 type 명령어로 확인 가능 자동으로 제일 위에 있는 열이 열 이름으로 들어감 In ..
-
판다스Python 2023. 11. 14. 17:15
고수준의 자료구조와 파이썬을 통한 빠르고 쉬운 데이터 분석 도구 제공, 넘파이의 배열 기반의 계산 스타일을 많이 차용함 판다스, 넘파이의 가장 큰 차이점은 판다스는 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 초점을 맞춰 설계, 넘파이는 단일 산술 배열 데이터를 다루는 데 특화되어 있음 넘파이와 판다스의 import 컨벤션 In [1]: import numpy as np In [2]: import pandas as pd Series와 DataFrame은 로컬 네임스페이스로 임포트하는 것이 편하므로 다음과 같이 사용 In [3]: from pandas import Series, DataFrame 판다스 자료구조 소개 두 가지 자료구조 Series와 DataFrame Series 일련의 객체를 담을..