머신러닝
-
주택 가격: 고급 회귀 기법 실습머신러닝 2024. 2. 2. 12:28
필요 라이브러리¶ In [1]: import warnings warnings.filterwarnings('ignore') import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline from sklearn.linear_model import LinearRegression, Ridge, Lasso from sklearn.model_selection import train_test_split, cross_val_score from sklearn.model_selection import GridSearchCV, KFold from sklearn.metrics import ..
-
자전거 대여 수요 예측머신러닝 2024. 1. 31. 14:01
워싱턴 D.C.의 Capital Bikeshare 프로그램에서 자전거 대여 수요를 예측하기 위한 2014년 Kaggle 대회 프로젝트 https://www.kaggle.com/competitions/bike-sharing-demand/data 워싱턴 D.C의 Capital Bikeshare 프로그램에서 자전거 대여 수요를 예측하기 위한 프로젝트 datatime: hourly date + timestamp season: 1 = 봄, 2 = 여름, 3 = 가을, 4 = 겨울 holiday: 1 = 토, 일요일의 주말을 제외한 국경일 등의 휴일, 0 = 휴일이 아닌 날 workingday: 1= 토, 일요일의 주말 및 휴일이 아닌 주중, 0 = 주말 및 휴일 weather: 1 = 맑음, 약간 구름 낀 흐림 ..
-
보스턴 주택 가격 회귀머신러닝 2024. 1. 26. 15:49
CRIM: 지역별 범죄 발생율 ZN: 25,000평방피트를 초과하는 거주 지역의 비율 INDUS: 비상업 지역 넓이 비율 CHAS: 찰스강에 대한 더미 변수(강의 경계에 위치한 경우는 1, 아니면 0) NOX: 일산화질소 농도 RM: 거주할 수 있는 방 개수 AGE: 1940년 이전에 건축된 소유 주택의 비율 DIS: 5개 주요 고용센터까지의 가중 거리 RAD: 고속도로 접근 용이도 TAX: 10,000달러당 재산세율 PTRATIO: 지역의 교사와 학생 수 비율 B: 지역의 흑인 거주 비율 LSTAT: 하위 계층 비율 MEDV: 본인 소유의 주택 가격(중앙값) 보스턴 데이터셋의 윤리적인 문제로 1.2 버전에서 load_boston()이 삭제됨 캐글 등의 타 사이트(https://giveme-happyen..
-
사용자 행동 인식 데이터 세트머신러닝 2024. 1. 17. 16:36
라이브러리 로드¶ In [2]: from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all' import pandas as pd import matplotlib.pyplot as plt %matplotlib inline 데이터 로드¶ In [6]: # https://archive.ics.uci.edu/dataset/240/human+activity+recognition+using+smartphones # features.txt 파일에는 피처 이름 index와 피처명이 공백으로 분리되어 있음, 이를 DataFrame으로 로드 feature_name_df = pd.read_csv..
-
피마 인디언 당뇨병 예측머신러닝 2024. 1. 16. 15:36
데이터 로드¶ In [1]: # 라이브러리 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all' import numpy as np import pandas as pd import matplotlib.pyplot as plt %matplotlib inline from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score, precision_score, recall_score, roc_auc_score from sklearn.metrics import f1_scor..
-
타이타닉 생존자 예측머신러닝 2024. 1. 15. 14:39
데이터 로드¶ In [1]: # 라이브러리 from IPython.core.interactiveshell import InteractiveShell InteractiveShell.ast_node_interactivity = 'all' import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline # https://www.kaggle.com/c/titanic/data titanic_df = pd.read_csv('titanic_train.csv') titanic_df.head(3) Out[1]: PassengerId Survived Pclass Name Sex Age S..
-
머신러닝 프로젝트머신러닝 2023. 12. 5. 17:20
1. 큰 그림 보기(목적 파악: 뭘 위해서 데이터를 찾는 것인지) 2. 데이터 구하기 3. 데이터로부터 인사이트를 얻기 위해 탐색, 시각화 4. 머신러닝 알고리즘을 위해 데이터 준비 5. 모델을 선택하고 훈련시키기 6. 모델을 미세 튜닝 7. 솔루션 제시 8. 시스템을 론칭하고, 모니터링하고, 유지 보수 실제 데이터로 작업 · 유명한 공개 데이터 저장소 - OpenML(https://openml.org) - 캐글(https://kaggle.com/datasets) - PapersWithCode(https://paperswithcode.com/datasets) - UC 어바인 머신러닝 저장소(https://archive.ics.uci.edu/ml) - 아마존 AWS 데이터셋(https://registry...
-