전체 글61

test jupyter notebook Assignment 1¶ - KNN으로 HyperParameter 이해하기¶ Load Dataset¶ Import packages¶ In [1]: # data import pandas as pd import numpy as np import warnings warnings.filterwarnings("ignore") # visualization import matplotlib.pyplot as plt import seaborn as sns %matplotlib inline from pandas.plotting import parallel_coordinates # preprocessing from sklearn.preprocessing import StandardScaler from sklearn.prep.. 2021. 8. 8.
ML-Mastery basic tips Prepare Data For Machine Learning Step 1: Data Selection Consider what data is available, what data is missing and what data can be removed. Step 2: Data Preprocessing Organize your selected data by formatting, cleaning and sampling from it. Step 3: Data Transformation Transform preprocessed data ready for machine learning by engineering features using scaling, attribute decomposition and attrib.. 2019. 12. 14.
ML Performance Improvement Cheat sheet (a). Improve Performance With Data (b). Improve Performance With Algorithms (c). Improve Performance With Tuning (d). Improve Performance With Ensembles Process: 1. Pick one group ; (a) Data. (b) Algorithms. (c) Tuning. (d) Ensembles. 2. Pick one method from the group. 3. Pick one thing to try of the chosen method. 4. Compare the results, keep if there was an improvement. 5. Repeat. Improve Perf.. 2019. 12. 4.
AWS Glue란? AWS Glue는 완전 관리형 ETL(추출, 변환, 로드) 서비스로, 효율적인 비용으로 간단하게 여러 데이터 스토어 간에 원하는 데이터를 분류, 정리, 보강, 이동합니다. AWS Glue를 사용하여 데이터 웨어하우스를 구축하여 데이터 포맷을 조직하고 정리하고 인증합니다. AWS 클라우드 데이터를 데이터 스토어로 변환하고 이동할 수 있습니다. AWS Glue는 데이터 웨어하우스를 구축할 때 많은 작업을 단순화합니다. 중앙 카탈로그의 데이터 스토어에 대한 메타데이터를 발견하고 분류합니다. 클릭스트림 혹은 프로세스 로그와 같이 반정형 데이터를 실행할 수 있습니다. 예약된 크롤러 프로그램의 테이블 정의로 AWS Glue 데이터 카탈로그를 채웁니다. 크롤러는 분류자 로직을 호출하여 데이터의 스키마, 포맷 및 데이.. 2019. 9. 28.
Apache Spark(아파치 스파크) RDD API 보호되어 있는 글 입니다. 2019. 9. 26.
Apache Spark(아파치 스파크) Intro 보호되어 있는 글 입니다. 2019. 9. 26.
BigQuery와 Datalab을 사용해 데이터 분석하기 보호되어 있는 글 입니다. 2019. 9. 26.
Apache SparkSQL과 Dataframe 보호되어 있는 글 입니다. 2019. 9. 26.
대용량 데이터 처리 기술(GFS, HDFS, MapReduce, Spark) 보호되어 있는 글 입니다. 2019. 9. 26.
XGBoost(Boosting / Gradient Boosting Algorithm(GBM) / Adaptive boosting) Boosting 약한 분류기를 결합하여 강한 분류기를 만드는 과정 어떤 모델이 유효한지, 적절한지를 찾아내는 과정 배깅과 유사하게 초기 샘플 데이터로 다수의 분류기를 만들지만 배깅과 다르게 순차적 무작위성이 없으며 강력한 사전 가지치기 사용 * 약한 분류기의 특징은 바로 오분류율이 0.5에 가깝다 Gradient Boosting Algorithm(GBM) examples: LightGBM, CatBoost, XGBoost Gradient Boosting = Residual Fitting Gradient Boosting에서는 Gradient가 현재까지 학습된 모델의 약점을 드러내는 역할을 하고, 다른 모델이 그걸 중점적으로 보완해서 성능을 Boosting한다. 위에서는 L2 손실함수등 미분만 가능하다면 다.. 2019. 9. 25.
lec3_Embedded_methods 2019. 9. 25.
lec2_Wrapper_methods 2019. 9. 25.