Data Science12

lec3_Embedded_methods 2019. 9. 25.
lec2_Wrapper_methods 2019. 9. 25.
lec1_Filter_methods 2019. 9. 25.
SOM: Self Organazing Map 으로 Clustering 코드구현 까지 Self Organizing Map 에 대해서 알아보겠습니다. Udemy 의 Deep-Learning-A-to-Z 강의 의 SOM 파트를 수강하고 작성하였습니다. Self Organizing Map은 줄여서 SOM 이라고 부릅니다. Unsupervised learning 방법 중 하나이며 Clustering 에 쓰입니다. Clustering 작업을 수행하는, SOM 보다 조금 단순한 K-mean 알고리즘을 보고 SOM 을 보면 이해가 쉽습니다. K-mean Cluster K-mean 의 결과 = Clustering 아래의 그림은 K-mean 알고리즘으로 클러스터링 한 결과를 보여줍니다. K-mean 의 학습 과정 K-mean 의 학습과정은 단순합니다. 과정 step1 몇개의 군집으로 나눌것인지 K 를 설.. 2019. 9. 20.
7 Things you should know about ROC AUC Models for different classification problems can be fitted by trying to maximize or minimize various performance measures. Measurements that address one aspect of a model’s performance but not another are important to note so that we can make an informed decision and select the performance measures that best fit our design. ROC AUC is commonly used in many fields as a prominent measure to evalua.. 2019. 9. 19.
Feature Selection with sklearn and Pandas Feature selection is one of the first and important steps while performing any machine learning task. A feature in case of a dataset simply means a column. When we get any dataset, not necessarily every column (feature) is going to have an impact on the output variable. If we add these irrelevant features in the model, it will just make the model worst (Garbage In Garbage Out). This gives rise t.. 2019. 9. 19.
Data Scaling 데이터 스케일링이란 데이터 전처리 과정의 하나입니다. 데이터 스케일링을 해주는 이유는 데이터의 값이 너무 크거나 혹은 작은 경우에 모델 알고리즘 학습과정에서 0으로 수렴하거나 무한으로 발산해버릴 수 있기 때문입니다. 따라서, scaling은 데이터 전처리 과정에서 굉장히 중요한 과정입니다. 가볍게 살펴보도록 하겠습니다. 1. What is Scaler? (1) StandardScaler 각 feature의 평균을 0, 분산을 1로 변경합니다. 모든 특성들이 같은 스케일을 갖게 됩니다. (2) RobustScaler 모든 특성들이 같은 크기를 갖는다는 점에서 StandardScaler와 비슷하지만, 평균과 분산 대신 median과 quartile을 사용합니다. RobustScaler는 이상치에 영향을 받지.. 2019. 9. 18.
Feature Engineering VS Feature Selection What is Feature Engineering? Feature engineering is the process of using domain knowledge to extract new variables from raw data that make machine learning algorithms work. In a typical machine learning use case, data scientists predict quantities using information drawn from their company’s data sources. These sources could be various disparate log files or databases. But in general, they conta.. 2019. 9. 17.
Create a Python Heatmap with Seaborn You can easily create a heatmap using the Seaborn library in Python. For this tutorial, I’m going to create this using Jupyter Notebooks. The first step is to load the dependencies which are the essential library. You can also Learn Python Data Visualization at Code Academy import pandas as pd import numpy as np import seaborn as sns import matplotlib.pyplot as plt %matplotlib inline Now that we.. 2019. 9. 14.
Feature Selection and Feature Extraction in Machine Learning: An Overview Companies have more data than ever, so it’s crucial to ensure that your analytics team is uncovering actionable, rather than interesting data — knowing the difference between Interesting Data and Useful Data. Amongst the important aspects in Machine Learning are “Feature Selection” and “Feature Extraction”. An universal problem of intelligent (learning) agents is where to focus their attention. .. 2019. 9. 14.
Whitening Data Whitening은 기본적으로 들어오는 input의 feature들을 uncorrelated 하게 만들어주고, 각각의 variance를 1로 만들어주는 작업이다. 'whiten' data: to normalize each dimension by it's respective standard deviation. -----------------------------------------------------Batch Normalization------------------------------------------------------- 문제는 whitening을 하기 위해서는 covariance matrix의 계산과 inverse의 계산이 필요하기 때문에 계산량이 많을 뿐더러, 설상가상으로 whitening.. 2019. 9. 14.
lec0_Feature selection Methods... ----------------------------------------------------------------------------------------------------------------------------------- Filter: Variance / Correlation / Univariate selection * Filter methods: 1. rely on the characteristics of the data (feature characteristics) 2. do not use M.L algorithms 3. model agnostic 4. tend to be less computationally expensive 5. usually give lower .. 2019. 9. 14.