본문 바로가기

ML | DL/머신러닝 이론|실습8

[clustering] tslearn의 TimeSeriesKmeans 사용방법 클러스터링은 Unsupervised Learning으로 데이터들의 군집을 예측하는 것이 목적이다. 일반적으로 kmeans는 각 데이터 사이의 distance를 구해서 군집마다 center에 가장 가까운 데이터 끼리의 패턴을 찾는다. 하지만 시계열로 되어있는 데이터를 클러스터링 해버리면 시간에 따른 정보가 사라지기 때문에 다른 방법이 필요하다. 그래서 이번에 소개할 TimeSeriesKmeans는 시간에 따른 군집화가 가능하기 때문에 위의 문제를 해결할 수 있는 알고리즘이며, tslearn 라이브러리로 쉽게 사용이 가능하다. 1. 설치 해당 명령어로 tslearn을 설치할 수 있다. !pip install tslearn 2. 데이터 생성 32row 1column의 array를 50개 생성한다. import.. 2022. 3. 19.

Pycaret AutoML으로 ensemble 하는법 Kaggle이나 Dacon 같은 AI대회에 참여하다 보면 Ensemble 기법을 사용하여 점수를 끌어올려야 하는 상황이 발생한다. 이번에 소개할 라이브러리는 Pycaret AutoML 이다. 해당 라이브러리는 거의 모든 머신러닝 알고리즘을 사용하여 간편하게 Ensemble을 할 수 있다. Pycaret을 사용하기 위해 아래 라이브러리를 설치한다. !pip install pycaret[full] 그 다음 pycaret을 import 해준다. 만약 회귀로 진행할 경우 pycaret.regression으로 변경한다. from pycaret.classification import * 이제 데이터셋을 세팅해야 하는데 DataFrame 타입으로 input값을 주어야 한다. 나는 간단하게 주요 파라미터만 입력하였다... 2022. 3. 17.

k-최근접 이웃(KNN, K-Nearest Neighbor) 이론 설명 *제가 이해한 내용을 정리한 것입니다. 틀린것이 있다면 지적해주세요! KNN이란 ?- k개의 가까운 이웃을 보고 클래스를 판별한다. 게으른 학습기라고 불리며 훈련데이터를 함수로 판별하는 것이 아닌 데이터셋을 메모리에 저장후 판별 KNN은 유명하고 매우 간단한 알고리즘이다. 새로운 데이터가 '?' 이면 그 안에서 가장 가까운애들중 가장 많은 변수를 찾는 것이다. 이 그림을 보면 세모 1등, 동그라미 네모 공동 2등이므로 세모를 선택하는 것이다.k에 값을 줄때는 동점을 방지하기 위해 홀수값을 주는게 정석이다.만약 짝수값을 입력해 동점이 되더라도 그중 가까운애를 1등으로 한다.거리를 구하는 방식은 '맨하탄 거리', '유클리디안 거리', '민코우스키 거리'인데 민코우스키 거리가 가장 일반화가 되어 있다고 한다... 2020. 10. 30.

랜덤포레스트(RandomForest) (feat. 앙상블, ensemble) *제가 이해한 내용을 정리한 것입니다. 틀린내용이 있으면 지적해주세요! 랜덤포레스트(RandomForest)란?- 여러개의 트리를 생성해서 트리의 결과를 투표해서 가장 많이 나온것을 선택하는 알고리즘이다. 랜덤포레스트를 알기전에 앙상블(ensemble)이라는 것을 알아야 한다.'약한 분류기를 강한 분류기로 만드는 알고리즘'앙상블은 여러개의 알고리즘을 통합해서 가장 잘 나오는 것을 뽑는 방식이다.결론적으로 랜덤포레스트는 앙상블을 쓴 알고리즘이다. 앙상블에 대표적인 4가지 방식을 알아보자 1. Voting : 여러개 다른 알고리즘을 여러개 써서 그 중 가장 많이나온 결과를 사용하는 방법이다.1) hard voting : 여러개의 결과를 투표해서 가장 많이 나온 결과2) soft voting : 각각의 확률을.. 2020. 10. 30.

이전 1 2 다음

티스토리툴바