본문 바로가기
반응형
반응형

전체 글55

반응형
k-최근접 이웃(KNN, K-Nearest Neighbor) 이론 설명 *제가 이해한 내용을 정리한 것입니다. 틀린것이 있다면 지적해주세요! KNN이란 ?- k개의 가까운 이웃을 보고 클래스를 판별한다. 게으른 학습기라고 불리며 훈련데이터를 함수로 판별하는 것이 아닌 데이터셋을 메모리에 저장후 판별 KNN은 유명하고 매우 간단한 알고리즘이다. 새로운 데이터가 '?' 이면 그 안에서 가장 가까운애들중 가장 많은 변수를 찾는 것이다. 이 그림을 보면 세모 1등, 동그라미 네모 공동 2등이므로 세모를 선택하는 것이다.k에 값을 줄때는 동점을 방지하기 위해 홀수값을 주는게 정석이다.만약 짝수값을 입력해 동점이 되더라도 그중 가까운애를 1등으로 한다.거리를 구하는 방식은 '맨하탄 거리', '유클리디안 거리', '민코우스키 거리'인데 민코우스키 거리가 가장 일반화가 되어 있다고 한다... 2020. 10. 30.
랜덤포레스트(RandomForest) (feat. 앙상블, ensemble) *제가 이해한 내용을 정리한 것입니다. 틀린내용이 있으면 지적해주세요! 랜덤포레스트(RandomForest)란?- 여러개의 트리를 생성해서 트리의 결과를 투표해서 가장 많이 나온것을 선택하는 알고리즘이다. 랜덤포레스트를 알기전에 앙상블(ensemble)이라는 것을 알아야 한다.'약한 분류기를 강한 분류기로 만드는 알고리즘'앙상블은 여러개의 알고리즘을 통합해서 가장 잘 나오는 것을 뽑는 방식이다.결론적으로 랜덤포레스트는 앙상블을 쓴 알고리즘이다. 앙상블에 대표적인 4가지 방식을 알아보자 1. Voting : 여러개 다른 알고리즘을 여러개 써서 그 중 가장 많이나온 결과를 사용하는 방법이다.1) hard voting : 여러개의 결과를 투표해서 가장 많이 나온 결과2) soft voting : 각각의 확률을.. 2020. 10. 30.
결정트리(의사결정나무, Decision Tree) *제가 이해한 내용을 정리한 것입니다. 틀린내용이 있으면 지적해주세요! 결정트리(Decision Tree)란? - 일련의 질문에 대한 결정을 통해 데이터를 분해하는 모델, 분류 모델중에서 가장 간단한 알고리즘 결정트리의 목적은 정보이득 최대화 이다. 정보 이득(Information Gain)은 가장 정보가 풍부한 특성으로 노드를 나누기 위해 확인하는 정보의 획득 정보를 판별하는 지표이다. 다시 말해 이 노드를 나누는 것이, 분류에 도움이 되는가를 판별하는 지표 의사결정트리의 '트리' 구조에 대하여 알아보자 그래프에서 보면 맨 위의 노드를 루트 노드(Root node)라고 하며, 그 아래 이어지는 선이 '가지' 이다. 'Can fly?'는 'Hawk', 'Penguin'의 부모노드이며 'Hawk', 'Pe.. 2020. 10. 30.
서포트 벡터 머신(Support Vector Machine, SVM) *제가 이해한 내용을 적은 것이니, 틀렸을 경우 지적해주세요! 서포트 벡터 머신은 경계가 되는 초평면 사이 결정경계 양쪽 마진을 최대화 하는 것을 목적으로 하는 것이다. * 초평면 : 경계를 만드는 선 * 마진 : 결정경계를 기반으로 서포트 벡터까지의 거리 그림을 보면 점선 사이에 있는 변수들이 Support Vectors인 것을 알 수 있다. 이 변수들을 초평면을 기준으로 최대한 떨어트려놓는게 서포트 벡터 머신인데 이유를 설명하자면 이 그래프에서 세로로 가운데에 선을 그렸다고 상상해보자 그러면 파란색과 빨간색 변수들이 초평면 사이에 붙어있게 된다. 중앙에 새로운 빨간색 변수가 중간에 추가되면 그것은 빨간색 변수인지 파란색 변수인지 기계가 구분하지 못하게 된다. 그래서 초평면 사이에 마진을 최대화 하는 .. 2020. 10. 30.
반응형