본문 바로가기
반응형
반응형

머신러닝13

반응형
랜덤포레스트(RandomForest) (feat. 앙상블, ensemble) *제가 이해한 내용을 정리한 것입니다. 틀린내용이 있으면 지적해주세요! 랜덤포레스트(RandomForest)란?- 여러개의 트리를 생성해서 트리의 결과를 투표해서 가장 많이 나온것을 선택하는 알고리즘이다. 랜덤포레스트를 알기전에 앙상블(ensemble)이라는 것을 알아야 한다.'약한 분류기를 강한 분류기로 만드는 알고리즘'앙상블은 여러개의 알고리즘을 통합해서 가장 잘 나오는 것을 뽑는 방식이다.결론적으로 랜덤포레스트는 앙상블을 쓴 알고리즘이다. 앙상블에 대표적인 4가지 방식을 알아보자 1. Voting : 여러개 다른 알고리즘을 여러개 써서 그 중 가장 많이나온 결과를 사용하는 방법이다.1) hard voting : 여러개의 결과를 투표해서 가장 많이 나온 결과2) soft voting : 각각의 확률을.. 2020. 10. 30.
결정트리(의사결정나무, Decision Tree) *제가 이해한 내용을 정리한 것입니다. 틀린내용이 있으면 지적해주세요! 결정트리(Decision Tree)란? - 일련의 질문에 대한 결정을 통해 데이터를 분해하는 모델, 분류 모델중에서 가장 간단한 알고리즘 결정트리의 목적은 정보이득 최대화 이다. 정보 이득(Information Gain)은 가장 정보가 풍부한 특성으로 노드를 나누기 위해 확인하는 정보의 획득 정보를 판별하는 지표이다. 다시 말해 이 노드를 나누는 것이, 분류에 도움이 되는가를 판별하는 지표 의사결정트리의 '트리' 구조에 대하여 알아보자 그래프에서 보면 맨 위의 노드를 루트 노드(Root node)라고 하며, 그 아래 이어지는 선이 '가지' 이다. 'Can fly?'는 'Hawk', 'Penguin'의 부모노드이며 'Hawk', 'Pe.. 2020. 10. 30.
서포트 벡터 머신(Support Vector Machine, SVM) *제가 이해한 내용을 적은 것이니, 틀렸을 경우 지적해주세요! 서포트 벡터 머신은 경계가 되는 초평면 사이 결정경계 양쪽 마진을 최대화 하는 것을 목적으로 하는 것이다. * 초평면 : 경계를 만드는 선 * 마진 : 결정경계를 기반으로 서포트 벡터까지의 거리 그림을 보면 점선 사이에 있는 변수들이 Support Vectors인 것을 알 수 있다. 이 변수들을 초평면을 기준으로 최대한 떨어트려놓는게 서포트 벡터 머신인데 이유를 설명하자면 이 그래프에서 세로로 가운데에 선을 그렸다고 상상해보자 그러면 파란색과 빨간색 변수들이 초평면 사이에 붙어있게 된다. 중앙에 새로운 빨간색 변수가 중간에 추가되면 그것은 빨간색 변수인지 파란색 변수인지 기계가 구분하지 못하게 된다. 그래서 초평면 사이에 마진을 최대화 하는 .. 2020. 10. 30.
[머신러닝] 로지스틱 회귀(Logistic regression) *제가 이해한 내용을 정리한것이므로, 틀린내용이 있을 수 있으니 틀린점은 지적해주시면 감사하겠습니다. 로지스틱 회귀는 '회귀' 라고는 하지만 선형 이진 분류에서 뛰어난 성능을 내는 알고리즘이다. 보통 이진분류에만 사용하지만, 다중분류에도 사용할 수 있다.(복잡해서 쓰지 않는다고함) 퍼셉트론의 가장 큰 단점은 클래스가 선형으로 구분되지 않을 때 사용할 수 없다는 점이였다. 로지스틱 회귀는 비선형 분류모델에 적용할 수 있다. 설명하기전에 일단 오즈비(odds ratio)를 알아보자. "특정 이벤트가 발생할 확률"을 뜻한다. 동전 던지기의 확률이 1/2 일 때 앞면이 나올 확률 대비 뒷면이 나올 확률의 비율(오즈비)는 1 오즈비에 자연로그를 취한 값(p / (1 - p) 에 로그를 씌운것)을 로짓 함수라고 부.. 2020. 10. 28.
반응형