r 로지스틱 회귀분석 예제

Posted by on kol. 2, 2019 in Nekategorizirano | 0 comments

회귀 자습서에서와 같이 데이터를 교육으로 분할합니다(60%). 및 테스트 (40%) 데이터 세트를 통해 모델이 샘플 외 데이터 세트에서 얼마나 잘 수행되는지 평가할 수 있습니다. 모든 분류 문제를 작업하는 동안, 나는 물류 회귀로 첫 번째 모델을 구축하는 것이 좋습니다. 그 이유는 비선형 방법보다 놀라운 정확도를 더 잘 득점할 수 있기 때문입니다. 그렇지 않은 경우 지정된 데이터 집합이 비선형 메서드로 더 잘 처리되고 로지스틱 회귀의 정확도를 벤치마크 점수로 사용할 수 있다는 것을 알게 될 것입니다. 이것은 로지스틱 회귀에 사용되는 방정식입니다. 여기서(p/1-p)는 홀수 비율입니다. 홀수 비율로그가 양수인 것으로 확인될 때마다 성공 확률은 항상 50% 이상입니다. 일반적인 물류 모델 플롯은 다음과 같습니다. 확률은 0 이하로 떨어지지 않으며 1 이상으로 올라가지 않습니다. 아가왈, A. “물류 회귀. 단순화”.

데이터 사이언스 그룹 IITR. https://medium.com/data-science-group-iitr/logistic-regression-simplified-9b4efe801389 종속 변수가 일반적으로 분산되지 않는 상황이 발생합니다. 즉, 정상의 가정이 위반됩니다. 예를 들어 종속 변수가 이진(남성/여성)인 경우 문제를 생각해 보십시오. 당신은 여전히 여러 회귀를 사용합니까? 물론 아니에요! 왜? 아래에서 살펴보겠습니다. 1. 다항 물류 회귀: 대상 변수에 K = 4 클래스가 있다고 가정해 보겠습니다. 이 기술은 K-1 독립적인 바이너리 로지스틱 분류기 모델을 피팅하여 다중 클래스 문제를 처리합니다. 이렇게 하려면 하나의 대상 클래스를 참조 클래스로 임의로 선택하고 나머지 각 클래스를 참조 클래스와 비교하는 K-1 회귀 모델에 맞습니다. 로그 모델이라고도 하는 로지스틱 회귀는 이분형 결과 변수를 모델링하는 데 사용됩니다. 로그 모델에서 결과의 로그 배당률은 예측 변수의 선형 조합으로 모델링됩니다.

계수 출력의 많은 측면은 선형 회귀 출력에서 논의된 것과 유사합니다. 예를 들어 표준 오차를 계산하여 계수 추정값의 신뢰 구간과 정확도를 측정할 수 있습니다. 예를 들어, p-값 <2e-16은 수행된 균형과 불이행 확률 사이의 통계적으로 유의한 관계를 암시합니다.