안녕하세요 공남녀 스텔라입니다. 논문을 읽을때 연구결과 부분에서는 통계와 관련한 여러운 용어들이 많이 등장합니다. 오늘은 회귀분석과 관련한 용어들 파헤쳐 보겠습니다.
내용출처논문: 김영애, & 한금선. (2021). 임상간호사의 업무수행능력과 분노관리능력, 회복탄력성, 자기자비. 정신간호학회지, 30(2), 110-118.
다중공선성(Multicollinearity)
다중공선성(Multicollinearity)은 회귀 분석에서 독립 변수들 간에 강한 선형 상관 관계가 나타나는 현상을 나타냅니다. 다중공선성이 존재하면 회귀 모델의 해석이 어려워지고, 추정값이 불안정해질 수 있습니다. 이러한 문제를 해결하려면 다중공선성을 진단하고, 필요한 조치를 취해야 합니다.
다중공선성 진단을 위해 사용되는 여러 지표와 방법이 있습니다:
1. VIF (Variance Inflation Factor): VIF는 각 독립 변수가 다른 독립 변수들과 얼마나 강하게 상관되어 있는지를 측정합니다. 일반적으로 VIF 값이 10보다 크면 다중공선성의 가능성이 높다고 판단됩니다.
2. 공선성 행렬 (Collinearity Matrix): 공선성 행렬은 독립 변수들 간의 상관 관계를 나타내는 행렬로, 높은 상관 관계가 있는 변수 쌍을 확인할 수 있습니다.
3.계수의 부호와 크기: 다중공선성이 존재할 경우, 회귀 계수의 부호가 예상과 반대일 수 있습니다. 또한, 독립 변수의 부호 변화가 예상보다 크게 일어날 수 있습니다.
4. Tolerance: Tolerance는 VIF의 역수로, 다른 변수들과 어느 정도의 고유 정보를 갖고 있는지를 나타냅니다. Tolerance 값이 낮을수록 다중공선성의 가능성이 높아집니다.
다중공선성이 심각한 경우, 다음과 같은 대응책을 고려할 수 있습니다:
1.변수 제거: 다중공선성이 강한 변수를 제거하거나, 상관 관계가 높은 변수들을 합쳐서 새로운 변수를 생성할 수 있습니다.
2. 릿지 회귀 또는 라쏘 회귀 사용: 이러한 회귀 방법은 다중공선성을 완화하는데 도움을 줄 수 있습니다.
잔차(Residuals)
회귀분석에서 "잔차(Residuals)"란 모델로 예측한 값과 실제 관측값 간의 차이를 나타냅니다. 간단히 말해, 잔차는 회귀 모델이 관측값을 설명하지 못한 부분을 나타내며, 이는 모델의 정확성을 평가하고 모델의 개선 여지를 확인하는 데 사용됩니다.
잔차는 다음과 같이 계산됩니다:
잔차=실제 관측값− 모델로 예측한 값
잔차가 양수인 경우 모델이 관측값을 과소로 예측했다는 것을 나타내며, 음수인 경우 모델이 관측값을 과대로 예측했다는 것을 나타냅니다. 잔차의 제곱을 계산한 "잔차 제곱"은 모델의 성능을 평가하거나 최적화 과정에서 사용할 수 있습니다.
잔차의 분포를 살펴보면, 정규 분포에 가까울수록 모델이 데이터를 잘 설명하고 있음을 나타냅니다. 잔차의 패턴이나 비정규적인 분포는 모델의 부적절성을 나타내며, 이를 수정하기 위해 모델을 개선할 필요가 있을 수 있습니다.
잔차 분석을 통해 모델의 적합성과 예측 능력을 평가하고, 잠재적인 문제를 확인하여 모델을 향상시킬 수 있습니다. 이는 회귀 분석의 결과를 신뢰할 수 있게 만드는 중요한 단계 중 하나입니다.
공차한계(heteroscedasticity)
공차한계(heteroscedasticity)는 회귀분석에서 나타나는 현상으로, 모델의 잔차(예측 오차)가 독립 변수의 값에 따라 분산이 일정하지 않을 때 발생합니다. 간단히 말해, 독립 변수의 특정 값 범위에서 오차의 분산이 크게 달라지는 현상을 나타냅니다.
공차한계가 발생하면 회귀 모델의 통계적 가정이 깨지게 되어 모델의 예측 불확실성이 증가하고, 회귀 계수의 표준 오차를 정확하게 추정하기 어려워집니다. 이는 모델의 신뢰성을 낮출 수 있습니다.
공차한계를 확인하고 대응하기 위한 일반적인 방법은 다음과 같습니다:
1.잔차 그림 확인: 잔차 그림을 통해 독립 변수와 잔차 간의 관계를 시각적으로 확인할 수 있습니다. 만약 잔차의 분산이 독립 변수의 특정 값에서 크게 달라진다면 공차한계가 존재할 가능성이 높습니다.
2.잔차의 변환: 로그 변환 또는 다른 변환 기법을 사용하여 잔차의 분산을 안정화할 수 있습니다.
가중치 최소제곱법 사용:
3.가중치 최소제곱법(weighted least squares)은 분산이 일정하지 않은 경우에 유용한 회귀 분석 기법 중 하나입니다. 이를 통해 가중치를 조절하여 모델을 적합시킵니다.
4.Robust 회귀 모델 사용: 로버스트 회귀 모델은 이상치나 비정상적인 분포에 강건한 회귀 모델로, 공차한계에 민감하지 않을 수 있습니다.
공차한계를 확인하고 이에 대응하는 것은 모델의 신뢰성을 높이고 예측의 정확성을 향상시키는데 중요합니다.
분산팽창인자(Variance Inflation Factor, VIF)
분산팽창인자(Variance Inflation Factor, VIF)는 회귀 분석에서 다중공선성을 평가하는 지표 중 하나입니다. 다중공선성은 회귀 모델에서 독립 변수들 간에 강한 선형 상관관계가 나타나는 현상이며, 이는 회귀 계수의 효과 추정을 불안정하게 만들 수 있습니다.
VIF는 각 독립 변수가 다른 독립 변수들과 얼마나 강하게 상관되어 있는지를 나타내는 수치로, 특정 독립 변수의 VIF 값이 크면 해당 독립 변수가 다른 독립 변수들과 강한 다중공선성을 가진 것으로 해석됩니다.
VIF의 해석은 다음과 같습니다:
1.0: 다중공선성이 없음
1-5: 다중공선성의 가능성이 낮음
5-10: 다중공선성의 가능성이 중간 정도
10 이상: 다중공선성의 가능성이 높음
일반적으로 VIF가 10 이상이면 해당 독립 변수들 간에 강한 다중공선성이 존재한다고 판단되며, 이러한 경우 모델에서 얻은 회귀 계수의 해석이 어려워집니다. 다중공선성 문제를 해결하기 위해 변수를 조정하거나, 변수 선택을 다시 검토하거나, 데이터 수집 방법을 개선하는 등의 조치를 취할 수 있습니다.