빅데이터분석기사 제3작업형(회귀 분석)

Null to One 2025. 6. 4. 13:59

회귀 분석에는 단순 선형 회귀 분석, 다중 선형 회귀 분석, 로지스틱 회귀 분석이 있습니다. 회귀 분석 문제에서는 어떤 반응 변수(종속 변수, 결과 변수)를 설명하는 설명 변수의 계수, 그리고 절편을 구합니다. 다시 말해, 반응 변수를 잘 설명할 수 있는 선형식을 구하는 것이 선형 회귀 분석의 목적입니다. 선형이 아닌 비선형 회귀도 있지만 빅데이터분석기사에서는 아직 선형 회귀 분석까지만 다루는 것 같습니다.

회귀 분석에서 명심해야 할 것은, 모든 관측 값을 완벽하게 예측할 수 있는 선형식을 찾는 것은 거의 불가능하다는 것입니다. 완벽하게 데이터 포인트들에 핏한 선형식을 찾는 것은 거의 불가능하지만, 그 분포들을 어느 정도 잘 표현할 수 있는, 다시 말해 설명력이 있는 선형식을 찾는 것이 선형 회귀 분석의 목적이라고 보면 됩니다.

1차 식으로는 당연히 설명력에 한계가 있으니, 좀 더 곡선같은 비선형적인 형태를 데이터 분포를 설명하는게 비선형 회귀 분석인 것이라고 생각하면 됩니다.

1. 단순 선형 회귀 분석

반응 변수를 설명하는 설명 변수가 1가지이면 단순 선형 회귀 문제에 해당합니다.

앞 부분의 분산 분석에서 주구장창 사용했던 ols는 최소제곱법을 의미합니다. 이는 실제 값과 선형 회귀 모델이 예측해낸 예측 값의 차이인 잔차의 제곱합을 최소화하는 방향으로 선형회귀식을 만들어가는 방식입니다.

ols는 기본적으로 R스타일로 코드를 작성하며, 범주형 변수의 경우 알아서 잘 처리하지만, 이전에 언급했듯 만약 그 범주형 변수가 숫자로 만들어져 있다면, 이를테면 1, 2, 3, 4, 5 ... 이런 식이라면, 연속형 변수로 오인될 수 있으므로 C()로 감싸주는 것이 안전합니다.

예를 들어, 시험 점수와 공부 시간에 대해 생각해볼 수 있습니다. 여기서는 시험 점수가 반응 변수가 되고, 공부 시간이 설명 변수가 될 것입니다.

즉, 선형회귀식은 다음과 같습니다.

시험 점수 = a*공부 시간 + b + error

a는 공부 시간이 갖는 계수, b는 절편, error는 잔차항이라고 생각하면 됩니다.

회귀 분석을 위해 위와 같이 대략적인 공부 시간, 성적에 대한 데이터프레임을 짜주었습니다. 총 20명에 대한 데이터프레임입니다.

from statsmodels.formula.api import ols

import statsmodels.api as sm

model = ols('성적 ~ 공부시간', data=data).fit()

print(model.summary())

이런 식으로 선형 회귀 모델을 적합하고, model.summary()를 확인하여 계수, 절편, p-value, f-통계량 등을 확인할 수 있습니다.

위의 summary를 해석해봅시다.

우선 작성한 선형회귀 모델의 종류, 잔차의 자유도, F-통계량, 결정계수, 절편과 공부시간 계수, 표준 오차, p-value 등이 나와 있습니다.

intercept, 즉 절편은 44.1779입니다. 공부시간의 계수는 5.0125입니다.

즉, 성적에 대한 단순 선형 회귀식은 아래와 같습니다.

성적 = 5.0125*공부시간 + 44.1779

절편과 공부시간에 대한 p-value는 0으로, 유의 수준 5퍼센트 하에서 귀무 가설을 기각합니다. 즉 통계적으로 유의합니다.

결정계수인 R-squared는 선형 회귀식이 데이터들을 얼마나 잘 설명하는지를 나타냅니다. 0.986이 나왔습니다. Adj가 앞에 붙는 것은 조금 보정된 값인데, 불필요하게 사용된 설명 변수에 대해 일종의 페널티를 주어 계산합니다. 그래서 일반적으로는 그냥 결정계수에 비해 낮게 나오게 됩니다.

잔차의 자유도는 18이 나왔습니다. 이는 전체 데이터 개수인 20에서 설명 변수와 절편을 각각 제외하여 나온 결과입니다.(20-1-1=18)

위의 summary로 전체적인 결과를 볼 수도 있고, 보고 싶은 값만 보는 방법도 있습니다.

model.rsquared, model.pvalues['컬럼명'], model.params['컬럼명'], model.params['Intercept'] 뭐 이런 식으로 말입니다.

적합된 회귀 모형이 다른 새로운 데이터에 대해서 예측을 잘 수행하는지 확인해봅시다.