Simple Linear Regression (단순회귀분석)
Simple Linear Regression (단순회귀분석 이란?)
Simple Linear Regression은 공학과 과학 분야에서 변수들 간의 관계를 찾는 방법 중 하나입니다. 이 방법은 input variable(독립 변수)과 response variable(종속 변수) 사이의 선형적인 관계를 찾아내는 것을 목표로 합니다.
여기서 'response variable'은 우리가 알고 싶은 변수이고, 'input variable'은 그것에 영향을 미치는 변수입니다.
Simple Linear Regression에서는 input variable이 하나인 경우를 다루며, response variable은 input variable에 따라 선형적으로 변화한다고 가정합니다.
이 식에서 input variable 은 x, response variable 은 y 라고 할 수 있겠죠.
하지만 자연에서는 오차가 생길수 있으니 Simple Linear Regression 모델에서는 이 차이를 'random error'로 가정하고 계산합니다.
단순회귀분석을 사용하는 과학분야 예시
과학 분야에서 Simple Linear Regression은 매우 다양한 분야에서 사용됩니다.
화학: 반응 시간과 반응물 농도 사이의 관계
물리학: 물체의 질량과 가속도 사이의 관계
생물학: 동물의 몸무게와 특정 기능(예: 심장 용량) 사이의 관계, DNA 서열과 특정 형질(예: 키) 사이의 관계
Scatter Plots와 Correlation
Scatter Plots는 두 변수 간의 관계를 시각적으로 보여주는 그래프입니다.
예를 들면 이런 데이터가 있다면 이 데이터를
이런식으로 나타낼 수 있습니다.
이렇게 그려진 Scatter Plot은 두 변수 간의 관계를 쉽게 파악할 수 있도록 도와줍니다.
Correlation은 두 변수 간의 상관 관계를 나타내는 지표입니다.
Correlation Coefficient라는 개념을 사용하여 상관 관계의 정도를 수치화할 수 있습니다.
Correlation Coefficient는 -1에서 1 사이의 값을 가지며, 1에 가까울수록 양의 상관 관계가 강하다는 것을 의미하고, -1에 가까울수록 음의 상관 관계가 강하다는 것을 의미합니다.
저 그래프에서의 correlation은 1이겠네요.
주어진 데이터에 가장 적합한 모델 찾는법
최소제곱법(Least Squares Method)은 주어진 데이터에 가장 적합한 모델을 찾기 위해 사용되는 방법 중 하나입니다.
최소제곱법은 선형 회귀 분석에서 사용되며, 데이터 포인트들이 직선 형태로 분포되어 있을 때 사용됩니다.
이 방법은 데이터 포인트들 사이의 거리(오차)를 최소화하여 최적의 직선을 찾습니다.
1. X와 Y 간의 상관 관계를 나타내는 직선을 그린다
2. 모든 데이터 포인트들과 직선 사이의 거리(오차)를 계산한다
3. 거리(오차)를 최소화하는 직선을 찾는다
4. 오차의 제곱값을 모두 더한 값이 최소가 되도록 하는 수를 찾는다
이 방법을 식으로 나타내면 이런 식이 나옵니다.
최소제곱 추정량 (Least-squares estimators)
Least-squares estimators(최소제곱 추정량)은 통계학에서 회귀분석 모델을 만들 때 사용되는 추정량입니다.
최소제곱법은 오차의 제곱합을 최소화하는 직선을 찾는 방법으로, 최소제곱 추정량은 이 방법을 사용하여 회귀분석 모델의 계수(coefficients)를 추정하는 것을 의미합니다.
이 추정량은 이렇게 구해집니다:
1. 회귀분석 모델의 예측값과 실제값의 차이(오차)를 계산한다
2. 오차의 제곱합을 최소화하는 회귀계수를 찾는다
결국 오차의 제곱합을 최소화한다면, 제곱합을 미분해 0이 되는 지점을 찾으면 됩니다.
그래서 다음과 같은 식이 만들어집니다:
이 식을 계산했을 때 추정량의 값은 다음과 같아집니다: