현재 위치 - 주공해몽공식사이트 - 랜덤 번호 뽑기 점술 - 넓은 의미의 가산성 모델 gam 에서 처리되는 매개변수는 무슨 뜻입니까?

넓은 의미의 가산성 모델 gam 에서 처리되는 매개변수는 무슨 뜻입니까?

원본 링크:/? P=20882?

1 소개

이 기사에서는 일반화 된 추가 모델을 사용하는 이유에 대해 설명합니다. 좋은 선택입니다. 이를 위해서는 먼저 선형 회귀를 살펴보고 어떤 경우에는 최적의 선택이 아닐 수 있는 이유를 살펴보아야 합니다.

2 회귀 모형

두 개의 속성 Y 와 X 가 있는 데이터가 있다고 가정해 보겠습니다. 선형 관계인 경우 다음과 같을 수 있습니다.

A & lt-ggplot(my_data, aes(x=X, y=Y))+geom_point()+

이 관계를 테스트하기 위해 회귀 모형을 사용할 수 있습니다. 선형 회귀는 x 를 사용하여 변수 y 를 예측하는 방법입니다. 데이터에 적용하면 값 세트가 빨간색 선으로 예측됩니다.

A+geom_smooth(col="red ",method="lm")+

이것이 바로 "선형 방정식" 입니다. 이 방정식에 따르면, 우리는 Y 축에서 직선이 시작되는 위치 ("절거리" 또는 α) 부터 시작할 수 있습니다. X 의 각 단위마다 얼마나 많은 Y ("기울기") 가 추가되어 있으며, 이를 X 또는 베타의 계수라고 합니다. 약간의 자연스러운 파동이 있다. 그렇지 않으면 모든 점이 완벽하다. 우리는 그것을 "나머지" (? ) 을 참조하십시오. 수학적으로:

또는 실제 숫자로 대체하면 다음과 같은 결과를 얻을 수 있습니다.

이 문서에서는 각 데이터 포인트와 선 사이의 차이 ("잔차") 를 고려하여 모델을 추정한 다음 차이를 최소화합니다. 우리 선의 위와 아래에 모두 양수와 마이너스 오차가 있기 때문에 제곱을 하고 제곱합을 최소화함으로써 그것들은 추정에 모두 양수이다. 이를 "일반 최소 평방" 또는 OLS 라고 합니다.

3 비선형 관계란 무엇입니까?

자, 만약 우리의 데이터가 이렇게 보인다면, 우리는 어떻게 해야 할까요?

우리가 방금 본 모델의 핵심 가정 중 하나는 Y 와 X 가 선형적으로 관련되어 있다는 것입니다. 만약 우리의 Y 가 정규 분포가 아니라면, 넓은 의미의 선형 모델을 사용하시겠습니까? (넬드 & 웨이드번, 1972), 여기서 Y 는 링크 함수에 의해 변환되지만 f(y) 와 X 선형 관계가 있다고 다시 가정합니다. 그렇지 않다면, x 범위 내에서 관계가 변하는 것이 가장 적합하지 않을 수 있습니다. 우리에게는 몇 가지 옵션이 있습니다.

선형 맞춤을 사용할 수는 있지만, 이렇게 하면 일부 부분의 데이터보다 높거나 낮을 수 있습니다.

우리는 몇 가지 범주로 나눌 수 있다. 아래 그림에서 나는 세 개를 사용했는데, 비교적 합리적인 선택이다. 마찬가지로, 데이터의 일부 부분 아래 또는 위, 범주 사이의 경계 근처에서 정확할 수 있습니다. 예를 들어 x = 49, y, x = 50 은 많이 다른가요?

다항식과 같은 변환을 사용할 수 있습니다. 다음으로 저는 3 차 다항식을 사용했기 때문에 모델이 적합합니다. 이러한 조합은 함수를 부드럽고 근사한 변화로 만듭니다. (존 F. 케네디, Northern Exposure (미국 TV 드라마), 예술명언) 이것은 좋은 선택 이지만, 그것은 큰 변동이 있을 수 있으며, 그것은 데이터의 관련성을 일으킬 수 있으며, 따라서 맞춤도를 줄일 수 있습니다.

그림 설명을 입력하려면 클릭하십시오.

그림 설명을 입력하려면 클릭하십시오.

4-스플라인 곡선

다항식의 추가 미세 조정은 데이터 범위 내에서 다항식을 연결하여 모양을 설명하는 "세그먼트" 다항식을 맞추는 것입니다. 스플라인은 세그먼트 다항식으로, 제도사가 곡선을 그릴 때 사용하는 도구의 이름을 따서 명명되었습니다. 물리적 스플라인은 무게로 구부러지고 고정될 수 있는 유연한 막대입니다. 수학 스플라인을 구성할 때 다항식 함수가 있습니다. 2 차 미분은 연속적이며 접합점에서 고정되어 있습니다.

다음은 ggplot2 입니까? 대상. 대상? Geom_smooth? 수식에 ns 가 포함되어 있습니까? 함수의 "자연 큐빅 스플라인"? 。 스플라인은 10 섹션을 사용하는 3 차원 곡선입니다.

그림 설명을 입력하려면 클릭하십시오.

그림 설명을 입력하려면 클릭하십시오.

5 평활 함수

스플라인은 부드럽게 또는 "불안정" 할 수 있으며 노드 수 (k) 를 변경하거나 부드러운 벌칙 γ를 사용하여 조정할 수 있습니다. 노트 수를 늘리면 더 "흔들림" 이 됩니다. 이것은 데이터에 더 가까울 수 있고, 오차는 더 작을 수 있지만, 우리는' 과맞춤' 관계를 시작하여 우리 데이터의 소음에 맞춰지기 시작했다. 부드러운 벌칙과 결합할 때 모형의 복잡성을 처벌하여 과도하게 맞추는 데 도움이 됩니다.

그림 설명을 입력하려면 클릭하십시오.

6 일반화 된 첨가제 모델 (GAM)

일반화 된 가산 모델 (GAM)(Hastie, 1984) 은 회귀 모델에서 스플라인과 같은 매끄러운 함수를 예측기로 사용합니다. 이러한 모델은 엄격 하 게 추가할 수 있습니다, 즉, 우리는 정상적인 회귀 처럼 상호 작용을 사용할 수 없습니다, 하지만 우리는 더 부드러운 모델로 다시 매개 변수화를 통해 같은 효과를 얻을 수 있습니다. 사실은 그렇지 않지만, 본질적으로, 우리는 하나의 모델로 향하고 있습니다. 예를 들면 다음과 같습니다.

그림 설명을 입력하려면 클릭하십시오.

나무로 만든 거야? (20 17) 에서 GAM 의 더 공식적인 예? 예:

그림 설명을 입력하려면 클릭하십시오.

여기에는 다음이 포함됩니다.

μ I Ͱ e (yi), y 의 기대

쉬운? EF(μi,? I), Yi 는 평균 μi 및 모양 매개 변수에 따라 응답 변수입니까? 지수 계열 분포.

Ai 는 엄격하게 매개변수화된 모델 어셈블리의 모델 행렬 행입니다. 여기서 θ는 해당 매개변수 벡터입니다.

Fi 는 공변 xk 의 매끄러운 함수입니다. 여기서 K 는 각 함수의 기초입니다.

회귀 모형을 만들고 싶지만 매끄러운 맞춤이 더 잘 될 것이라고 의심한다면, GAM 은 좋은 선택이다. 비선형 또는 잡음 데이터에 적합합니다.

7 gam 액세서리

그럼, 어때요? 위의 S-유형 데이터를 위해 구축되었습니까? GAM 모드? 여기서 나는 큐빅 스플라인으로 돌아갈까? 다음 중 하나를 수행합니다.

Gam(Y ~ s(X, bs="cr ")

위의 설정은 다음을 의미합니다.

S () 에는 스무딩 장치가 할당됩니다. 다른 옵션도 있지만 s 가 좋은 기본 옵션입니다.

BS = "Cr "은 큐빅 회귀 스플라인 ('basis') 을 사용하라고 알려줍니다.

S 함수는 사용할 기본 노트 수를 계산하지만 k= 10 으로 변경할 수 있습니다 (예: 10 노트).

8 모델 출력:

모델 요약을 보려면 다음을 수행합니다.

패밀리: 가우스 # # 링크 함수: 신원 # # 매개변수 계수: # # 예상 표준 편차. 오류 테스트 값 Pr(& gt;; |t|)## (절편)? 43.9659 0.8305? 52.94? & lt2e-16 * * * * # # #-# # 유효 비트. 코드:? 0' * * *' 0.001'* *' 0.01'*' 0.05'.' 0.1'입니다 7. 143 296.3? & lt2e-16 * * * * # # #-# # 유효 비트. 코드:? 0' * * *' 0.001'* *' 0.01'*' 0.05'.' 0.1'입니다 (adj) =? 0.876? 해석 편차 = 87.9% # # GCV = 211.94? 규모를 가늠하다. = 206.93 n = 300

모든 부드럽지 않은 매개변수가 표시되는 가로채기의 모형 계수를 표시합니다.

각 스무딩 항목의 일반적인 의미는 다음과 같습니다.

이는 유효 자유도 (EDF) 를 기반으로 합니다. 우리가 사용하는 스플라인 함수는 많은 매개변수까지 확장할 수 있지만, 우리는 또한 이들을 처벌하여 영향을 줄이고 있기 때문입니다.

9 모델 확인:

해야 할까요? Gam.check ()? 이 함수를 사용하여 잔차 그래프를 볼 수 있지만 스무딩기를 테스트하여 데이터를 설명하기에 충분한 노트가 있는지 확인할 수도 있습니다. 그러나 P 값이 낮으면 더 많은 매듭이 필요하다.

그림 설명을 입력하려면 클릭하십시오.

# # # # 메서드: GCV? 최적기: 매직 # # # 스무딩 매개변수 선택은 4 회 반복 후 수렴됩니다. 수렴 시 RMS GCV 분수 그라데이션은1..107369e-05 입니다. # # 헤슨은 긍정이다. # # 모델 순위 =? 10/10#### 기본 치수 (k) 검사 결과. 낮은 p 값 (k 지수< 1) 은 특히 EDF 가 k' 에 가까울 때 k 가 너무 낮다는 것을 나타낼 수 있습니다. # # # # # 좋아요? Edf k 지수 p 값 # # s (x) 9.00 6.091..10.97

10 이 선형 모델보다 좋은가요?

같은 데이터의 일반 선형 회귀 모델을 비교해 보겠습니다.

분산 분석 (내 lm, 내 gam)

# # 분산 분석 테이블 # # # # 모델 1: Y ~ X## 모델 2: Y ~ s(X, bs = "cr")##? Res.Df? RSS Df 제곱합? 홍보 (>F) # #1298.00 88154 # # 2 292.916061 2.2e-16 * * * * # # #-# # 유효 비트. 코드:? 0' * * *' 0.001'* *' 0.01'*' 0.05'.' 0.1'입니다

우리의 ANOVA 함수는 여기서 F검사를 수행합니다. 우리의 GAM 모델은 선형 회귀보다 훨씬 우수합니다.

1 1 요약

우리는 회귀 모형이 무엇인지, 그리고 우리가 한 변수 Y 와 다른 변수 X 를 어떻게 해석하는지 보았다. 기본 가정 중 하나는 선형 관계이지만, 상황이 항상 그런 것은 아니다. X 범위 내에서 관계가 변경되면 함수를 사용하여 모양을 변경할 수 있습니다. 한 가지 좋은 방법은 "매듭" 점에서 부드러운 곡선을 연결하는 것입니다. 이를 "스플라인" 이라고 합니다

일반 회귀에서 이러한 스플라인을 사용할 수 있지만, GAM 의 배경에서 사용할 경우 회귀 모형을 추정하고 모형을 더 부드럽게 만드는 방법도 예상해야 합니다.

위의 예는 선형 회귀 모형보다 훨씬 더 잘 맞는 스플라인 기반 GAM 을 보여 줍니다.

12 참조:

넬드, J.A. 웨이들번, 우편번호: 1972. 넓은 의미의 선형 모형. 로얄 통계학회 잡지. A 시리즈 (일반),135,370-384.

할레, f.e., JR. 200 1. 모델링 전략, 뉴욕, 스프링거 출판사, 뉴욕으로 돌아갑니다.

그림 설명을 입력하려면 클릭하십시오.

가장 유행하는 관점

1 에서 여러 Logistic 회귀 응용 사례. R 언어

2. PSTR (panel smooth transfer regression) 분석 사례 구현

3.3.matlab 의 부분 최소 제곱 회귀 (PLSR) 및 주성분 회귀 (PCR)

4.R 언어 포아송 회귀 모델 사례 연구

5.R 언어 회귀에서의 Hosmer-Lemeshow 맞춤 우수성 테스트

올가미 회귀, 릿지 회귀 및 유연한 네트워크 모델의 r 언어 구현

7. r 언어로 논리적 회귀를 실현하다.

8. 파이썬은 선형 회귀를 사용하여 주가를 예측합니다.

9.R 언어는 생존 분석과 Cox 회귀에서 IDI 와 NRI 지수를 어떻게 계산합니까?