일관성 지수란 무엇입니까?
C-index 의 영어 이름은 concordance index 이고 중국어는 concordance index 로 번역됩니다. 판더부르크 대학교 생물통계학 교수인 Frank Harrell Jr 1996 이 최초로 제안한 것은 생존 분석에서 COX 모델 예측치와 실제값의 구분도를 계산하는 데 주로 사용되었으며, 사실상 친숙한 AUC 와 비슷하다. 종양 환자의 예후 모델의 예측 정확도를 평가하는 데 널리 사용됩니다. 일반 평가 모델에는 두 가지 주요 측면이 있습니다. 하나는 모델의 맞춤 우수도로, 일반적으로 사용되는 평가 지표는 R 제곱, -2logL, AIC, BIC 등이다.
다른 하나는 모델의 예측 정확도입니다. 이름에서 알 수 있듯이 모델의 실제 값과 예측 값의 차이, 평균 분산 및 상대 오차입니다. 임상 응용에서 더 많은 관심은 예측 정확도이고, 모델링의 주요 목적은 예측이고, C 지표는 모델 평가 지표의 예측 정확도에 속한다.
C 지수는 연구 데이터의 모든 연구 대상을 무작위로 쌍으로 계산하는 방식으로 계산됩니다. 생존 분석을 예로 들자면, 두 환자 중 한 환자가 다른 환자보다 생존 시간이 길거나 생존 확률이 높은 그 환자의 예측 생존 시간이 다른 환자보다 길면 예측 결과가 실제 결과와 일치한다고 하면 일치한다고 합니다.
C 지수 계산 = k/m.
위의 계산 방법에서 알 수 있듯이 C-index 는 0.5 에서 1 사이입니다 (무작위 쌍의 경우 일관성과 불일치의 확률은 정확히 0.5 임). 0.5 완전 불일치, 모델에 예측 기능이 없음을 나타냅니다. 1 완전 준수, 모델의 예측 결과가 실제 상황과 정확히 일치함을 나타냅니다. 일반적으로 c 지수는 0.50-0.70 에서는 정확도가 낮고 0.7 1-0.90 에서는 정확도가 중간입니다. 0.90 보다 높으면 정확도가 높고 상관 계수와 약간 비슷합니다.
디지털 C-index 에서만 정확도가 높은지 낮은지 측정하기가 어렵기 때문에 사람들은 통계적 검사를 통해 이 수준을 설득하고 증명하려고 한다. 이는 유전자 차이를 선별할 때 차이의 배수만 보고 표현 차이가 너무 독단적이라고 판단하는 것과 같다. 이때 Bootstrap 기술을 도입하여 예측 모델의 정확성을 검증합니다. Bootstrap 은 비패라메트릭 통계에서 통계량의 분산을 추정하여 간격을 추정하는 중요한 통계 방법입니다.
Bootstrap 메서드의 핵심 아이디어와 기본 단계는 다음과 같습니다.
(1) 리샘플링 기술을 사용하여 원본 샘플에서 일정 수의 샘플을 추출합니다. 이 프로세스를 통해 리샘플링이 가능합니다.
(2) 추출 된 샘플에 따라 주어진 통계 t 를 계산하십시오.
(3) 위의 n 회 (일반적으로 1000 보다 큼) 를 반복하여 n 개의 통계 t 를 얻습니다 .....
(4) N 개의 통계량 T 의 샘플 트리 분산을 계산하여 통계량의 분산을 얻는다.
또한 데이터 세트가 큰 경우 다른 배율로 분할할 수 있습니다. 일부는 모델링에 사용되고 일부는 검증에 사용됩니다. 상호 검증 (예: 5 배, 10 배 등).
복잡해 보이지만, 사실 이런 일도 한 적이 있다. R 에는 일관성 지수를 직접 계산할 수 있는 Hmisc 와 compareC 패키지가 있습니다. 두 패키지 모두 c-index 를 계산할 수 있습니다.