왜 중요할까요?
무작위 통제 실험은 인과관계를 결정하는 금기준이지만, 때로는 이런 실험을 진행할 수 없을 때가 있다. 많은 회사들이 대량의 데이터를 수집하고 있다. 신뢰도는 낮지만 관찰성 인과관계 연구는 인과관계를 평가하는 데 여전히 사용될 수 있다. 온라인 제어 실험을 할 수 없다면 가능한 실험과 일반적인 함정을 이해하는 것이 유용합니다.
사용자가 핸드폰을 아이폰에서 삼성으로 바꾸면 제품 참여도에 어떤 영향을 미칩니까? 강퇴하면 얼마나 많은 사용자가 돌아올까요? 쿠폰을 비즈니스 모델의 일부로 도입하면 수익에 어떤 영향을 미칩니까? 이러한 모든 문제에 대해 분석의 목표는 인과 관계를 찾는 것이다. 이것은 개입 집단의 결과를 비개입 집단의 결과와 비교해야 한다. 인과 추론의 원리' (바리안, 2065, 438+06) 는 다음과 같습니다.
이는 또한 실제 영향 (치료군에 미치는 영향) 과 반사실 영향 (치료되지 않은 사람들에게 미치는 영향) 을 비교하는 것이 인과관계를 결정하는 열쇠임을 보여준다.
대조실험은 인과관계를 평가하는 금기준이다. 표본이 무작위로 분포된 경우 첫 번째는 관찰된 처리와 대조의 차이이고 두 번째는 기대치가 0 이기 때문이다.
그러나 때로는 적절한 통제 실험을 할 수 없습니다. 이러한 상황은 다음과 같습니다.
위의 경우 가장 좋은 방법은 일반적으로 다양한 증거 수준이 낮은 방법을 사용하여 효과를 평가하는 것입니다. 즉, 소규모 사용자 경험 연구, 조사 및 관찰 연구를 포함한 여러 가지 방법을 사용하여 질문에 답하는 것입니다. 기타 기술 소개는 10 장을 참조하십시오.
이 장에서 우리의 중점은 관찰 연구의 인과효과를 추정하는 것이다. 우리는 이를 관찰 인과연구라고 부른다. 샤디스와 같은 책들이 있습니다. (200 1) 용어' 관찰 (인과성) 연구' 는 간섭 대상이 없는 연구를 의미하고' 준실험 설계' 는 샘플을 다른 간섭 그룹에 할당했지만 분배는 무작위가 아닌 연구를 의미한다. 자세한 내용은 바리안 (20 16) 과 앙그리스터와 피시크 (2009, 20 14) 를 참조하십시오. 관찰 인과 관계 연구를 보다 일반적인 관찰 또는 회고성 데이터 분석과 구분한다는 점에 유의하십시오. 둘 다 과거 로그 데이터를 기반으로 인과관계 연구를 관찰하는 목표는 가능한 인과관계의 결과에 접근하는 것이다. 10 장에서 설명한 바와 같이, 회고성 데이터 분석에는 분포를 요약하고, 특정 행동 패턴의 보편성을 발견하고, 가능한 지표를 분석하고, 제어된 실험에서 검사할 수 있는 가정을 찾는 등 다양한 목표가 있습니다.
인과 관계 연구를 관찰하는 것은 다음과 같은 도전에 직면 해 있습니다.
인터럽트 시퀀스 (ITS) 는 시스템의 변수를 제어할 수 있지만 개입 방안은 무작위로 적절한 제어와 개입을 할 수 없는 준 실험 설계입니다. 같은 사람이 통제와 치료에 쓰이고, 시간이 지남에 따라 사람의 체험을 바꿀 수 있다.
특히 일정 기간 동안 간섭을 여러 번 측정하여 모델을 작성합니다. 이 모델은 개입 후 관심 있는 지표에 대한 반사실 추정치를 제공합니다. 개입 후 여러 측정을 수행합니다. 치료 효과는 지표 실제와 모델 예측값의 평균 차이 (Charles 및 Melvin 2004, 130) 로 정의됩니다. 간단한 ITS 의 확장 중 하나는 개입을 도입한 다음 뒤집는 것이다. 너는 이 과정을 몇 번 반복하도록 선택할 수 있다. 예를 들어, 각종 치료 개입을 이용하여 경찰 헬기 감시가 입실 절도에 미치는 영향을 평가했다. 지난 몇 개월 동안 몇 가지 감시 조치가 시행되고 철회되었다. 헬리콥터 감시를 실시할 때마다 입실 절도의 수가 줄어든다. 감시가 취소될 때마다 입실 절도의 수가 늘어난다 (Charles 와 Melvin 2004). 온라인 환경에서 유사한 예는 온라인 광고가 검색 관련 웹 사이트 액세스에 미치는 영향을 이해하는 것입니다. 개입의 영향을 추론하기 위해 복잡한 모델링이 필요할 수 있으며 베이지안 구조 시계열 분석 (Charles 및 Melvin 2004) 을 사용할 수 있습니다.
인과 관계 연구에서 흔히 볼 수 있는 문제 중 하나는 어떤 혼합 영향이 있을 때 이러한 간섭의 영향을 배제해야 한다는 것이다. ITS 의 가장 일반적인 혼동은 시간 기반 영향입니다. 실험이 서로 다른 시점에서 비교되기 때문입니다. 계절성은 분명한 예이지만, 다른 잠재적인 시스템 변화도 혼란을 야기할 수 있다. 여러 번 왔다갔다 하면 이런 가능성을 낮추는 데 도움이 된다. ITS 를 사용할 때의 또 다른 질문은 사용자 경험입니다. 사용자가 자신의 경험이 앞뒤로 뒤집힌다는 것을 알 수 있을까요? 이 경우 이러한 일관성 부족으로 인해 사용자가 어느 정도 화나게 되거나 좌절될 수 있으며, 이는 변화가 아니라 불일치로 인해 발생할 수 있습니다.
인터리빙 실험 설계는 검색 엔진이나 웹 사이트에서 검색하는 것과 같이 정렬 알고리즘의 변화를 평가하는 데 일반적으로 사용되는 설계입니다 (예: Chapelleet al., 2012; 라드린스키와 클라스웰, 20 13). 인터리빙 실험에 두 개의 정렬 알고리즘 X 와 Y 가 있다고 가정해 봅시다. 알고리즘 x 는 이 순서로 결과를 표시하고 알고리즘 y 는 결과를 표시합니다. 예를 들어 인터레이스 실험은 혼합 결과를 분산시키고 중복 결과를 제거합니다.
알고리즘을 평가하는 한 가지 방법은 두 알고리즘의 결과 조회수를 비교하는 것입니다. 이것은 강력한 실험 설계이지만, 그 적용성은 한계가 있다. 결과는 반드시 동질이어야 하기 때문이다. 첫 번째 결과가 일반적으로 더 많은 공간을 차지하거나 페이지의 다른 영역에 영향을 미치는 경우 결과가 더 복잡해집니다.
회귀 불연속 설계 (RDD) 는 개입 인구를 결정하는 명확한 임계값이 있는 한 사용할 수 있는 방법입니다. 이 임계값을 기반으로, 우리는 임계값 바로 아래에 있는 그룹을 식별하여 이를 임계값보다 정확히 높은 그룹과 비교함으로써 선택 편차를 줄일 수 있습니다.
예를 들어 장학금을 받을 때 가까운 승자 (위트와 캠벨 1960) 를 쉽게 식별할 수 있습니다. 장학금의 문턱이 80 점이라면 방금 80 점을 넘은 치료팀이 방금 80 점 이하인 대조군과 비슷하다고 생각한다. 그러나 참가자들이 그에게 강요된 개입에 영향을 줄 수 있을 때, 이 가정은 위반될 것이다. 예를 들어,' 대우' 가 합격에 적합한지 아닌지는 모르지만, 학생들은 선생님을 설득하여' 수하 인정과 합격' (McCrary 2008) 을 설득할 수 있다. (학생 개입 학생 점수)
RDD 를 사용하는 한 가지 예는 음주가 사망에 미치는 영향을 평가하는 것이다. 2 1 이상 미국인들은 합법적으로 술을 마실 수 있기 때문에 생일별로 죽음을 볼 수 있다. 그림 1 1.2. "사망률 위험은 2 1 생일날 갑자기 폭발한다 ... 기준 수준에 비해 당일 사망자 수가 100~ 150 건 증가할 것이다. 2 1 세 폭등, 일반적인 생일 효과가 아닌 것 같습니다. 이 피크가 생일 파티만 반영된다면 비슷한 나이의 다른 생일도 비슷한 변화 (20, 22 세) 를 해야 하지만 (앙그리스터와 피시크, 20 14) 는 일어나지 않았다.
위의 예와 마찬가지로, 중요한 문제는 잡동사니이다. RDD 에서는 임계값 불연속성이 동일한 임계값을 공유하는 다른 요소에 의해 오염될 수 있습니다. 예를 들어 알코올의 영향에 대한 연구에서 2 1 의 법정연령을 문턱으로 선택했다는 사실도 오염될 수 있다. 이는 합법적인 도박의 법정연령이기 때문이다. (2 1 나이는 음주 도박의 법적 연령으로 구분할 수 없다)
RDD 는 점수를 생성하는 알고리즘이 있고 점수 기반 임계값에 따라 어떤 일이 발생할 때 가장 많이 사용됩니다. 이 상황이 소프트웨어에서 발생할 경우 RDD 를 사용하는 옵션이 있지만 무작위 비교 실험이나 두 가지의 혼합 (Owen 및 Varian 20 18) 에 쉽게 적합합니다.
도구 변수 (IV) 는 무작위 분포를 근사화하려는 기술입니다. 특히 목표는 자연 실험에서 자연적으로 발생하는 무작위 분포 (Angrist 및 Pischke 20 14, Pearl 2009) 에 근접할 수 있는 도구를 결정하는 것입니다.
예를 들어, 재향 군인과 비재향 군인의 소득 차이를 분석하기 위해 베트남 징병 추첨은 개인 입대를 무작위로 할당하는 것과 유사합니다. 차터 스쿨의 좌석은 추첨을 통해 배정되므로 일부 학습에 좋은 선택이 될 수 있습니다. 이 두 가지 예에서 추첨은 출석률을 보장하지는 않지만 출석률에 큰 영향을 미친다. 그런 다음 일반적으로 2 단계 최소 평방 회귀 모형을 사용하여 효과를 추정합니다.
때때로' 무작위보다 더 좋다' 는 자연 실험이 발생할 수 있다. 의학적으로 일란성 쌍둥이가 자연실험으로 쌍둥이 연구 (Hardenet Al., 2008) 를 할 수 있도록 허용했다. McGonagall 20 14). 소셜 네트워크나 피어-투-피어 네트워크를 연구할 때 제어 실험을 하는 것은 어려울 수 있습니다. 구성원 간의 교류로 인해 치료자들의 제한을 받지 않을 수 있기 때문입니다. 그러나 알림 대기열 및 메시징 순서는 개입의 영향을 이해하는 데 사용할 수 있는 자연 실험의 유형입니다.
또 다른 방법은 비교 가능한' 통제 및 개입' 인구를 구축하는 것입니다. 일반적으로 공통 간섭 요인에 따라 사용자를 세분화하는 것입니다. 계층 샘플링과 유사합니다. 이렇게 하는 목적은 대조군과 치료인파 간의 비교가 인파 구조의 변화로 인해 발생하지 않도록 하기 위함이다. 예를 들어, Windows 에서 iOS 로 전환하는 사용자의 영향에 대한 외생 변화를 연구하고 있다면 인구의 인구통계학적 차이를 측정하지 않도록 해야 합니다.
우리는 PSM (persistic score matching) 을 사용하여 공조변수의 단위와 일치하지 않고 구성된 경향 점수 (Rosenbaum 및 Rubin 1983, Imbens 및 Rubin 20/kll 이 방법은 온라인 광고 활동의 영향 평가 (Chan et al, 20 10) 와 같은 온라인 공간에 사용되었습니다. PSM 의 주요 문제는 관찰된 공변수만 고려하므로 측정할 수 없는 요인으로 인해 숨겨진 편차가 발생할 수 있다는 것입니다. 주디아 펄 (352, 2009) 은 "로젠바움과 루빈 ..." 이라고 썼습니다 그러나, 그들이 깨닫지 못한 것은 단지 사람들에게 그들이 인식하지 못하는 위험을 경고하는 것만으로는 충분하지 않다는 것이다. " 킹과 닐슨 (20/King-0/8) 은 PSM 이 "결과가 예상보다 상반되어 불균형, 비효율성, 모델 의존성, 편견을 가중시키는 경우가 많다" 고 주장했다.
이 모든 방법에 있어서 중요한 문제는 잡동사니이다.
이러한 방법 중 많은 부분이 치료팀과 가능한 비슷한 대조군을 찾는 방법에 초점을 맞추고 있습니다. 이러한 이유로 개입의 효과를 측정하는 한 가지 방법은 차이 (DD 또는 DID) 입니다. * * * 같은 추세가 있다고 가정하면, 그 차이는 개입으로 인한 것이다. 특히 이들 집단은' 치료 없이 다를 수 있지만 병행한다' (Angrist 와 Pischke 20 14).
이 기술은 일반적으로 지리적 위치 기반 실험에 사용됩니다. 너는 텔레비전 광고의 역할을 알고 싶어한다. 한 DMA 에 TV 광고를 넣어 다른 DMA 와 비교하다. 그림과 같이 시간 T 1 변화 치료팀. T 1 전후에 T2 에서 치료와 대조를 측정한다. 대조군의 두 기간 동안의 주의 지표 (예: OEC) 간의 차이는 계절성, 경제력, 인플레이션과 같은 외부 요인을 포착하기 위해 실제 상황과 반대되는 사실을 보여준다고 가정해 봅시다. 효능은 관련 지표의 차이에서 같은 기간 이 지표의 대비 차이를 뺀 것으로 추정된다.
개입 없이 외부가 변경되더라도 이 방법을 적용할 수 있습니다. 예를 들어, 뉴저지주의 최저임금이 변경될 때 패스트푸드점 취업수준에 미치는 영향을 연구하고자 하는 연구원들은 뉴저지와 비슷한 점이 많은 펜실베이니아 동부 상황과 비교했습니다 (Card 및 Krueger 1994).
인과관계 연구를 관찰하는 것이 가장 좋은 선택일 때도 있지만, 우리는 몇 가지 함정을 주의해야 한다. (자세한 목록은 신인 등 (20 15) 을 참조하십시오. 앞서 언급했듯이 인과관계 연구의 주요 함정을 관찰하는 것은 어떤 방법을 사용하든 예상치 못한 혼합요인으로, 측정의 효과와 인과관계가 이익 변화에 미치는 영향에 영향을 미친다. 이러한 잡다한 요인들로 인해 인과관계를 관찰하는 연구는 믿을 만한 결과를 얻기 위해 많은 노력이 필요하다. 또한 관찰 인과율 연구에 대한 반박도 많다 (본 란의' 관찰 인과율 연구에 대한 반박' 과 이 장 뒤의 17 장 참조).
일반적인 혼동은 인식되지 않은 원인이다. 예를 들어, 인간에서 손바닥의 크기는 예상 수명과 밀접한 관련이 있습니다. 평균적으로 손바닥이 작을수록 예상 수명이 길어집니다. 그러나 손바닥이 작고 수명이 긴 일반적인 원인은 성별이다. 여성의 손바닥이 작고 수명이 길기 때문이다 (미국은 약 6 년).
또 다른 예로, Microsoft Office 365 를 포함한 많은 제품들은 bug 를 많이 만나는 사용자 유실률이 더 낮습니다! 하지만 직관적으로 볼 때, 사용자가 제품을 더 좋아하게 만드는 것은 절대 버그가 아닙니다. 이러한 종속성은 제품을 자주 사용하는 사용자가 더 많은 오류를 볼 수 있고 유실률이 낮다는 일반적인 원인으로 인해 발생합니다. 기능 소유자에게 새로운 기능의 사용자 손실률이 낮다고 해서 반드시 새로운 기능이 사용자를 보유할 수 있는 것은 아닙니다. 아마도 새로운 기능을 사용하는 것은 종종 심각한 사용자일 것이다. 이 사용자들은 피곤하고 실의에 빠졌다. 그 이유는 무엇입니까? 이러한 경우 새로운 기능이 실제로 고객 손실을 줄일 수 있는지 평가하려면 비교 실험 (신규 사용자와 기존 사용자를 별도로 분석) 이 필요합니다.
주의해야 할 또 다른 함정은 거짓이거나 기만적인 연상이다. 사기성 상관 관계는 강한 이상 값으로 인해 발생할 수 있습니다. 예를 들어, 1 1.5 와 같이 마케팅 회사는 에너지 음료가 운동 성적과 매우 관련이 있다고 주장할 수 있으며, 인과 관계를 암시할 수 있습니다. 즉, 당신의 운동표는 우리의 에너지 제품을 마시면 개선될 것입니다 (Orlin 20/Kloc-0)
거의 항상 잘못된 연관성을 발견할 수 있습니다 (Vigen 20 18). 우리가 많은 가설을 테스트할 때, 우리가 인과관계를 거부할 직감이 없을 때, 우리가 위의 예시에서 한 것처럼, 우리는 그것을 믿을 수 있을 것이다. 예를 들어, 독거미에 의해 살해된 것과 밀접한 관련이 있는 요소 (r = 0.86) 를 발견했다는 말을 들으면, 그 정보에 대해 행동을 취하는 경향이 있을 수 있습니다. 그러나 이 요인은 전국 철자 대회 테스트에서 단어의 길이다. 그림과 같이 사망률 인하를 위해 단어 길이를 줄이려 하지 않는 것은 무리다.
현실 세계에서는 신중한 조치를 취해도 관찰성 인과연구에 결과에 영향을 줄 수 있는 다른 요소가 포함되지 않는다는 보장은 없다. 반사실을 비교해서 인과관계를 확립하려는 준실험방법은 많은 가설을 세워야 하는데, 그 중 어떤 가설은 틀릴 수도 있고, 어떤 가설은 함축적일 수도 있다. 잘못된 가설은 실험 내부의 유효성 부족으로 이어질 수 있으며, 부적절한 가설과 한계가 연구의 외부 유효성에도 영향을 미칠 수 있다. 1 장에서 설명한 대로 직감을 만들면 가정의 품질을 향상시키는 데 도움이 되지만 직감으로는 가능한 모든 문제를 배제할 수는 없습니다. 따라서 인과관계를 확립하는 과학금 기준은 여전히 비교 실험이다.
관찰된 데이터에서 인과관계를 도출하려면, 우리는 검사할 수 없고 쉽게 위반할 수 있는 몇 가지 가설이 필요하다. 많은 무작위 통제 실험이 나중에 많은 관찰 인과 관계 연구 (Concato, Shah 및 Horwitz 2000) 를 확인했지만, 다른 실험은 반박되었다. Ioannidis (2005) 는 높은 인용율 연구의 결과를 평가했습니다. 그의 연구에는 6 개의 관찰성 인과 연구가 포함되어 있는데, 그 중 5 개는 반복할 수 없다. 스탠리 양과 앨런 요시다 (20 19) 는 더 믿을 만하다고 여겨지는 관찰 인과 연구 (즉, 비대비) 와 무작위 임상 실험을 사용하여 발표된 의료 결과를 비교했는데, 이 결과는 통계적으로 의미가 있다. 12 편의 논문 중 52 개 결과 중 어느 것도 무작위 통제 실험에서 반복할 수 없다. 52 건 중 5 건 중 인과관계 연구와 반대 방향으로 통계학적 의의가 있다. 그들의 결론은 "관찰 연구에서 나온 어떤 진술도 잘못된 것 같다" 는 것이다. "
온라인 분야의 한 가지 예는 온라인 광고의 효과를 측정하는 방법입니다. 즉, 온라인 광고가 브랜드 활동의 증가로 이어지는지, 심지어 사용자 참여도가 증가하는지 여부입니다. 개입 (광고) 과 효과 (사용자 등록 또는 참여) 가 일반적으로 서로 다른 위치에 있기 때문에 효과를 측정하기 위해 인과 관계 연구를 관찰해야 하는 경우가 많습니다. Lewis, Rao 와 Reiley(20 1 1) 는 인과연구를 관찰한 인터넷 광고 효과와' 황금기준' 통제 실험을 비교한 결과 인과연구를 관찰하면 효과가 크게 과대평가되는 것으로 나타났다. 구체적으로 그들은 세 가지 실험을 했다.
먼저, 사용자에게 광고를 전시한다. 연구 질문은: 얼마나 많은 사용자가 광고에 표시된 브랜드 관련 키워드를 사용하여 검색했는가? 3 개의 제어 변수가 있는 회귀 분석을 포함한 5 천만 사용자에 대한 관찰 인과 관계 연구를 통해 개선 폭은 87 1% 에서 1 198% 로 추정됩니다. 이 추정치는 비교 실험에서 측정한 5.4% 의 증가보다 몇 단계 높다. 곤혹스러운 요소는 사용자가 야후를 방문하는 것이다! 흔한 원인. 야후를 적극 방문하세요! 일부 사용자는 광고를 표시하고 야후를 실행할 가능성이 더 높습니다! 검색。 광고의 노출도는 검색행동 고도와 밀접한 관련이 있지만 전시 광고는 검색에 미치는 인과 영향이 적다. (원문의 뜻을 잘 이해하지 못하고 원문을 붙이다)
다음으로, 웹 사이트는 사용자에게 비디오를 보여줍니다. 문제는 이러한 비디오가 활동을 증가시킬 수 있는지 여부입니다. 아마존 Mechanical Turk 를 통해 사용자를 모집했는데, 그 중 절반은 Yahoo.com 서비스를 홍보하는 30 초의 비디오 광고 (즉, "치료") 를 접하고 나머지 절반은 정치 비디오 광고 ("통제") 를 접하며 야후의 방문 활동이 증가했는지 여부를 측정하기 위한 것이다. 연구원은 두 가지 분석을 수행했습니다.
마지막으로 야후에서! 웹사이트에 사용자들에게 일련의 광고를 선보였다. 광고를 보는 사용자가 광고를 보는 당일 경쟁사 사이트에 등록할 가능성이 더 높은지 평가하기 위한 것이다. 인과 관계 연구를 관찰하면 이날 광고를 본 사용자와 일주일 전의 행동을 비교하고 통제 실험을 통해 야후를 방문했다! 광고를 본 사용자와 본 적이 없는 사용자를 비교했다. 인과 관계 연구를 관찰한 결과, 지난 주보다 광고를 본 사용자가 광고를 본 당일 경쟁사 사이트에 등록할 가능성이 더 높다. 그러나, 통제 실험에서 실험자들은 광고를 보는 것이 피험자의 행동에 영향을 미치지 않는다는 것을 관찰했다. 결과는 앞서 논의한 고객 손실의 오류와 유사합니다. 즉, 활성 사용자가 더 활동적일 가능성이 높습니다. 여기서 활동은 사람을 곤혹스럽게 하는 요소이다.
이것은 단지 하나의 이야기일 뿐이다. 최근 비교 연구에 따르면 인과연구를 관찰하는 정확도가 온라인 대조실험 (Gordon et al.20 18) 보다 낮은 것으로 나타났다. 우리는 https://bit.ly/experimentguiderefutedobservationalstudies 에 대한 더 많은 이야기를 제공하며, 흔히 알 수 없는 원인, 시간에 민감한 잡다한 요소, 외부 효과가 부족한 인구 차이 및 기타 예를 보여 줍니다. 인과 연구를 관찰할 때는 조심해야 한다.