홈 페이지 모든 문장 관점 및 동적 기본 사항 시리즈 자습서 실습 프로젝트 도구 및 프레임워크 도구 리소스 파이썬 그룹 버락 온라인 >; 파이썬-버락 온라인 > 모든 문장 > 실제 프로젝트 > 파이썬에서 이 다섯 가지 강력한 확률 분포를 어떻게 실현할 수 있습니까?
20 15/04/25 확률 분포 연습 프로젝트
공유 대상: 12
이 글은 버락 온라인 -feigao.me 가 번역하고, Daetalus 가 교정한다. 허가 없이 전재 금지!
영어 생산지: www.bigdataexaminer.com. 번역 팀에 오신 것을 환영합니다.
R 프로그래밍 언어는 이미 통계 분석에서 사실상 표준이 되었다. 하지만 이 글에서는 Python 으로 통계 개념을 실현하는 것이 얼마나 쉬운지 알려 드리겠습니다. Python 을 사용하여 이산적이고 연속적인 확률 분포를 실현하고 싶습니다. 이러한 분포의 수학적 세부 사항을 논의하지는 않겠지만, 링크를 통해 이러한 통계 개념을 배울 수 있는 좋은 자료를 알려 드리겠습니다. (데이비드 아셀, Northern Exposure (미국 TV 드라마), 통계명언) 이러한 확률 분포에 대해 논의하기 전에 무작위 변수가 무엇인지 간단히 말씀드리겠습니다. 무작위 변수는 실험 결과의 정량화이다.
예를 들어 동전 던지기 결과를 나타내는 무작위 변수는 파이썬으로 나타낼 수 있습니다.
X = {1 앞면이 위를 향하면 ,
뒷면이 위를 향하면
12X = {1 앞면이 위를 향하면 ,
뒷면이 위를 향하면
무작위 변수는 가능한 값 세트 (불연속 또는 연속) 를 사용하여 특정 무작위성을 따르는 변수입니다. 무작위 변수의 가능한 각 값은 확률과 연관되어 있습니다. 무작위 변수의 가능한 모든 값과 관련 확률을 확률 분포라고 합니다.
Scipy.stats 모듈을 자세히 검토해 주시기 바랍니다.
확률 분포에는 이산 확률 분포와 연속 확률 분포의 두 가지 유형이 있습니다.
이산 확률 분포는 확률 질량 함수라고도 합니다. 이산 확률 분포의 예로는 베르누이 분포, 이항식 분포, 포아송 분포 및 기하학적 분포가 있습니다.
확률 밀도 함수라고도 하는 연속 확률 분포는 연속 값이 있는 함수입니다 (예: 실선의 함수). 정규 분포, 지수 분포, 베타 분포는 모두 연속 확률 분포에 속한다.
이산 및 연속 무작위 변수에 대해 더 자세히 알고 싶다면 칸 대학에서 확률 분포에 관한 비디오를 볼 수 있습니다.
이항 분포
이항식 분포에 따르는 무작위 변수 X 는 N 번의 독립 예/아니오 실험에서 성공 실험 횟수를 나타냅니다. 여기서 각 실험의 성공 확률은 P 입니다.
E(X) = NP, Var(X) = np( 1? P)
개별 함수의 원리를 이해하려면 IPython 노트북에 있는 도움말 파일 명령을 사용할 수 있습니다. E(X) 는 분포의 예상 또는 평균을 나타냅니다.
Stats.binom 을 입력하시겠습니까? Binom 에 대해 자세히 알아보십시오.
이항 분포의 예: 동전 던지기 10 회, 정확히 정면이 두 번 위를 향할 확률은 얼마입니까?
이 실험에서 정면이 위를 향할 확률이 0.3 이라고 가정하면, 이는 평균적으로 동전의 앞면이 세 번 위를 향할 것으로 예상할 수 있다는 것을 의미한다. 동전을 던질 수 있는 모든 결과를 k = np.arange(0, 1 1) 로 정의했습니다. 0 앞면이 위를 향하고 1 앞면이 위를 향하고/kloc 가 위를 향하는 것을 볼 수 있습니다 나는 stats.binom.pmf 를 사용하여 각 관찰에 대한 확률 질량 함수를 계산합니다. 각 관찰과 연관된 확률 값을 나타내는 1 1 개 요소 목록을 반환합니다.
사용할 수 있습니다. Rvs 함수는 size 매개변수가 시뮬레이트하려는 횟수를 지정하는 이항 임의 변수를 시뮬레이션합니다. Python 에게 10000 개의 매개변수가 N 과 P 인 두 개의 임의 변수를 반환하라고 했습니다. 이러한 임의 변수의 평균과 표준 편차를 출력한 다음 모든 임의 변수의 히스토그램을 그립니다.
포아송 분포
포아송 분포에 따르는 무작위 변수 x (속도 매개변수) λ는 일정한 시간 간격 동안 이벤트가 발생한 횟수를 나타냅니다. 매개변수 λ는 이벤트가 발생하는 속도를 알려줍니다. 무작위 변수 x 의 평균과 분산은 λ입니다.
E(X) = λ, Var(X) = λ
포아송 분포의 예: 주어진 한 길목의 사고율은 하루 2 회인데, 여기서 하루에 4 차례 사고가 발생할 확률은 얼마입니까?
하루 평균 두 건의 사고의 예를 고려해 봅시다. 포아송 분포의 구현은 이항 분포와 약간 유사하며, 이항 분포에서는 비율 매개변수를 지정해야 합니다. 포아송 분포의 출력은 0 회, 1 회, 10 회 확률까지 2 회 등 일련의 숫자입니다. 나는 결과로 아래 그림을 만들었다.
보시다시피 사고 수의 최고점은 평균에 가깝습니다. 평균적으로 이벤트 수를 λ로 예상할 수 있습니다. λ와 N 의 다른 값을 시도하여 분포의 모양이 어떻게 변하는지 확인합니다.
이제 포아송 분포에 따르는 1000 개의 무작위 변수를 시뮬레이션해 보겠습니다.
정규 분포
정규 분포는 함수가 실선 위 어느 곳에나 위치할 수 있는 연속 분포입니다. 정규 분포는 분포의 평균 μ와 분산 σ2 라는 두 가지 매개변수로 설명됩니다.
E(X) = μ, Var(X) = σ2
정규 분포 값은 음의 무한대에서 양의 무한대까지 가능합니다. 보시다시피, 저는 stats.norm.pdf 를 사용하여 정규 분포의 확률 밀도 함수를 얻었습니다.
베타 분포 (베타 분포)
베타 분포는 [0, 1] 사이에 있는 값이 두 개의 형태 매개변수 α와 베타의 값으로 표현되는 연속 분포입니다.
β 분포의 모양은 α와 β의 값에 달려 있습니다. β 분포는 베이지안 분석에 널리 사용됩니다.
매개변수 α와 β를 1 으로 설정하면 이 분포를 균일 분포라고도 합니다. 서로 다른 알파와 베타 값을 시험해 보고 분포의 모양이 어떻게 변하는지 살펴보세요.
지수 분포
지수 분포는 독립 임의 이벤트의 시간 간격을 나타내는 연속적인 확률 분포입니다. 예를 들어 승객이 공항에 들어가는 시간 간격, 고객센터에 전화하는 시간 간격, 중국어 위키피디아의 새 항목이 나타나는 시간 간격 등이 있다.
매개변수 λ를 0.5 로 설정하고 x 의 값 범위를 $[0, 15]$ 로 설정하겠습니다.
그런 다음 1000 지수 분포에서 무작위 변수를 시뮬레이션했습니다. 축척 매개변수는 λ의 역수를 나타냅니다. 함수 np.std 에서 매개변수 ddof 는 표준 편차를 $n- 1$ 로 나눈 것과 같습니다.
결론 (결론)
확률 분포는 집을 짓는 청사진과 같고, 무작위 변수는 실험 사건의 총결산이다. 하버드 대학의 데이터 과학 과정 강의를 들으러 가는 것이 좋습니다. Joe Blitzstein 교수는 통계 모델과 분포에 대해 알아야 할 모든 지식을 담은 요약을 제공합니다.