신기한 명령 %matplotlib inline 을 입력 및 실행하고 범례 경계를 삭제합니다.
데이터 세트 소개:
이 데이터 세트의 특징으로는 미국의 49 개 주, 해당 지역, 통계년, 통계월, 평균 일조, 평균 일일 최고 기온, 평균 일일 최고 열지수 (평균 일일 최고 열지수), 평균 일일 강우량 (평균 일일 강우량) 및 평균 일일 지표 온도 (Avg 일 지표 온도) 가 있습니다.
각 특성의 연간 간격은 다음과 같습니다.
데이터를 가져오고 처음 5 개 행을 봅니다.
미국 주요 지역의 주요 기후 지수를 필터링하고 sns.distplot 인터페이스를 통해 지수 분포도를 그립니다.
실행 결과에 따라 다음을 수행합니다.
미국 각지의 햇빛 분포 추세는 대체로 동일하며, 두 개의 뚜렷한 최고치 (강한 조명과 약한 조명) 가 있다. 적도가 아닌 국가는 지구의 공전의 영향을 받아 사계절 조명 강도가 일정한 주기적인 변화의 법칙을 보여 주기 때문이다.
지리적으로 볼 수 있듯이, 동북지역의 광구는 다른 세 지역보다 현저히 낮다.
미국 각지의 일일 평균 최고 기온 차이는 비교적 크다. 동북부와 중서부의 추세는 대체로 같다. 기온 플랫폼 기간이 길고 최고치가 두드러진다. 서부 지역은 온화한 시기가 가장 길고, 일년 내내 최고 기온이 비교적 안정적이다. 남부의 분포는 상대적으로 집중되어있다.
일일 평균 육지 온도는 최고 기온과 비슷하지만, 그 저온지역 분포가 적다는 점이 다르다.
서부에서 가장 더운 지수의 분포는 중서부 지역과 일치하고, 기온이 온화하며, 열지수가 북동쪽으로 높고, 남쪽이 낮다.
서부 강우량은 현저히 적고, 남부와 동북부는 대체로 같고, 중서부 지역은 비교적 많다.
지리 지식과 결합하여 한 가지 결론을 내리다.
동북과 중서부의 대부분 지역은 온대 대륙성 기후로 사계절이 뚜렷하고 여름은 무더우며 강우량이 많다.
서부는 온대 지중해 기후에 속하며, 일년 내내 기후가 온화하고, 건조하고 비가 적으며, 여름 기후가 온화하며, 최고 기온이 비교적 안정적이다.
남부 연해에서는 기후가 일년 내내 따뜻하고, 여름은 덥고, 비는 넘쳐난다.
미국 각 지역의 강우량 평균과 표준 편차를 월별로 계산하고, 평균의 두 배에 달하는 표준 편차로 각 지역의 강우량 오차도를 그래프로 표시한다.
실행 결과에 따라 다음을 수행합니다.
여름의 대부분 달에는 서부 지역의 강우량이 다른 지역보다 훨씬 적다.
중국 서부의 겨울 월강우량은 여름보다 높다.
중서부 지역은 전형적인 온대 대륙성 기후로 가을겨울 강우량이 줄고 봄여름 강우량이 증가한다.
남부 지역은 해양성 기후를 선호하고, 연간 강우량은 상대적으로 평균적이다.
Joypy 패키지를 설치해야 합니다.
일일 평균 최고 기온 변화 추세
Joypy 패키지의 joyplot 인터페이스를 통해 4 년마다 평균 일일 최고 기온 1980-2008, 치수 25% 및 75% 분위수를 그리는 중첩 효과가 있는 수직 분포 곡선을 그릴 수 있습니다.
실행 결과에 따라 다음을 수행합니다.
1980-2008 년 동안 미국의 일일 평균 최고 기온 분포의 저온 지역이 점차 증가하고 고온 지역이 점차 감소하여 분포가 더욱 집중되고 있다.
1980-2008 년 동안 미국 일일 평균 최고 기온의 25% 분위수와 75% 분위수에 약간의 편차가 있었지만 뚜렷하지는 않았다.
일일 평균 강우량 변화 추세
강우 데이터를 같은 방식으로 처리하고 출력을 확인합니다.
캘리포니아와 뉴욕의 일일 평균 강우량 데이터를 선별하여 plt.hist 인터페이스를 통해 월간 강우량 분포도를 그립니다.
실행 결과에 따라 다음을 수행합니다.
캘리포니아 강우량은 대부분 0- 1 mm 범위에 집중되어 있어 폭우가 거의 없다. 이와는 대조적으로, 뉴욕은 강우량이 풍부하고, 일일 평균 강우량은 2-4mm 범위 내에 분포되어 있다
히스토그램은 누적 효과 하에서 대부분의 세부 사항으로 덮여 있으며, 집계 및 분산 효과를 나타내는 상자 그래프는 이러한 문제에서 더 나은 선택이 될 수 있습니다.
Sns.boxplot 인터페이스를 통해 캘리포니아와 뉴욕의 월간 강우량 분포에 대한 상자 차트를 그립니다.
상자도에서 두 주의 매달 강우량 분포를 명확하게 비교해 보면 집중의 정도를 알 수 있다. 예를 들어, 캘리포니아 7 월의 강우량은 0.kloc-0/-0.5mm 의 좁은 범위에 집중되어 있어 이때 폭우가 발생하지 않을 것임을 알 수 있습니다. 우리는 또한 이산적인 상황을 볼 수 있다. 예를 들어 1 월 캘리포니아에서는 상자 그래프의 상자형 부분이 광범위하게 분포되어 있으며, 그 위에 약 10 mm 에 이산점이 있어 이때 캘리포니아에 우발적인 폭우가 발생할 수 있음을 나타냅니다.
시각적으로 스윙 오차 라인 차트가 더 아름답고 간결합니다. 전미 강우량 월분포 실험에서 모든 범주 레이블의 X 위치가 같은 곳에 배치되어 오차선 높이가 겹칩니다. X 좌표 위치를 조정하여 비교할 순서를 조밀하게 정렬할 수 있습니다.
수출 결과에서 볼 수 있듯이, 캘리포니아 겨울 강우량의 불확실성이 더 강하다. 매년 1 1 월 ~ 이듬해 3 월 강우현상이 있어 강우량이 많고 적다.
위의 실험은 모두 단일 변수의 분포를 연구하고 있지만, 종종 우리는 두 변수의 공동 분포의 특징을 알고 싶다.
핵밀도 추정은 이런 문제를 연구하는 주요 방법 중 하나이다. Sns.kdeplot 인터페이스는 가우스 커널 함수를 통해 두 변수의 커널 밀도 함수를 계산하고 코어 밀도를 등고선으로 그립니다.
실행 결과에 따라 다음을 수행합니다.
고온과 소우기 (고온 소우여름) 캘리포니아에는 뚜렷한 고밀도 분포 지역이 있다.
뉴욕 주 고온 지역과 저온 지역 모두 고밀도 분포 지역이 있는데, 서로 다른 온도 구역의 강우량 분포는 비교적 균일하다.
Plt.hist2d 인터페이스를 통해 미국 각지의 강우량과 기온을 시각화합니다.
실행 결과에 따라 다음을 수행합니다.
미국 최고 밀도의 일일 평균 고온과 강우 지역은 각각 약 78°F (약 25°C) 와 2.2 mm 로 비교적 편안한 생활기후 지역에 속한다.
미국 전역의 강우량과 기온의 관계-핵 밀도 추정
위의 실험을 바탕으로 sns.rugplot 인터페이스를 통해 X 축과 Y 축에 각각 커널 밀도 추정의 1 차원 분포도를 그려 단일 드로잉 평면에서 공동 분포와 단변수 분포의 특징을 모두 얻을 수 있습니다.
미국 각지의 강우량과 기온의 관계-분산 분포와 직선 분포
Sns.jointplot 인터페이스는 그리드를 통해 하위 그래프로 단변수 분포를 그리고 분산형 차트를 통해 2 변수 관계를 표시하는 것도 데이터 분포를 보여주는 좋은 방법입니다.
위의 두 실험은 이원 분포의 시각화를 연구하고, 다음은 세 가지 변수 집계 결과의 시각화를 연구했다.
Sns.heatmap 인터페이스를 통해 원근 데이터를 시각화할 수 있습니다. 원근 결과 값에 다른 색상 블록을 할당하여 값을 시각화하고 색상 막대 도구를 통해 값을 수량화하는 것이 원리입니다.
이 두 가지 실험은 각 주의 최고 기온 중앙값이 연도에 따라 변하는 추세를 시각적으로 보여 주며, 그림에서 눈에 띄는 변화는 없다.
T 검사 방법으로 통계적으로 뚜렷한 차이가 있는지 시험해 봅시다. Stats.ttest_ind 인터페이스는 1980 및 20 10 의 주요 기후 지표에 대한 중요도 검사 통계 및 p 값을 출력합니다.
실행 결과에서 알 수 있는 것은 다음과 같습니다.
검사 결과는 미국의 강우량이 1980 과 20 10 사이에서 다르다는 원래 강우량이 동일하다는 가설을 부정했다