Computer language/Python

[데이터분석 및 의미찾기] 탐색적 데이터 분석 | 가설검정 | 데이터 구조

제티맛초코 2022. 8. 17. 01:50

📚 데이터 구조

  • 변수로 만들어 분석할 수 있는 정보의 종류 2가지 : 숫자형, 범주형 데이터

📚 탐색적 데이터 분석


(1) = 최소값
(2) = 1사분위수(25%)
(3) = 중앙값(50%, median)
(4) = 3사분위수
(5) = max와 (3사분위수 + 1.5*IQR)를 비교했을 때 작은 값

((4)-(2)) = 사분위수 범위(IQR)
(5) 뒤에 있는 ○들) = 이상치
(1-2사이의 거리), (4-5사이의 거리) = 1.5*IQR


 

sns.barplot(x="뫄뫄", y="롸롸", data=titanic)
plt.show()
  • seaborn.barplot은 범주별(x), 숫자(y)의 평균을 비교하는 그래프
    => 승선 지역 별(Embarked) 운임(Fare)의 평균
  • 가운데 직선은 신뢰구간
  • Matplotlib에서는 barplot을 그릴 때 먼저 데이터 집계를 해야 하는 것과 달리, seaborn.countplot은 집계를 포함하여 barplot을 그린다.

 

ex) 대학 졸업 여부와 이동통신사 가입 고객의 이탈여부 간의 관계 분석을 위한 차트?
-> 모자익플롯
=> {범주형}: 대학 졸업 여부/ {범주형}: 이탈여부


📚 가설검정

  • 두 연속형 데이터의 관계가 강한 정도를 수치화 하는 방법: 상관분석
  • 모집단의 평균과 표본의 평균간의 차이: 표준오차
  • 상관관계의 강한 정도를 따질 때, 상관계수가 1인 자기 자신은 제외한다.상관계수 함수
  • data.corr()

'Computer language > Python' 카테고리의 다른 글

[데이터처리/실습] .iloc와 .iloc의 차이  (0) 2022.08.14