
📚 데이터 구조
- 변수로 만들어 분석할 수 있는 정보의 종류 2가지 : 숫자형, 범주형 데이터
📚 탐색적 데이터 분석

(1) = 최소값
(2) = 1사분위수(25%)
(3) = 중앙값(50%, median)
(4) = 3사분위수
(5) = max와 (3사분위수 + 1.5*IQR)를 비교했을 때 작은 값
((4)-(2)) = 사분위수 범위(IQR)
(5) 뒤에 있는 ○들) = 이상치
(1-2사이의 거리), (4-5사이의 거리) = 1.5*IQR
sns.barplot(x="뫄뫄", y="롸롸", data=titanic)
plt.show()

- seaborn.barplot은 범주별(x), 숫자(y)의 평균을 비교하는 그래프
=> 승선 지역 별(Embarked) 운임(Fare)의 평균 - 가운데 직선은 신뢰구간
- Matplotlib에서는 barplot을 그릴 때 먼저 데이터 집계를 해야 하는 것과 달리, seaborn.countplot은 집계를 포함하여 barplot을 그린다.

ex) 대학 졸업 여부와 이동통신사 가입 고객의 이탈여부 간의 관계 분석을 위한 차트?
-> 모자익플롯
=> {범주형}: 대학 졸업 여부/ {범주형}: 이탈여부
📚 가설검정
- 두 연속형 데이터의 관계가 강한 정도를 수치화 하는 방법: 상관분석
- 모집단의 평균과 표본의 평균간의 차이: 표준오차
- 상관관계의 강한 정도를 따질 때, 상관계수가 1인 자기 자신은 제외한다.상관계수 함수
- data.corr()
'Computer language > Python' 카테고리의 다른 글
[데이터처리/실습] .iloc와 .iloc의 차이 (0) | 2022.08.14 |
---|