eda 예제

Posted by on kol. 2, 2019 in Nekategorizirano | 0 comments

범주형 변수는 명목 또는 서수일 수도 있습니다. 명목 데이터에는 범주에 대한 본질적인 순서가 없습니다. 예를 들어 성별(남성, 여성, 기타)에는 특정 순서가 없습니다. 토스터에 세 가지 설정 (높은 중간 및 낮은)와 같은 명확한 순서로 서수 데이터. 빈도 표(각 범주의 개수)는 각 변수의 범주형 데이터를 설명하기 위한 일반적인 통계이며, 막대 차트 또는 와플 차트(아래 그림 참조)는 사용할 수 있는 두 가지 시각화입니다. 처음 몇 가지 예제는 전혀 일관성이 보이지 않습니다. 그 밖에 무엇이 있습니까? “측정의 비율 척도는 가장 유익한 척도입니다. 0 위치가 측정되는 수량의 부재를 나타내는 추가 속성이 있는 간격 축척입니다. 비율 척도는 이전의 세 가지 스케일이 하나로 롤업된 것으로 생각할 수 있습니다.

명목 축척과 마찬가지로 각 개체에 대한 이름 또는 범주를 제공합니다(숫자는 레이블로 작동). 서수 눈금과 마찬가지로 개체는 숫자 순서와 같이 정렬됩니다. 간격 축척과 마찬가지로 스케일의 두 위치에서 동일한 차이는 동일한 의미를 가합니다. 또한, 규모의 두 장소에서 동일한 비율도 동일한 의미를 전달합니다.” 비율 눈금의 좋은 예는 실제 0을 가지며 추가, 빼기, 곱하기 또는 분할할 수 있으므로 가중치입니다. 이미지 분류를 수행할 때 는 분해를 사용하고 데이터의 치수를 제거하는 것이 일반적입니다. 예를 들어 분해 전 이미지는 숫자 또는 연속 변수가 유한 또는 무한 간격 내에 있는 모든 값일 수 있습니다. 예로는 온도, 높이, 무게가 있습니다. 숫자 변수에는 간격과 비율이 두 가지 유형이 있습니다. 간격 변수에는 숫자 배율과 배율 전체에 걸쳐 동일한 해석이 있지만 절대 0은 없습니다.

예를 들어 화씨 나 섭씨 의 온도는 의미있게 빼거나 추가 할 수 있습니다 (10도와 20도의 차이는 40 ~ 50도와 동일한 차이입니다) 그러나 곱할 수 없습니다. 예를 들어, 두 배 더 뜨거운 하루는 온도의 두 배가 되지 않을 수 있습니다. 변수는 무한 한 정렬 된 값 집합중 일부를 걸릴 수 있는 경우 연속적입니다. 숫자와 날짜 시간은 연속 변수의 두 가지 예입니다. 연속 변수의 분포를 검사하려면 히스토그램을 사용하십시오: 예를 들어 이 시각화는 매우 복잡하고 이해하기 어렵습니다. GitHub의 노트북에 대해 설명한 모든 예제와 YouTube에서 노트북 을 단계별로 살펴보는 비디오가 있습니다 (코딩은 5:05에서 시작).