개인활동/파이썬 라이브러리를 활용한 데이터 분석(6)
-
Chapter 8. 데이터 준비하기: 조인, 병합, 변형 (1)
계층적 색인 : 축에 대해 다중 색인 단계를 지정할 수 있도록 해줌 높은 차원의 데이터를 낮은 차원의 형식으로 다룰 수 있게 해주는 기능 data = pd.Series(np.random.randn(9), index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'], [1, 2, 3, 1, 3, 1, 2, 2, 3]]) data 위의 객체가 MultiIndex를 색인으로 하는 Series로 색인 계층을 보여줌 data.index 계층적으로 색인된 객체는 데이터의 부분집합을 부분적 색인으로 접근하는 것이 가능함 data['b'] data.loc[['b', 'd']] 하위 계층의 객체를 선택하는 것도 가능 data.loc[:, 2] # 상위 계층의 경우 :를 이용해 전범위를 ..
2022.03.14 -
Chapter 5. Pandas 시작하기 (5)
기술통계 계산과 요약 > 판다스의 일반적인 수학 메서드 상관관계와 공분산 0 변수 한쪽이 큰 값을 갖게되면 다른 한쪽도 커지는 관계 공분산=0 변수사이의 관계성이 없음 공분산 유일값, 값세기, 멤버십
2022.03.04 -
Chapter 5. Pandas 시작하기 (4)
핵심 기능 > 정렬과 순위
2022.03.03 -
Chapter 5. Pandas 시작하기 (3)
핵심 기능 > 정수 index 산술연산과 데이터 정렬 함수 적용과 매핑
2022.03.03 -
Chapter 5. Pandas 시작하기 (2)
핵심기능 > reindex 하나의 low나 col 삭제 인덱싱, 선택하기, 거르기 5] loc: 축이름으로 선택할 때 이용 iloc: 정수 index로 선택할 때 이용 data.loc['Colorado', ['two', 'three']] data.iloc[2, [3, 0, 1]] 슬라이싱, 단일라벨, 라벨리스트도 지원
2022.03.01 -
Chapter 5. Pandas 시작하기 (1)
Pandas의 특징 numpy, scikit-learn, matplotlib 등의 다른 라이브러리와 함께 사용함 for문을 사용하지 않고 데이터를 처리함 배열기반의 함수를 제공 numpy의 스타일을 많이 차용했으나 표 형식의 데이터나 다양한 형태의 데이터를 다루는데 초점을 맞추어 설계 Pandas import하기 import pandas as pd pandas를 pd로 지칭하여 편하게 불러올 수 있도록 함 Pandas 자료구조 > Series Data Frame
2022.03.01