[python/파이썬] 데이터 전처리 - 타입 변환 dtype, astype(), to_datetime()
타입 변환 데이터 생성 import pandas as pd df = pd.DataFrame({'판매일' : ['5/11/21', '5/12/21', '5/13/21', '5/14/21', '5/15/21'], '판매량' : ['10', '15', '20', '25', '30'], '방문자수' : ['10', '-', '17', '23', '25'], '기온' : ['24.1', '24.3', '24.8', '25', '25.4']}) df dtype : 데이터 타입 확인 df.dtypes 판매일 object 판매량 object 방문자수 object 기온 object dtype: object df['판매량 보정'] = df['판매량'] + 1 astype(타입) : 데이터프레임 타입 전체 한꺼번에 바꾸기 ..
2022. 7. 26.
[python/파이썬] 데이터 전처리 - 결측값 처리 isnull(), dropna(), fillna()
결측값 처리 import pandas as pd import numpy as np df = pd.DataFrame({'a' : [1, 1, 3, 4, 5], 'b' : [2, 3, np.nan, 3, 4], 'c' : [3, 4, 7, 6, 4]}) df 1. isnull() isnull() : 결측값 유무 확인 df.isnull() isnull().sum() : 결측값 개수 확인 isnull값이 null값이면 True, null값이 아니라면 False를 출력 df.isnull().sum() a 0 b 1 c 0 dtype: int64 2. dropna() dropna() : 결측값이 포함된 행 지우기 df.dropna() df df.dropna(inplace = True) df dropna(axis=1..
2022. 7. 26.
[python/파이썬] 데이터 전처리 - 정렬 sort_index(), sort_values()
정렬 1. sort_index() sort_index() : 인덱스 값을 기준으로 데이터 정렬 import pandas as pd df = pd.DataFrame({'a' : [2, 3, 2, 7, 4], 'b' : [2, 1, 3, 5, 3], 'c' : [1, 1, 2, 3, 5]}) df #인덱스 기준 정렬 df.sort_index() #내림차순일때는 ascending = False df.sort_index(ascending = False df #결과를 저장하고 싶다면 inplace = True df.sort_index(ascending = False, inplace = True) df -reset_index() : 기존 행 인덱스를 제거하고 인덱스를 데이터 열 추가 df.reset_index() ..
2022. 7. 25.
[python/파이썬] 데이터 전처리 - 조건에 맞는 데이터 추출
조건에 맞는 데이터 추출 데이터 생성 import pandas as pd df = pd.DataFrame({'a' : [i for i in range(1, 11)], 'b' : [i for i in range(11, 21)], 'c' : [i for i in range(21, 31)]}) df 문제 : a, c열을 출력 df[['a', 'c']] 문제 : a가 3 이상인 데이터 출력하기 df[df['a'] >= 3] 문제 : a가 3 이상인 데이터 중 a, c열만 출력하기 df[df['a'] >= 3][['a','c']] 문제 a 가 3 이상이고, b 가 16 미만인 데이터를 출력하기 df[(df['a'] >= 3) & (df['b'] = 3) & (df['b'] <..
2022. 7. 23.