슬기로운 개발자생활/Python

[Pandas] 자주 쓰는 함수 모음 Python

개발자 소신 2021. 1. 1. 23:36
반응형

안녕하세요 ! 소신입니다.

 

 

데이터 분석을 위해선 pandas 모듈을 잘 사용하는게 도움이 많이 되는데요

자주 사용하진 않지만, 까먹었을 때 찾아보기는 귀찮은 함수들을 모아서 정리해보았습니다.

 


# Pandas 기본

# Pandas DataFrame 기본
pd.read_csv('pth/to/file/path', index_col='date', header=None)
df.dropna()
df.reset_index(drop=True, inplace=True)
pddf[pddf['본문'].apply(lambda i : '삼성전자' in str(i))]
# = 본문에 삼성전자가 있는 애들만 출력

df.sort_values(by='날짜', ignore_index=True)

pddf['카테고리'].count() / .mean() / .sum() / .describe()
# 개수, 평균, 합, 요약

 

 

df.astype(int) - int 형으로 변환 # 완전한 int형은 아님 (계산이 안되는 경우가 있음)

df.apply(lambda i : i if i else np.nan) # 무의미 데이터 제거를 위해 nan으로 변환

df.fillna(method='pad') # 결측치 채우기 padding

# 딕셔너리 데이터프레임만들기
test_df = pd.DataFrame.from_dict(test_df, orient='index')

# 중복제거
a = result_df.columns
result_df = result_df.drop_duplicates(a)

 

# DataFrame Sampling

# 데이터프레임 샘플링 

# shuffling
df.sample(frac=1).reset_index(drop=True)
df.head()

# dataframe sampling with column
df = pd.DataFrame({'col':np.random.randn(12000), 'target':np.random.randint(low = 0, high = 2, size=12000)})
new_df = df.groupby('target').apply(lambda x: x.sample(n=5000)).reset_index(drop = True)

new_df.target.value_counts()

 

 

반응형