반응형
안녕하세요 ! 소신입니다.
데이터 분석을 위해선 pandas 모듈을 잘 사용하는게 도움이 많이 되는데요
자주 사용하진 않지만, 까먹었을 때 찾아보기는 귀찮은 함수들을 모아서 정리해보았습니다.
# Pandas 기본
# Pandas DataFrame 기본
pd.read_csv('pth/to/file/path', index_col='date', header=None)
df.dropna()
df.reset_index(drop=True, inplace=True)
pddf[pddf['본문'].apply(lambda i : '삼성전자' in str(i))]
# = 본문에 삼성전자가 있는 애들만 출력
df.sort_values(by='날짜', ignore_index=True)
pddf['카테고리'].count() / .mean() / .sum() / .describe()
# 개수, 평균, 합, 요약
df.astype(int) - int 형으로 변환 # 완전한 int형은 아님 (계산이 안되는 경우가 있음)
df.apply(lambda i : i if i else np.nan) # 무의미 데이터 제거를 위해 nan으로 변환
df.fillna(method='pad') # 결측치 채우기 padding
# 딕셔너리 데이터프레임만들기
test_df = pd.DataFrame.from_dict(test_df, orient='index')
# 중복제거
a = result_df.columns
result_df = result_df.drop_duplicates(a)
# DataFrame Sampling
# 데이터프레임 샘플링
# shuffling
df.sample(frac=1).reset_index(drop=True)
df.head()
# dataframe sampling with column
df = pd.DataFrame({'col':np.random.randn(12000), 'target':np.random.randint(low = 0, high = 2, size=12000)})
new_df = df.groupby('target').apply(lambda x: x.sample(n=5000)).reset_index(drop = True)
new_df.target.value_counts()
반응형
'슬기로운 개발자생활 > Python' 카테고리의 다른 글
[찾기 쉬운 Python 코드] Numpy (0) | 2020.12.27 |
---|---|
[Python] 파이썬 파일 생성, 쓰기, 파일 이름 변경, 파일 + 폴더 탐색, 삭제 패키지 (0) | 2020.11.25 |
[프로젝트 중심 데이터 분석 강좌 - Python 기초] 2. 파이썬 연산, 자료형 (0) | 2020.11.20 |