빅데이터분석 제 1작업형

데이터분석/학습기록지

Null to One 2025. 5. 14. 16:00

1. str.contains() -> 특정 문자열 탐색하는데 유용.

Ex) 특정 문자열을 포함하는 데이터 필터링하기

str.contains를 사용하지 않을 경우.

# SQ인 데이터 찾기

df['cond'] = df['f4'].str[2:4]

cond = df['cond'] == 'SQ'

df = df[cond]

str.contains를 사용할 경우

cond = df['f4'].str.contains('SQ')

df = df[cond]

str.contains()를 사용하니 훨씬 더 간단해집니다. contains를 사용하기 위해 앞에 str을 붙여주어야 합니다.

2. value_counts() -> 항목별 개수 출력하기.

'Name' 컬럼에서 항목별 개수 찾기

df['Name'].value_counts()

value_counts는 기본적으로 내림차순이기 때문에 최빈값에 해당하는 항목이 가장 첫 번째에 위치합니다. 따라서 최빈값에 해당하는 항목을 찾으려면 위의 결과에 .index[0]을 사용해주면 됩니다.

다만 최빈값을 찾을 때 그냥 mode()[0]를 사용해주어도 같은 결과를 얻을 수 있습니다.

3. colab은 최신 버전의 판다스 라이브러리를 활용하므로 mean()을 활용해 평균 계산 시 numeric_only 옵션을 True로 설정해야 합니다. 하지만 시험장의 경우 버전이 더 낮아 mean()을 그냥 써주면 됩니다.

4. 전체의 N% 데이터만 가져오기

(1) idx = len(df) * n (N=80%일 때, n = 0.8)

(2) iloc으로 슬라이싱 하기. -> df.iloc[:idx]

5. drop_duplicates()

중복되는 내용을 삭제하는 함수

데이터 뉴비로그

데이터 분석에 관심있는 취준생의 블로그입니다. 미숙하지만 꾸준히 기록하며 성장해나가는 모습을 보이겠습니다. 대한민국 모든 취준생들이 빛을 보는 날이 오기를 바랍니다.

SQLD, 학습일지, 학습기록, 빅데이터분석기사, 취업준비, 학습기록지, ADSP, 자격증후기, 공부기록, 취준, 일일기록, SQL, 인턴후기, 취업준비생, 빅데분, 취준생, 데이터분석, tableau, 자격증, 개인공부,

데이터 뉴비로그