데이터분석/학습기록지

빅데이터분석 제 1작업형

Null to One 2025. 5. 14. 16:00

1. str.contains() -> 특정 문자열 탐색하는데 유용.

Ex) 특정 문자열을 포함하는 데이터 필터링하기

str.contains를 사용하지 않을 경우.

# SQ인 데이터 찾기
df['cond'] = df['f4'].str[2:4]
cond = df['cond'] == 'SQ'
df = df[cond]

str.contains를 사용할 경우

cond = df['f4'].str.contains('SQ')

df = df[cond]

str.contains()를 사용하니 훨씬 더 간단해집니다. contains를 사용하기 위해 앞에 str을 붙여주어야 합니다.

 

2. value_counts() -> 항목별 개수 출력하기.

'Name' 컬럼에서 항목별 개수 찾기

df['Name'].value_counts()

value_counts는 기본적으로 내림차순이기 때문에 최빈값에 해당하는 항목이 가장 첫 번째에 위치합니다. 따라서 최빈값에 해당하는 항목을 찾으려면 위의 결과에 .index[0]을 사용해주면 됩니다.

다만 최빈값을 찾을 때 그냥 mode()[0]를 사용해주어도 같은 결과를 얻을 수 있습니다.

 

3. colab은 최신 버전의 판다스 라이브러리를 활용하므로 mean()을 활용해 평균 계산 시 numeric_only 옵션을 True로 설정해야 합니다. 하지만 시험장의 경우 버전이 더 낮아 mean()을 그냥 써주면 됩니다.

 

4. 전체의 N% 데이터만 가져오기

(1) idx = len(df) * n (N=80%일 때, n = 0.8)

(2) iloc으로 슬라이싱 하기. -> df.iloc[:idx]

 

5. drop_duplicates()

중복되는 내용을 삭제하는 함수