데이터분석 13

빅데이터분석기사 추가학습

빅데이터분석기사 샘플문항이 바뀐 것 같은데, 공부했던 교재에 없는 내용들을 활용하는 문제들이 보여 관련 내용을 정리하려 합니다. 1. F-통계량F-통계량은 일반적으로 두 표본집단의 표본분산의 비로 구할 수 있습니다. 어느 한 모집단에서 추출한 두 집단의 표본분산을 각각 s1, s2라고 합시다. 이때 두 분산의 비 s2/s1이 F-통계량에 해당합니다.다시 말해, 두 표본집단의 변동성의 비율에 해당하는 개념입니다. 2. 합동분산추정량합동분산추정량을 구하기 위해서 각 표본의 자유도를 계산해야 합니다. 자유도는 각 표본의 샘플 개수에서 1을 빼주면 구할 수 있습니다.합동분산추정량을 구하는 공식은 아래와 같습니다.좌변의 s2p가 합동분산추정량이고, 분자는 표본집단1의 자유도*표본집단1의 분산 + 표본집단2의 자..

빅데이터분석기사 제2작업형 팁 복기

1. train test 범주형 데이터 범주 비교unique한 값의 개수가 같다고 하더라도 종류가 다르다면 인코딩 과정에서 이를 고려해주어야 하므로 중요합니다. 범주형 데이터 수가 적으면 일일이 비교해도 상관은 없는데 5개 6개... 점점 더 늘어날수록 여기에 시간이 불필요하게 많이 소모됩니다. 따라서 다음과 같은 방법을 사용합니다. cols = train.select_dtypes(include="object").columns for col in cols: set_train = set(train[col]) set_test = set(test[col]) same = set_train == set_test if same: print(col, "카테고리 ..

빅데이터분석기사 제1작업형 datetime

SQL이건 python이건 간에 datetime에 관한게 도저히 익숙해지지가 않네요... 그래서 복기 목적으로 기록 남깁니다. 1. to_datetimepandas에서 제공해주는 형변환용 키워드입니다. 보통 csv파일이던 뭐던 데이터셋들을 읽어오면, 날짜의 경우 object 자료형으로 읽어와지는데요, 날짜나 시간 관련하여 데이터를 처리하기 위해서 이 object 형을 datetime 형으로 바꾸어줄 때 이 함수를 사용하게 됩니다. ex)1. '2025-06-06'가 df의 '날짜' 컬럼에 저장되어 있다고 가정합니다. csv 파일을 불러오면 저 날짜는 object 형으로 읽어와집니다. ->따라서, df['날짜'] = pd.to_datetime(df['날짜'])를 통해 해당 컬럼을 datetime 형으로 바..

빅데이터분석기사 제3작업형(회귀 분석)

회귀 분석에는 단순 선형 회귀 분석, 다중 선형 회귀 분석, 로지스틱 회귀 분석이 있습니다. 회귀 분석 문제에서는 어떤 반응 변수(종속 변수, 결과 변수)를 설명하는 설명 변수의 계수, 그리고 절편을 구합니다. 다시 말해, 반응 변수를 잘 설명할 수 있는 선형식을 구하는 것이 선형 회귀 분석의 목적입니다. 선형이 아닌 비선형 회귀도 있지만 빅데이터분석기사에서는 아직 선형 회귀 분석까지만 다루는 것 같습니다.회귀 분석에서 명심해야 할 것은, 모든 관측 값을 완벽하게 예측할 수 있는 선형식을 찾는 것은 거의 불가능하다는 것입니다. 완벽하게 데이터 포인트들에 핏한 선형식을 찾는 것은 거의 불가능하지만, 그 분포들을 어느 정도 잘 표현할 수 있는, 다시 말해 설명력이 있는 선형식을 찾는 것이 선형 회귀 분석의 ..

빅데이터분석기사 제3작업형(카이제곱 검정)

카이제곱 검정의 종류에는 적합도 검정, 독립성 검정, 동질성 검정 등이 있습니다. 카이제곱 검정은 범주형 데이터에 대한 검정에 사용하는 방식입니다. 1. 적합도 검정1개의 범주형 변수에 대해 검정합니다. 이 변수가 특정 분포를 따르는지를 확인하는 절차입니다.따라서 H0, H1을 다음과 같이 설정합니다.H0: ~는 특정 분포를 따른다.H1: ~는 특정 분포를 따르지 않는다.마찬가지로 지금까지 주구장창 사용해왔던 scipy 패키지를 사용합니다. chisquare라는 함수를 사용하면 관측치들에 대해 특정 분포를 따르는지 여부를 검정해볼 수 있습니다.예를 들어보면 다음과 같은 경우가 있을 수 있습니다.한 선거구에서 200명을 대상으로 대선 후보 선호를 조사했을 때, 1번 후보가 80명, 2번 후보가 70명, 3..

빅데이터분석기사 제3작업형(분산 분석)

분산 분석(ANOVA)에는 일원 분산 분석, 이원 분산 분석이 있습니다. 이 두 가지에 대해 각각 어느 경우에 진행하는지 기록해보려 합니다. 1. 일원 분산 분석일원 분산 분석은 한 가지의 요인에 의해 구분되는 3개 이상의 집단들에 대해 평균 차이가 유의미한지를 검정하는 통계적 검정 기법입니다.독립 표본 검정에서는 독립성, 정규성, 등분산성을 가정했습니다. 분산 분석에서의 가정 역시 이와 같습니다.일원 분산 분석의 귀무, 대립 가설은 아래와 같습니다.H0: 모든 집단의 평균이 동일하다.H1: 집단 간 평균에 차이가 존재한다.파이썬으로 일원 분산 분석을 진행하려면 scipy.stats의 f_oneway()를 사용해야 합니다.diet_group = pd.DataFrame({ 'A' : [5.3, 6.7..

InstaCart (1)

🛒 Instacart 재구매 예측📦 1. Instacart 데이터셋 소개이번 프로젝트에 사용한 데이터는 이전의 Kaggle Instacart Market Basket Analysis 대회에서 제공된 오픈 데이터입니다.데이터셋 출처: https://www.kaggle.com/datasets/yasserh/instacart-online-grocery-basket-analysis-datasetInstacart는 미국의 온라인 장보기 플랫폼으로, 고객들이 어떤 제품을 어떤 순서로 재구매하는지를 분석할 수 있는 장바구니 기반 구매 로그 데이터를 제공합니다.데이터는 다음과 같은 테이블들로 구성됩니다:파일명설명orders.csv유저별 주문 기록 및 시간 정보order_products__prior.csv과거(pri..

자유도(degree of freedom, df)

자유도(Degree of Freedom)와 잔차의 자유도, OLS 기반 분산분석 정리빅데이터 분석기사 실기 공부를 하다가 '자유도'라는 개념이 직관적으로 잘 이해되지 않아서, 개인적으로 헷갈리는 부분을 정리해보려고 합니다. 개념 자체가 은근히 자주 등장하면서도 설명이 추상적인 경우가 많아서, 조금씩 알음알음 공부한 내용을 기록해 두는 용도로 작성합니다. 혹시 저처럼 막히는 분이 있다면 참고가 되었으면 좋겠습니다.1. 자유도란 무엇인가요?**자유도(Degree of Freedom)**는 통계량을 계산할 때, 자유롭게 변할 수 있는 값의 수를 의미한다고 합니다.이 중에서도 "잔차의 자유도"는 회귀나 분산분석에서 잔차(오차)를 계산할 수 있는 독립적인 정보의 수를 뜻하며, 보통 다음과 같은 수식으로 계산된다고..

빅데이터분석기사 제3작업형(가설 검정)

다가오는 빅데이터분석기사 실기를 시나공 교재로 준비하며 보니 제3작업형은 아래와 같이 나뉘어 있었습니다. 머리 속에 내용이 잘 들어오지 않아서 복기 차원에서 핵심 내용들을 여기에 정리하려 합니다. 특별히 코드가 복잡하거나 어렵지는 않지만 외우거나 이해를 명확히 하고 넘어가야 하는 부분들이 있는 것 같습니다.제 3작업형가설 검정(1) 단일 표본 검정(2) 대응 표본 검정(3) 독립 표본 검정 분산 분석(1) 일원 분산 분석(2) 이원 분산 분석 카이제곱 검정(1) 적합도(2) 독립성(3) 동질성 회귀 분석(1) 단순 선형(2) 다중 선형(3) 로지스틱 회귀제 3작업형을 진행할 때는 scipy.stats라는 패키지 녀석을 많이 사용하는 것 같습니다. scipy 위주로 많이 연습을 해봐야 할 것 같습니다. t..

GA 공부 요약(1)

1. Marketing funnel(1) Acquisition - 제품이나 서비스 인지도 높이고 사용자의 관심을 얻는 과정(어떤 마케팅 전략이 웹이나 앱으로 고객의 유입을 유도했는지)(2) Engagement - 사용자와 기업의 상호작용(사용자가 어떤 콘텐츠와 상호작용하고 이를 다른 이에게 공유하는지)(3) Monetization and retention - 사용자가 고객이 되어 구매를 할 때 발생하는 수익 창출 과정(사용자가 얼마나 많이 고객으로 전환되는가? 즉 고객으로의 전환율, 혹은 다시 복귀하는 비율을 측정하는 과정) 2. Tag-google analytics를 웹사이트와 연동하기 위해 추가해야 함.-태그 관리 시스템 등을 이용해 추가.-기기 유형, 지리적 위치 등 사용자 정보를 추가, 페이지 조..