이안의 데이터분석 STORY

[통계학] 중심극한정리(CLT: Central Limit Theorem) 쉽게 설명

혹시 이렇게 생각하고 있다면 잘못 이해하고 있는 것이다모집단(분석하고자 하는 전체 집단)에서 표본을 30개 이상 추출했으니 추출한 해당 표본의 분포는 정규분포에 따른다. ↑ 잘못 이해이건 간단한 예제로 이해 가능한데, 예를 들어 우리나라 성인 몸무게 데이터를 300개를 한번에 추출 했다고 가정하자.300명 중 추출된 몸무게 데이터는 50kg: 150명, 60kg: 100명, 70kg: 40명, 100kg: 10명 이라고 가정하자이 결과를 히스토그램으로 대충 그려보면 다음과 같이test 당연히 정규분포를 따르지 않는다. 중심극한정리에 대해 최대한 쉽게 설명해보겠다. 예시를 잘 보자 중심극한정리 정의모집단 분포에 상관없이 모집단에서 추출한 표본의 크기 n이 커질수록 (n≥30) 표본평균의 분포가 정규..

format_list_bulleted 데이터분석/Statistics(통계학)
· 2024. 7. 15.
textsms

[R] aggregate를 이용한 그룹별 통계량(ex. 합계, 평균) 구하기 iris데이터

데이터 셋head(iris)사용 데이터: R 내장 데이터 iris(아이리스, 붓꽃) 데이터데이터 형태: dataframe데이터 설명: 세 가지 종류의 아이리스(setosa, virgincia, versicolor)에서 각각 추출한 50개의 샘플 데이터Sepal.Length: 꽃받침 길이Sepal.Width: 꽃받침 너비Petal.Length: 꽃잎 길이Petal.Width: 꽃잎 너비Species: 꽃의 종류이미지 출처: https://onoffmix.com/event/246263 aggregate 함수 형태aggregate(측정변수 ~ 측정항목, 데이터 셋, 측정기준) iris 데이터 셋 적용 예시1. 측정항목 1개, 측정변수 1개일 때iris 꽃 종류별 꽃받침 길이(Sepal.Length)의 합..

format_list_bulleted 데이터분석/R
· 2024. 7. 15.
textsms

[Python] Python 데이터프레임 Mysql로 데이터 내보내기

1. pymysql 라이브러리 설치pip install pymysql 2. 파이썬 ↔ Mysql 데이터베이스 연동from sqlalchemy import create_engineimport pymysqldb_connection_path = 'mysql+pymysql://:@:/'db_connection = create_engine(db_connection_path)conn = db_connection.connect() conn( ※ '' 부호 는 제거해야 함), , , : Mysql Connection - edit 에서 확인 : SHOW DATABASES; 코드로 조회 3. 파이썬 → Mysql 데이터베이스 전송df_data.to_sql('table_name', con=db_connection, if_..

format_list_bulleted 데이터분석/Python
· 2024. 7. 12.
textsms

[Spreadsheet] 스프레드 시트 크롤링, 매일 환율 데이터 자동 업데이트하기

주변 지인이 환율 정보를 매일 알아서 업데이트해주는 방법이 없냐고 해서 최근 나를 편하게 서포트해주고 있는 스프레드 시트를 이용해서 만들어주었다. 물론 엑셀도 가능하지만 오류도 많은 편이고 조금 귀찮다..(필자: ISTP) 아무튼 그런데! 스프레드 시트를 이용하면 아주 간편하게 매일 자동으로 업데이트해주는 환율 데이터를 만들 수 있는 방법이 있어 작성해보겠다. 크롤링 정보활용 정보: 네이버 시장지표 미국 USD/KRW (달러/원화)크롤링 페이지 URL: https://finance.naver.com/marketindex/exchangeDetail.naver?marketindexCd=FX_USDKRW https://finance.naver.com/marketindex/exchangeDetail.naver?..

format_list_bulleted 데이터분석/Spreadsheet
· 2024. 7. 9.
textsms

[Python] 데이터프레임 데이터 Parquet(파케이)로 파일 저장하고 읽기

Parquet이란?빅데이터를 처리할 때 많은 시간과 비용이 들어가는데 Parquet을 사용하므로써 데이터를 압축시켜 빠르게 읽게 해줄 수 있는 파일 포맷이다. csv나 xlsx처럼 Parquet(파케이)도 .parquet 이라는 확장자명을 가지고 있다. 🌲Parquet(파케이)란? 컬럼기반 포맷 장점/구조/파일생성 및 열기어떻게 알게 되었나? 보통 수집한 데이터들은 정형데이터, 비정형데이터에 따라 RDB나 NoSQL로 저장했다. 그런데 데이터레이크를 만들면서 객체스토리지인 s3에 데이터를 저장해야했다. 사실 처음pearlluck.tistory.com 파케이에 대해 좀 더 설명하자면, Parquet 파일로 변환 후 저장하면 열 기반 형식으로 데이터가 저장된다.열 기반으로 저장한다는 의미는 테이블의 각 ..

format_list_bulleted 데이터분석/Python
· 2024. 7. 9.
textsms

[통계학] 종속변수가 1개일 때 통계 분석 기법 선택(한 눈에 보기)

종속변수가 1개이고 연속형 변수일 때 종속변수가 1개이고 범주형 변수일 때천천히, 하나씩 https://m.blog.naver.com/y4769/220024117776

format_list_bulleted 데이터분석/Statistics(통계학)
· 2024. 7. 8.
textsms