[Bigquery] Bigquery 사용 후기(장점 및 단점 위주)

나는 프로젝트를 위해 GA4 데이터를 빅쿼리에 연결해 사용했다.

Bigquery를 사용해보고 개인적으로 느낀 장단점을 남겨보겠다.

먼저 기분 좋게 장점부터 시작해보자 ! 

" 장점 "

1.  클라우드 기반의 분석 도구라 언제, 어디서든 활용 및 업무하는 것이 편하다.

물론 Oracle이나 Mysql도 원격 접속이 가능하지만 서버 관리도 해야 하고 그냥.. 복잡하다 

하지만 bigquery는 서버리스 아키텍처를 제공하고 있기 때문에!

구글 아이디로 접속만 하면 이런저런 중간 과정이 필요가 없어서 너무 편하다.

 

2. 대규모 데이터 처리 속도가 빠르다

솔직히 속도 면에서 기대를 크게 안했는데 이거 진짜 꽤 빠르다. 

나는 하루에도 row 수가 3000만이 넘어가는 꽤 큰 row 데이터를 운용해야 했는데,

이 원짱(전체) 데이터를 한달치를 가져오는데 보통 30초도 안걸린다.

하지만 데이터의 조건이 좀 붙게 되면 느려지긴 한다 ㅎㅎ 그래도 빠르다.

 

3. 다양한 프로그래밍 도구와 연동 기능

Bigquery 는 다양한 프로그래밍 도구와 연동이 가능하다.

나는 Python을 써야 했기 때문에 연동 경험은 python밖에 없지만 R이나 mysql에도 연동이 가능한 듯 하다.

python에서는 구글에서 제공해주는 library 덕분에 정말 간단하게 연동하고 Dataframe화하여 다양한 작업을 할 수 있었다.

 

" 단점 "

1. 전체적으로 Bigquery에 대한 정보가 너무 없다.

기본적으로 제공해주는 Google help에서 제공해주는 정보가 있지만 문제가 많다.. 예를 들어,

    • 아직 업데이트되지 않은 잘못된 이전 버전의 정보를 제공한 경우
    • 정보가 더욱 확실하고 어떻게 추출되었는지 설명이 필요하지만, 한 줄로 요약해서 제공한 경우(ex. ActiveUser)

ex) ActiveUser에 대한 추출 방법에 대한 정보를 명시했지만, 실제로 테스트해보면 그렇지 않은 case

https://studiomx.co.kr/6605/ga4-%ED%99%9C%EC%84%B1%EC%82%AC%EC%9A%A9%EC%9E%90active-user%EC%99%80-%EC%B0%B8%EC%97%AC%EC%84%B8%EC%85%98engaged-session%EC%9D%98-%EC%9D%B4%ED%95%B4/#google_vignette

 

나는 이러한 부분들을 확신하기 위해 GoogleAnalytics의 debuge view(실시간 디버그 이벤트)로 직접 테스트하고 데이터를 대조하는 방법으로 검증했다. 그리고 stack overflow 질문 사이트도 많이 활용해서 답을 많이 찾을 수 있었는데, 아무래도 한국보다 외국에서 먼저 활용한 사례가 많아서 그런지 같은 고민을 하고 있는 사람들을 많이 볼 수 있었다. 모든 답을 찾을 순 없겠지만 추천하는 사이트다.

2. 사용 불가능한 함수가 꽤 많다.

물론, Bigquery에서도 많은 기능을 제공하지만 Oracle이나 Mysql에서 유용하게 썼던 함수들을 못 쓰는 경우가 꽤 있었다.(예를 들어, DECODE같은 함수) 

그래서 같은 조건을 만들기 위한 코드를 작성하기 위해 코드가 길어지거나 완성 시간이 길어져 초반에는 조금 불편했다.

하지만 Bigquery에도 잘 찾아보면 Bigquery에서 제공하는 함수들도 꽤 있어 대체할 수 있는 경우도 있었다!