야근이 필요 없습니다 - 데이터 전처리 이제 시작하자
데이터 전처리는 파워비아이로 데이터를 시각화하기 위해 반드시 거쳐야 하는 부분입니다. 보통 데이터 시각화에서 원본 데이터를 어떤 식으로 처리를 할 것인가에 상당히 많은 시간을 할애하게 되는데요, 이는 데이터 전처리가 잘 되었을 때 파워비아이에서 작업을 수월하게 하며 또 데이터를 가지고 DAX 수식을 적용하기가 훨씬 쉽기 때문에 상당히 중요한 부분입니다.
회사에 다니시는 분들이라면 대부분이 엑셀에 저장된 데이터를 파워비아이로 가지고 와 데이터 시각화 작업을 하실 거라 생각이 듭니다. 이 엑셀에 저장된 파일을 아무 수정 없이 사용하게 된다면 가장 좋은 시나리오가 되겠지만 현실은 그렇지 않다는 것이 문제죠. 엑셀에 저장된 수많은 파일을 자르고 붙이며 파워비아이에서 사용할 수 있도록 변환이 되어야만 비로소 의미 있는 데이터로 바뀌게 되는 것입니다.
데이터 전처리를 위한 방법은 여러 가지가 있지만 가장 많이 사용하는 것은 파이썬 (Python)과 파워쿼리 (Power Query)라 생각합니다.
파이썬은 컴퓨터 언어이지만 다른 언어에 비해 좀 더 쉽게 배울 수 있는 데다, 판다스 (Pandas)나 넘파이 (Numpy) 같이 데이터 처리에 알맞은 강력한 라이브러리를 제공하고 있어 많이 사용되고 있습니다.
여기에 더해 파이썬으로 만든 코딩을 그대로 파워비아이에 사용할 수 있어 연계성이 좋다는 것도 한몫하는 듯합니다.
파워쿼리도 독자적 M Code라는 컴퓨터 언어를 사용하지만, 파워쿼리 에디터라는 도구를 제공해 코딩 기술이 없더라고 여러 명령 툴을 이용해 엑셀과 비슷한 환경 속에서 데이터를 눈으로 하나하나 확인해가며 변환이 가능한 툴입니다. 어려운 데이터 분석을 누구나 쉽게 할 수 있도록 도와주는 변환 툴인 셈이죠.
두 가지의 장점은 다음과 같습니다.
파이썬
- 데이터의 처리속도가 빠르다.
- 데이터 불러오기에서 파이썬 코딩을 그대로 이용할 수 있다
- 파이썬에서 전처리를 거친 뒤 파워비아이로 불러오기 때문에 데이터 정렬이 쉽다
파워쿼리
- 특별히 코딩을 몰라도 에디터의 명령 툴을 이용해 데이터 처리가 가능하다
- 다양한 데이터 소스를 제공해 거의 모든 형태의 데이터를 불러올 수 있다
- 하나하나의 과정이 기록되기 때문에 수정이 용이하며 쉽게 오류를 찾아낼 수 있다.
개인적으로 많은 파일을 지속적으로 업로드해야 하는 경우는 파이썬 코딩을 선호하며, 간단히 단발적으로 작업이 진행될 경우는 파워쿼리를 사용하고 있습니다. - 아주 복잡한 코딩을 이야기하는 것이 아니라 데이터 변환을 위한 간단한 코딩입니다.
둘 다 데이터 분석이라는 목적을 위해 사용되기 때문에 비슷한 개념을 가지고 있으며, 하나를 잘 다루게 되면 다른 쉽게 다가갈 수 있습니다.
일단 좀 더 쉬운 파워쿼리를 이용한 데이터 전처리를 먼저 다루고 다음에 파이썬을 이용한 방법을 알아보겠습니다.
꼭 데이터 분석가가 아니더라도 간단히 파워쿼리로 데이터 전처리 진행하는 방법을 알아두시면 엑셀보다 몇 배는 강력한 도구가 될 수 있으며, 회사에서 많은 엑셀 파일을 가지고 일할 때 큰 도움이 될 수 있으니 이번 기회에 잘 알아두시면 좋겠습니다.