눈에 보이지 않는 데이터의 공백
데이터 전처리에서 눈에 보이지 않는 요소로 인해서 많은 양의 데이터가 누락되는 경우가 많습니다
아래의 예를 한번 보시면 금방 이해가 될 거로 생각합니다.
네 개의 데이터가 모두 같아 보이지만 실제로 파워 쿼리에서는 4개의 각각 다른 데이터로 인식합니다.
세 번째는 차이가 느껴지죠? Power 앞에 공백 하나를 가지고 있습니다.
이 공백 하나 차이로 세 번째 데이터는 다른 데이터로 인식됩니다.
그럼, 나머지는 뭐가 차이가 있을까요?
첫 번째는 아무 글 앞뒤로 아무 공백이 없으며, 두 번째는 마지막 BI 뒤에 공백 하나, 네 번째는 BI 뒤에 공백 2개를 가지고 있습니다.
이러한 차이로 인해 파워 쿼리에서는 상이 값 4개, 고유 값 4개로 인식합니다.
만일 이런 차이점을 무시하고 데이터 전처리를 진행한다면, 기대했던 결과치를 얻을 수 없게 되는것입니다.
Power BI라는 문자와 연결되어야 할 데이터가 결국은 하나로 다 합산이 되지 않고, 결국에는 4개로 분산되기 때문이죠.
그럼 이런 공백은 어떻게 지울 수 있을까요?
공백 제거 (Trim) 를 활용하자
이를 없애는 간단한 도구가 공백 제거 (Trim)입니다.
실행하는 방법은 2가지가 있는데, 하나는 변환 리본에서 서식을 선택하면 공백 제거가 나오고요, 다른 하나는 머리글에 커서를 놓고 마우스 오른쪽 버튼을 누르면 메뉴가 나오는데, 여기서 변환을 선택하면 공백 제거라는 명령을 볼 수 있습니다.
공백 제거 명령을 실행하면 글자 전후로 들어있는 모든 공백을 없애주고, 열 분포를 다시 확인하면 기존 4종류였던 데이터 개수가 1개로 되었음을 알 수 있습니다.
그럼, 정리 (Clean)는 무엇인가?
정리 (Clean) 명령은 공백 제거 (Trim)처럼 많이 사용되지 않습니다.
데이터 보관을 가장 작은 형태로 만들어둔 기존 데이터를 파워 쿼리로 가져오는 경우는 정리 (Clean) 명령을 사용할 일이 거의 사용할 일이 없기 때문이죠
하지만, 간혹 엑셀에서 데이터를 가져올 때 비록 데이터가 한 셀에 들어 있지만 아래와 같이 두 줄로 입력된 경우를 종종 발견할 수 있습니다.
이럴 때 정리 명령을 사용하면 데이터를 아주 쉽게 변환할 수 있습니다.
공백 제거 (Trim)은 앞뒤 공백만 제거해 주는 반면 정리 (Clean)은 두 줄로 된 데이터가 한 줄로 정리됨을 확인할 수 있습니다.
데이터를 분석한다는 것은 올바른 데이터를 가지고 있어야 제대로 된 분석이 가능합니다. 데이터 분석을 진행하기 전, 문자의 속성을 가진 열은 약간은 번거로운 과정을 거치는 것이 전처리 과정 중 오류를 최소화하는 것은 물론, 올바른 결과치를 얻을 수 있기에 데이터 분석을 시작하기 전 데이터를 정리하는 습관을 지니는 것이 좋습니다.
'파워쿼리 > 데이터 전처리와 파워쿼리' 카테고리의 다른 글
파워쿼리 에디터 - 그룹화로 SUMIFS, COUNTIFS 간단히 해 (0) | 2023.03.15 |
---|---|
파워쿼리 에디터 - 열 분할로 입맛에 맞게 데이터 나누기 (2) | 2023.03.11 |
파워 퀴리 에디터에서 열 이름, 서식 지정하고 오류 확인하기 (0) | 2023.03.06 |
데이터 분석의 시작 - 첫 행을 머리글로 올려 열 이름 지정하기 (0) | 2023.03.04 |
데이터 전처리 입력 도구 - 파워쿼리 에디터 리본과 데이터 보기의 DAX (0) | 2023.03.03 |