요즘 다양한 매체에서 데이터 분석(data analysis)에 대해 이야기 하는 것을 들어보셨을 겁니다. stable diffusion과 chatGPT와 같이 인공지능이 이 시대의 흐름이 된 요즘, 데이터 분석이 더 중요해졌다고들 말합니다. 그렇다면 데이터 분석이란 무엇일까요?
안타깝게도 데이터 분석은 한마디로 정의하기 어렵습니다. 물론 사전적 의미로만 보면 데이터는 자료, 정보를 의미하고, 분석은 복잡한 대상을 정확하게 이해하기 위해 단순한 요소로 나누어 설명하는 것을 의미합니다. 그런데 두 단어를 합쳐 놓으면 콕 집어 정의하기 어려운데요, 분야나 상황에 따라 데이터 분석의 역할 수행과 범위가 달라지기 때문에 그렇습니다.
데이터 분석과 데이터 과학
위키피디아에서는 데이터 분석을 ‘유용한 정보를 발견하고 결론을 유추하거나, 의사 결정을 돕기 위해 데이터를 조사, 정제, 변환, 모델링하는 과정’으로 정의합니다. 데이터 분석은 다양한 접근 방법과 형태로 여러 비즈니스와 과학 분야에서 사용합니다. 현대 사회에서 데이터 분석은 비즈니스 결정을 과학적으로 내리기 위한 도구로 사용되는 경향이 있습니다.
데이터 분석과 함께 자주 언급되는 용어는 데이터 과학(data science)입니다. 대부분 데이터 분석과 데이터 과학을 동일하게 취급하지만, 두 용어를 분리해서 비교해 보면 데이터 과학은 통계학(statistics) 데이터 분석, 머신러닝(machine learning), 데이터 마이닝(data mining) 등을 아우르는 큰 개념으로 볼 수 있습니다. 그렇다면 먼저 데이터 과학이 무엇인지 조금 더 자세히 알아보고 데이터 분석의 영역을 간접적으로 확인해 보도록 하겠습니다.
✅데이터 분석에 대한 자세한 내용: Data analysis – Wikipedia
✅데이터 과학에 대한 자세한 내용: Data science – Wikipedia
먼저 쿼라(Quora)라는 질의응답 웹사이트에서 데이터 과학자 지 리(Ji Li)가 적은 답변을 보면 데이터 과학이란 무엇인가라는 질문에 대한 명쾌한 해답을 얻을 수 있습니다.
“데이터 과학은 데이터 세계와 비즈니스 세계를 잇는 다리입니다. 데이터 과학을 활용해서 소프트웨어나 제품을 개발할 수 있지만 이것이 전부는 아닙니다. 또 데이터 과학이 통계학과 관련이 많다지만 통계학 자체는 아니며, 학술적인 분야 또한 아닙니다. 멋진 그래프를 그리기도 하지만 이것이 데이터 과학의 전부는 아닙니다. 오히려 데이터 과학은 이 모든 것을 포함합니다. 데이터 과학을 하려면 프로그래밍, 통계학, 시각화와 더불어 비즈니스 감각을 갖추어야 합니다.”
이 설명은 데이터 분석에도 충분히 적용할 수 있습니다. 데이터 분석과 데이터 과학이 가장 크게 다른 점은 두 분야가 만들어 내는 ‘결과물’입니다. 데이터 분석은 올바른 의사 결정을 돕기 위한 통찰을 제공하는 데 초점을 맞추고, 데이터 과학은 한 걸음 더 나아가 문제 해결을 위한 최선의 솔루션을 만드는 데 초점을 맞춥니다.
특징 | 데이터 분석 | 데이터 과학 |
범주 | 비교적 소규모 | 대규모 |
목표 | 의사 결정을 돕기 위한 통찰을 제공하는 일 | 문제 해결을 위해 최선의 솔루션을 만드는 일 |
주요 기술 | 컴퓨터 과학, 통계학, 시각화 등 | 컴퓨터 과학, 통계학, 머신러닝, 인공지능 등 |
빅데이터 | 사용 | 사용 |
데이터 과학과 마찬가지로 데이터 분석은 통계학과 관련이 많습니다. 따라서 통계적 관점에서 보면 데이터 분석을 크게 세 가지로 나눌 수 있습니다. 기술통계(descriptive statistics), 탐색적 데이터 분석(EDA; exploratory data analysis), 가설검정(hypothesis testing)입니다.
- 기술통계: 관측이나 실험을 통해 수집한 데이터를 정량화하거나 요약하는 기법. 예) 평균 계산, 최솟값, 최댓값 찾기.
- 탐색적 데이터 분석: 데이터를 시각적으로 표현하여 주요 특징을 찾고 분석하는 방법.
- 가설검정: 주어진 데이터를 기반으로 특정 가정이 합당한지 평가하는 통계 방법.
데이터 분석가
데이터 분석가(data analyst)는 무엇을 하는 사람일까요? 먼저 데이터 과학의 정의에 빗대어 데이터 분석가의 일을 살펴보겠습니다.
데이터 분석가는 프로그래머나 통계학자, 그래픽 디자이너가 아닙니다. 프로그래밍 기술을 갖추고 있고 통계학을 이해하면서 정보를 시각적으로 잘 표현할 수 있는 사람입니다. 물론 해당 비즈니스 문제에 대한 깊은 이해는 필수입니다. 아래 그림은 드류 콘웨이(Drew Conway)가 그린 ‘데이터 과학 벤 다이어그램’입니다. 데이터 과학자 혹은 데이터 분석가에게 필요한 기술을 잘 나타내고 있습니다.
데이터 분석가는 프로그래밍, 수학·통계, 도메인 지식(비즈니스 문제에 대한 전문 지식)이 모두 필요합니다. 벤 다이어그램에서 이것들을 하나씩 빼면서 생각해 보겠습니다. 수학·통계 없이 프로그래밍 기술과 도메인 지식만으로 문제 해결 방안을 내놓았다면 검증되지 않은 해결책이므로 위험합니다. 도메인 지식 없이 프로그래밍과 수학·통계 지식만 사용한다면 비즈니스 목표에 맞지 않는 결과를 만들 수 있습니다.
또 프로그래밍 없이 도메인 지식을 수학·통계에 적용한다면 ‘전통적인 분석’만 수행하는 것입니다. 데이터 분석에 필요한 프로그래밍과 수학·통계는 가볍게 배우더라도 도메인 지식은 맞닥뜨린 문제에 따라 다르므로 일반화하여 설명하기 어렵습니다. 해당 분야에서 직접 경험을 쌓거나 경험이 많은 전문가의 도움을 받아야 합니다. 이러한 이유로 경영이나 사회 과학 등 다른 분야를 전공한 데이터 분석가도 많이 볼 수 있습니다.
그렇다면 데이터 분석가의 작업 과정은 어떨까요? 데이터 수집, 데이터 처리, 데이터 정제, 데이터 분석, 모델링까지 포함됩니다. 좁은 의미로는 기술통계, 탐색적 데이터 분석, 가설검정 등을 넓은 의미로는 데이터 수집부터 모델링까지를 말합니다.
데이터 마이닝과 머신러닝
데이터 마이닝과 머신러닝은 공유하는 영역이 많고, 데이터 분석과 데이터 과학만큼이나 명확하게 구분하기 어렵습니다. 하지만 차이점은 분명히 존재합니다. 이 둘을 구분해 보고, 각 개념이 데이터 과학 범위 안에서 어떤 역할을 담당하는지 알아보겠습니다.
데이터 마이닝(data mining)은 데이터에서 패턴 혹은 지식을 추출하는 작업을 말합니다. 머신러닝, 통계학, 데이터 베이스 시스템과 관련이 많습니다. 이러한 패턴과 지식은 사람이 의사 결정을 내리기 위해 활용됩니다. 그런데 왜 데이터 마이닝이라고 할까요? 비슷한 단어로 금을 채취하는 작업을 골드 마이닝(gold mining)이 있습니다. 하지만 모래에서 금을 찾는다고 샌드 마이닝(sand mining)이라고 부르지 않습니다. 비슷한 맥락에서 봤을 때 어쩌면 데이터 마이닝이라는 용어보다 찾으려는 대상을 강조한 패턴 분석(pattern analysis)이나 지식 추출(knowledge extraction)이라는 용어가 더 어울릴 수도 있습니다. 그럼에도 데이터 마이닝이라고 하는 이유는 많은 데이터를 분석한다는 점을 강조하기 위해서일 것입니다.
머신러닝(machine learning)은 데이터에서 자동으로 규칙을 학습하여 문제를 해결하는 소프트웨어를 만드는 기술입니다. 요즘 자주 보이는 딥러닝(deep learning)도 머신러닝 알고리즘의 한 종류입니다. 머신러닝은 데이터 마이닝과 다르게 규칙이나 패턴을 사용하는 주체가 사람이 아닌 컴퓨터입니다. 또한 데이터 마이닝 알고리즘은 비교적 규칙을 만드는 과정이 투명한 데 비해 머신러닝 알고리즘은 마치 블랙박스처럼 결정이 내려진 이유를 알기가 어려운 경우가 많습니다.
머신러닝으로 학습한 소프트웨어 객체를 모델(model)이라 부릅니다. 데이터 과학자가 하는 일은 데이터를 분석하고 이런 모델을 만드는 것입니다. 그러나 모델 과학자라고 부르지 않고 데이터 과학자라고 부르는 이유는 데이터를 모으고 분석하는 일이 더 중요하기 때문일지도 모르겠습니다. 즉, 좋은 데이터가 준비되어 있다면 머신러닝 모델을 만드는 과정은 비교적 쉽습니다. 하지만 데이터가 엉망이라면 아무리 알고리즘이 좋아도 제대로 동작하는 모델을 만들 수가 없습니다.
위 내용은 『혼자 공부하는 데이터 분석 with 파이썬』의 일부분을 재구성하여 작성하였습니다.
실제로 일어날 법한 문제를 직접 해결하며 익히는 ‘진짜’ 데이터 분석! 데이터를 직접 수집하고, 파이썬 라이브러리를 활용하여 코딩 감각을 익히고, 핵심 통계 지식으로 기본기를 탄탄하게 다질 수 있습니다.
혼공분석으로 데이터 분석의 A부터 Z까지 제대로 배워보세요!
👀 도서 자세히 보기
✍️ 유튜브 강의
🙋 박해선 저자님께 질문하기
Leave A Comment