빅데이터(big data)는 IT 기술이 발전하면서 등장한 개념으로 기존에 처리하던 데이터보다 더 많은 양의 대규모 데이터를 의미합니다. 여러 종류의 데이터가 결합한 대규모의 데이터이기 때문에 전통적인 방법으로는  빅데이터 처리가 힘듭니다.

 

빅데이터를 처리하기 위해서는 어떤 것들이 필요할까요?
빅데이터나 데이터 과학에 관심이 있는 분들이라면 SPSS, SAS, R, 파이썬 등을 들어봤을 것입니다.

 

R은 SPSS, SAS와는 달리 오픈 소스로 무료 사용이 가능하며, 통계 분석에 특화되어 있는 언어입니다.
그리고 파이썬은 요즘 대중적으로 사용되고 있으며 많은 사람들이 데이터 분석에 활용하고 있습니다.

 

통계도 프로그래밍도 처음인 데이터 분석 초보라면, R과 파이썬 중 어느 것을 선택해야 좋을까요?

 

 


 

🤔표로 정리하는 R과 파이썬의 특징 비교

파이썬은 범용 프로그래밍 언어이므로 프로그래밍을 배운 적 없는 사람들은 데이터 분석 방법보다 언어를 익히는 데 더 많은 시간을 할애할 수도 있습니다.


그러므로 프로그래밍에 익숙하지 않고 데이터 분석에 처음 도전하는 사용자라면 통계 분석과 그래프 형태의 시각화가 강점인 R로 데이터 분석을 시작하는 것을 추천합니다.

특징 R 파이썬
비용 무료(오픈 소스) 무료(오픈 소스)
유연성 통계 분석에 특화 범용 프로그래밍 언어
데이터 처리 속도 느림 R에 비해 빠름
시각화 강력한 시각화 R에 비해 난해한 시각화
학습 난이도 쉬움 쉬움
개발 도구 RGui, R 스튜디오 등 파이참, 비주얼 스튜디오 코드

 

 

 


 

🥚R 언어란?

R 언어(이후 R)는 뉴질랜드 오클랜드 대학의 로버트 젠틀맨(Robert Gentleman)과 로스 이하카(Ross Ihaka)에 의해 시작되었습니다. 벨 연구소에서 만든 S 프로그래밍 언어를 참고하여 누구나 사용할 수 있도록 만든 것이 현재의 R입니다. 처음에는 일부 통계학자들만 사용하는 언어였는데, 빅데이터 시대가 도래한 이후 구글, 페이스북, 야후, 아마존 등에서 기본 데이터 분석 도구로 널리 사용하면서 주목받게 되었습니다.

 

 

 

🥚R의 장단점

그렇다면 R은 왜 인기가 많은 것일까요? 그리고 R을 사용하는 데 불편함은 없을까요?
R을 사용하기에 앞서 R이 데이터 분석에서 각광을 받는 대표적인 이유와 어떤 불편함이 있는지 미리 파악해 놓는 것이 좋습니다.

 

 

🙆‍♂️R의 장점 4가지____________________

첫째, 통계 분석 등에 활용할 수 있는 패키지 수가 많습니다.
패키지란 R의 편리한 사용을 위해 만들어 놓은 함수들의 묶음으로 설치만 하면 다양한 기능을 편리하게 사용할 수 있습니다.

 

둘째, 사용자 간에 다양한 정보를 공유할 수 있습니다.
커뮤니티가 활성화되어 있어 사용자 간에 다양한 정보를 공유할 수 있습니다.

 

셋째, R은 무료입니다.
데이터 분석에 흔히 사용하는 SPSS나 SAS는 유료이지만, R은 무료로 이용할 수 있습니다.

 

넷째, 다양한 운영체제에서 동작합니다.
윈도우, 맥, 리눅스 등 다양한 운영체제에서 동작하며, 설치와 사용 환경 구축이 쉽습니다.

 

 

🙅‍♂️R의 단점 2가지____________________

첫째, 쉬워도 프로그래밍 언어입니다.
R도 프로그래밍 언어이기 때문에 프로그래밍에 대한 기초 지식이 전혀 없다면 다소 어려움을 느낄 수 있지만, 범용 프로그래밍 언어보다는 쉬워 데이터 분석에 처음 도전할 때 시작하기 좋은 언어입니다.

 

둘째, 처리 속도가 느립니다.
범용 프로그래밍 언어(C, 파이썬, 자바 등)와 비교했을 때 처리 속도가 느립니다. 특히 데이터 분석에만 특화되어 있어 대규모 IT 서비스 개발에 접목하기 쉬운 프로그래밍 언어는 아닙니다. 그럼에도 강력한 시각화 기능이 있어 통계 분석을 하는 많은 데이터 분석가들이 R을 사용합니다.

 

 


 

🐣R을 공부하고 나면 무엇을 할 수 있나요?

R 언어로 기본적인 데이터 분석을 알 수 있습니다. R 언어는 통계 분석을 위한 언어라고 흔히들 알고 있지만, 데이터 시각화에도 강점이 있는 언어이므로 데이터분석 보고서를 위한 대시보드도 만들 수 있습니다. R 마크다운 기능을 활용하면 기술 블로그를 작성해 볼 수도 있습니다. 또한 최근에 주목받고 있는 인공지능에도 흥미가 있다면 패키지를 활용하여 데이터마이닝이나 머신러닝 등을 더 공부해 볼 수도 있습니다.

 

 

혼자 공부하는 R 데이터 분석

위 내용은 『혼자 공부하는 R 데이터 분석』의 일부분을 재구성하여 작성하였습니다.

프로그래밍도 통계도 처음 배우는 입문자가 R언어로 데이터 분석을 할 수 있도록 만들어진 책 입니다. 데이터 분석에 관심이 있거나 R 언어로 데이터 분석을 시작하고 싶다면『혼자 공부하는 R 데이터 분석』으로 지금 시작해 보세요!

👀 도서 자세히 보기

👨‍💻유튜브 강의로 더 자세히 알기
🙋‍♂️강전희&엄동란 저자님께 질문하기