데이터 사이언스란 무엇인가?
데이터 사이언스(Data Science)는 데이터로부터 유의미한 통찰을 얻기 위해 통계학, 컴퓨터 과학, 머신러닝, 데이터 분석 등을 결합하는 학제 간 분야이다. 데이터 사이언스는 구조화된 데이터와 비구조화된 데이터 모두를 처리하여 복잡한 문제를 해결하고, 의사결정을 지원하거나 예측 모델을 생성하는 데 중요한 역할을 한다.
데이터 사이언스의 어원을 보면 1940년대부터 1960년대 사이로 거슬러 올라가게 된다. 제프우는 1997년에 ‘Statistics = Data Science?’라는 물음표를 던졌다. 시기는 딱 데이터 사이언스가 사람들에게 알려지기 시작한 때와 맞물렸다. 사람들은 대부분 2008년부터 파틸과 해머바처가 자신들의 링크드인과 페이스북 직책란에 ‘데이터 사이언티스트’라고 기재했을 때부터 데이터 사이언스가 업계에서 유행하기 시작했다고 생각한다.
구체적인 데이터 사이언스의 의미를 보면 다음 그림에 정확히 묘사했다. 데이터 사이언스는 통계학, 컴퓨터 사이언스, 그리고 특정 분야 지식의 융합이다. 만약 통계학과 특정 분야의 지식만 있다면 전통적인 데이터 분석이 된다. 보통은 간단한 도구를 사용해 적은 양의 표본을 처리한다. 만약 컴퓨터 사이언스와 특정분야의 지식만 있다면 업계에서 자주 사용하는 비즈니스 인텔리전스(BI)가 된다.