Post

[ETC]Data Science

‘데이터 과학(data science)이란, 데이터 마이닝(Data Mining)과 유사하게 정형, 비정형 형태를 포함한 다양한 데이터로부터 지식과 인사이트를 추출하는데 과학적 방법론, 프로세스, 알고리즘, 시스템을 동원하는 융합분야다.’
출처 : 위키백과

1. data scientist의 본질 정의

데이터 분야는 대중적으로 세가지로 나눌 수 있다고 본다.

  • Data Analyst : 전사적 의사결정을 위해 가설을 수립하고 데이터로 검증(분석)하는 업무
  • Data Scientist : 도메인의 목적에 맞는 모델 생성 및 개선이나 통계적 모델링을 수행하는 업무
  • Data Engineering : 대용량 데이터를 수집하고 관리하는 업무

사실 위에 말한 내용과는 다르게 내가 스스로 데이터 사이언티스트라는 것에 대한 정의를 내리지 못했었다.

이 직군에 대해 여러 검색을 해봤지만 한국에서는 데이터 분석가와 데이터 사이언티스트의 구분이 거의 없다.

또한, 이 직무는 ML 엔지니어와 데이터 분석가 사이에서 명확히 구분되는 경계가 없기에 찾아 볼 수록 나는 더욱 혼란 스러워 질 수 밖에 없었다.

따라서 한국에서 데이터 사이언티스트라는 타이틀을 보기보다는 하는 업무를 봐야할 것 같다.

이에 변성윤님의 글 중 "나는 어떤 직군이야" 라고 정의 내리는 것은 스스로 가두는 느낌이야 라고 하는 부분이 마음에 들었다.

궁극적으로는 데이터에서 새로운 가치를 창출하는 것으로 나는 잠정적인 정의를 내린다.

2. 필요 역량

정말 많은 부분이 요구되지만 개인적으로 몇가지만 간추려 보았다.

  • 비기술적 역량(소프트 스킬)
    • 비지니스 도메인 지식
    • 효과적인 의사소통 능력
    • 지적 호기심
  • 기술적 역량(하드 스킬)
    • 데이터 분석가의 역량
    • MLㆍAI 관련 지식 및 코딩 역량
    • 수학ㆍ통계 역량

지적 호기심과 수학ㆍ통계 역량이 우선순위라고 생각한다.

왜냐하면 이 두 부분은 모든 역량의 기저에 깔려있다고 판단해서이다.

지적 호기심이 있어야 끊임 없이 정보를 습득하며 그에 기반하여 창의적인 생각이 가능하다고 판단했다.

또한, 수학과 통계에 대한 이해가 없으면 ML이나 AI에 대한 깊은 이해는 불가능 하기 때문이다.

3. 개인적인 생각

1 출처 : https://towardsdatascience.com/no-machine-learning-is-not-just-glorified-statistics-26d3952234e3

모든 일에는 기초가 중요하고 이로 인해 나는 ML, AI 등 뜨거운 감자와도 같은 내용에 현혹 될 게 아니라 그에 대한 기초가 되는 내용을 잘 이해해야 할 것 이다.

데이터 사이언티스트에서도 자연어 처리, 컴퓨터 비전, 추천 등 다양한 도메인이 있지만, 탐욕적이게도 모든 내용을 추구하고 싶다.

하나의 방법에 국한되고 싶지 않고 이러한 추구가 나의 시야를 넓혀주기에 이를 바탕으로 다양한 문제들을 해결해 나가기 위해서이다.

말로나 글로는 거창할 수 있고, 나의 능력이 그에 미치지 못해 하늘의 별따기이지만 하나 하나 올라가다 보면 별과 비슷하게 아래를 내려다 볼 수 있지 않을까?

REFERENCES


  1. 데이터를 활용하는 직군
  2. 데이터 사이언스를 공부하고 싶은 분들을 위한 글
  3. 프로그램이 좋아서 전공을 포기하겠다고?
  4. Tableau 필요 기술
  5. 데이터 직군 별 필요 역량
This post is licensed under CC BY 4.0 by the author.