ⓒPixabay
ⓒPixabay

 


최근 빅데이터는 데이터량의 크기(Volume), 생성속도(Velocity), 다양성(Variety), 가치(Value), 정확성(Verocity) 등 5V로 불리우며 디지털 세상에서 매우 빠른속도로 우리 주변에 만들어지는 거의 모든 데이터를 지칭한다. 인공지능에는 데이터가 필수적인데, 빅데이터로 부터의 인사이트가 인공지능에 필요한 데이터로서 제공되기 때문에 빅데이터 분석은 인공지능에서 없어서는 안될 필수적 과정이다.

빅데이터는 각각의 개별 데이터보다는 전체 데이터가 모였을 때 큰 힘과 가치를 창출하기  때문에, 빅데이터로부터 어떤 인사이트를 추출하느냐가 매우 중요하다. 즉, 기존의 분석은 ‘무엇이 발생하였나’에서 ‘왜 일어났지’를 통해‘앞으로 무엇이 일어날 것인가’를 예측하는 것이었다면, 빅데이터 분석은 ‘그래서 어떻게 할 것인가’와 같이 최적의 해를 찾는 것에 이르기까지 다양한 분석 프로세스를 갖는다.

또한 기존의 통계 분석방법이 모집단에서 표본을 추출하고 가설검증을 통해 통계적 분석된 수치를 표시하는 것이었다면, 빅데이터 분석은 대량의 데이터 분석을 통해 새로운 사실, 패턴 및 법칙을 발견하여 새로운 비즈니스적인 가치를 창출한다는 면에서 차별화된 분석의 특징을 갖는다. 따라서 무작위로 추출하는 것이 아닌 목적에 적합한 유의미한 정보를 찾아내는 것이 가장 중요한 빅데이터 분석에서의 관건이다.
 

ⓒPixabay
ⓒPixabay

 


석유시추선에 고장이 발생해 만약 1일 정지하였을 경우 발생하는 100억원에 해당하는 손실액을 빅데이터 분석을 통해 미리 예측하고 최적화 함으로써 80%까지 손실액을 줄일 수 있었다는 예는 이미 잘 알려진 사실이다.  

글로벌 데이터발생량은 2021년 약 70ZB(1ZB = 270Byte)에서 2025년에는 두배가 넘는 163ZB에 이른다고 하며, 특히 SNS와 같은 텍스트, 음성, 이미지 등 여러 비정형 데이터들이 전체 생성데이터의 약 90%를 차지한다고 하니, 빅데이터에서 가치를 찾아내려면 분석의 신속성과 정확성이 무엇보다 필요한 공수가 많이 드는 일임에는 틀림이 없다.  

구글에서 하둡(Hadoop)을 분산방식으로 개발함으로써 빅데이터가 분산되어 저장된 채로 분석이 가능하다는 가능성을 제시하였다. 이후 여러 유료 무료 방식의 빅데이터 분석방법들이 제시되어 왔고, 이젠 더 이상 빅데이터가 새로운 기술이 아닌 기반 기술로 자리잡아가고 있다.  [기사 더보기]

 


[출처 : 여성신문(http://www.womennews.co.kr)]

[기자 : 조영임 가천대학교 컴퓨공학과 교수(yicho@gachon.ac.kr)]