본문 바로가기

삼성반도체이야기는 더 이상 Internet Explorer를 지원하지 않습니다. 최적의 환경을 위해 다른 웹브라우저 사용을 권장합니다.

새로운 자산으로 떠오르는 다크데이터

저장 공간을 차지해 비용을 발생시키거나 자칫하면 보안 위험을 초래할 수 있지만 미래에 사용할 가능성이 있어 방치되어 있던 데이터를 ‘다크데이터(dark data)’라고 합니다. 소리, 이미지와 같이 체계가 없어 버려져 있던 정보들이 최근 빅데이터, 인공지능 기술 발전으로 새롭게 주목받고 있는데요. 다크데이터의 정의와 활용에 대해 함께 알아볼까요?

빅데이터 시대, 정보의 세분화

다크데이터1

빅데이터(big data)란 부피가 크고 변화도 빨라 기존의 방법으로는 수집, 분석 등이 어려운 정형 및 비정형 데이터를 의미합니다. 이러한 빅데이터에는 다양한 종류가 있는데요. 전통적인 데이터로 개인의 취향 같은 사소해 보이지만 결정적인 통찰을 줄 수 있는 스몰데이터(small data), 스트리밍과 같이 실시간으로 많은 양의 데이터를 처리 및 분석해야 하는 패스트데이터(fast data), 빅데이터에 비해 용량은 작으나 바로 실질적인 분석할 수 있는 양질의 데이터인 스마트데이터 (smart data) 등이 있습니다.

‘다크데이터(dark data)’는 사진, 동영상, 음성 등 분석이 어려운 비정형 데이터로 역시 빅데이터의 한 종류라고 할 수 있는데요. 저장은 되어있으나 구조화되지 않고 다른 데이터와 상호 작용이 없는 데이터 혹은 사용할 수 없는 데이터를 말합니다.

새로운 정보 자산으로 떠오르고 있는 ‘다크데이터’

다크데이터2

최근 미국의 조사기관인 가트너(Gartner)는 다크데이터에 대해 ‘활동 과정에서 수집, 처리, 저장되었지만 유용하지 않은 정보로 판단돼 활용되지 않는 정보 자산’이라고 정의했는데요. 다크데이터는 사용자가 인지하지 못하는 과정에서도 축적되기 때문에 전 세계 데이터의 80% 이상이 다크데이터라고 할 수 있을 정도로 양이 어마어마합니다.

그렇다면 이렇게 오랜 시간 방치되었던 다크데이터가 쓸모 있는 자산으로 분류되기 시작한 이유는 무엇일까요? 우선 데이터 저장 장치의 발달로 같은 양의 데이터도 큰 비용 없이 저장할 수 있게 되었기 때문입니다. 그리고 ‘인지 컴퓨팅(cognitive computing)’과 같은 인공지능 기술의 발달로 넘쳐나는 데이터 속에서 유의미한 정보를 찾아내 분석할 수 있게 되면서 기존 빅데이터에 다크데이터를 결합하는 등 다양한 분야에서 활용되고 있습니다.

다크데이터는 어떻게 활용할 수 있을까?

다크데이터3

몸짓이나 함성과 같은 비정형 데이터도 다크데이터의 한 종류입니다. 인공지능과 센서 기술이 발달하면서 이런 데이터들을 바탕으로 새로운 서비스가 탄생하기도 했는데요. 실제로 미국 IBM은 작년 한 스포츠 경기에서 관중들이 함성을 지르는 순간이나 선수의 제스처 등을 데이터로 변환해 자동으로 편집한 하이라이트 영상을 선보이기도 했습니다.

이 외에도 사방에 흩어져 있는 소비자의 행동 정보와 같은 다크데이터를 기존의 빅데이터와 결합하면 사용자 행동 패턴도 알아낼 수 있습니다. 예를 들어 고객이 어느 시간에 이용했는지 어떤 사이트를 통해 방문했는지와 같은 정보를 구조화시킨다면 더욱 효율적으로 소비자 맞춤 전략을 짤 수 있게 됩니다.

데이터를 얼마나 효율적으로 사용하는지가 경쟁력이 되는 시대에 숨겨진 보물과도 같은 다크데이터의 활용 방향은 무궁무진할 텐데요. 하지만 발전 과정에서 발생할 수 있는 만만치 않은 비용과 데이터 속 개인정보가 유출될 위험성이 있는 만큼 이에 대한 적절한 노력이 동반되어야 할 것입니다.

삼성전자 반도체 뉴스룸 공식배너