컨텐츠 본문

백발백중! 취향저격수 '추천 알고리즘'의 비밀


모바일 디바이스의 발달과 인터넷의 확산은 21세기 미디어 시장에 큰 변화를 불러 일으켰습니다. 넷플릭스와 구글 등 대형 IT 기업들이 동영상 스트리밍 서비스를 제공하면서 ‘OTT 서비스’가 나타났고, 이것이 큰 인기를 끌면서 미디어 시장의 대세로 자리잡게 됐죠. 


대표적인 동영상 서비스 플랫폼은 넷플릭스와 유튜브, 왓챠플레이 등이 있는데요. 각 플랫폼이 지향하는 콘텐츠 성격은 다르지만 이들이 OTT 서비스의 강자로 자리 잡을 수 있었던 이유는 바로 ‘추천 알고리즘(recommendation algorithm)’ 덕분입니다. 유튜브의 최고 상품 담당자(CPO)닐 모한(Neal Mohan)은 2019년 3월 뉴욕타임즈와의 인터뷰에서 ‘유튜브 이용자들의 시청 시간 70%가 추천 알고리즘에 의한 결과이며, 알고리즘의 도입으로 총 비디오 시청 시간이 20배 이상 증가했다’고 밝히기도 했죠. 



말하지 않아도 알아요🎵 취향 저격의 명수 ‘추천 알고리즘’



동영상 플랫폼간 경쟁의 핵심은 이용자들의 체류 시간을 늘리는데 있습니다. 이용자들이 더 많은 콘텐츠를 시청할수록 플랫폼에 머무는 시간이 늘어나기에, 동영상 추천 알고리즘을 활용해 이용자가 좋아할 만한 영상을 추천하고 또 보도록 만드는 것이죠.  


이용자의 관심사를 파악하고, 취향에 맞는 콘텐츠를 추천해 플랫폼 체류 시간을 늘리는 것은 물론, 광고 노출을 통해 안정적인 매출 창출까지 보장하는 추천 알고리즘. 그 원리는 무엇일까요?



추천 알고리즘의 원리를 찾아라 ①

사용자의 행동 기록을 활용한 ‘협업 필터링’ 


추천 알고리즘은 사용자가 좋아할 만한 아이템을 추측해 사용자에게 적합한 특정 항목을 제공하는 것인데요. 알고리즘이 콘텐츠를 추천하는 방법은 크게 ‘협업 필터링(Collaborative Filtering)’‘콘텐츠 기반 필터링(Contents-based Filtering)’으로 나누어집니다. 



협업 필터링이란 대규모의 사용자 행동 정보를 분석해 해당 사용자와 비슷한 성향의 사용자들이 기존에 좋아했던 항목을 추천하는 기술입니다. 같은 행동을 한 사람들을 하나의 프로파일링 그룹으로 묶고, 그룹 내 사람들이 공통적으로 봤던 콘텐츠를 추천하는 것이죠. 가장 흔한 예로, 온라인 쇼핑몰에서 ‘이 상품을 구매한 사용자가 구매한 다른 상품들’이란 카테고리로 추천 상품을 보여주는 서비스가 있습니다. 사용자 A가 라면과 콜라를 구입하면서 생수를 함께 구입했다면, 라면과 콜라를 구입하는 사용자 B에게 생수를 추천해주는 식이죠. 


많은 사용자들로부터 얻은 기호 정보를 통해 추천 시스템을 가동하는 ‘협업 필터링’은 만족스러운 결과를 도출할 수도 있지만 단점도 존재합니다. 먼저 ‘콜드 스타트(cold start)’라고 일컬어지는 문제입니다. 협업 필터링 알고리즘을 사용하기 위해서는 기존 데이터가 반드시 필요하기에 아무런 행동이 기록되지 않은 신규 사용자에게는 어떠한 아이템도 추천할 수 없게 됩니다. 콜드 스타트란 이러한 상황을 일컫는 말로 ‘새로 시작할 때의 곤란함’을 의미합니다. 


두 번째는 계산 효율 저하입니다. 협업 필터링은 계산량이 비교적 많은 알고리즘이기 때문에 사용자 수가 많은 경우 계산이 몇 시간에서 길게는 며칠까지 소요되기도 합니다. 


마지막으로 롱테일(long tail) 문제입니다. 사용자들은 소수의 인기 있는 콘텐츠에만 관심을 보이기 마련이고, 자연스럽게 소수의 인기 콘텐츠가 전체 추천 콘텐츠의 많은 비율을 차지하게 됩니다. 인기가 저조한 콘텐츠는 정보 부족으로 추천되지 못하는 셈이죠. 



추천 알고리즘의 원리를 찾아라 ②

콘텐츠를 면밀히 분석해 취향을 맞추는 ‘콘텐츠 기반 필터링’ 




콘텐츠 기반 필터링은 협업 필터링과 다른 방법으로 추천 시스템을 구현하는데요. 협업 필터링은 사용자의 행동 기록을 이용하는 반면, 콘텐츠 기반 필터링은 항목 자체를 분석해 추천합니다. 음악을 추천하기 위해서는 음악 자체를 분석하고, 상품이라면 상품 설명을 분석해 유사한 항목을 추천하는 것이죠. 


이를 위해서는 항목을 분석한 프로파일과 사용자의 선호도를 분석한 프로파일을 추출해 유사성을 계산해야 합니다. 예를 들어 음악 사이트에서는 신곡이 출시되면 그 음악을 분석해 장르, 비트, 음색 등의 항목을 추출하고, 사용자가 선호한 음악의 특색을 바탕으로 해당 사용자의 프로파일을 준비합니다. 이러한 음악의 특성과 사용자 프로파일을 비교함으로써 사용자가 선호할 만한 음악을 제공합니다. 


콘텐츠의 내용을 분석해야 하는 콘텐츠 기반 필터링은 아이템 분석 알고리즘이 필수이며, 이를 위해 군집분석(clustering analysis), 인공신경망(artificial neural network), tf-idf(term frequency-inverse document frequency) 등의 기술이 사용됩니다.


콘텐츠 기반 필터링의 장점은 많은 양의 사용자 행동 정보가 필요하지 않기 때문에 콜드 스타트 문제가 발생하지 않지만, 다양한 형식의 항목을 추천하기 어려운 단점이 있습니다. 


넷플릭스의 경우 협업 필터링과 콘텐츠 기반 필터링의 단점을 보완하고자 '앙상블(ensemble) 체계'를 사용하고 있는데요. 먼저 동일한 영상을 시청한 유저들이 비슷한 행동 패턴을 보이면, 같은 프로파일링 그룹으로 묶고 협업 필터링을 사용합니다. 그리고 여기에서 다 나아가 콘텐츠 기반 필터링 방식을 섞는데 이 때 AI 뿐만 아니라 대규모의 인력을 활용해 보유한 콘텐츠를 태그화하는 작업을 수행하죠. 콘텐츠에 구체적인 속성을 부여하는 것입니다. 오늘날의 추천 알고리즘은 대부분 이러한 앙상블 체계를 사용하고 있습니다.



지금까지 추천 알고리즘의 원리에 대해 자세히 알아봤는데요. 추천 서비스는 음악, 영화, 광고, 온라인 뉴스, 친구 소개 등 많은 온라인 시스템에서 사용되고 있습니다. 그리고 더욱 정확한 결과를 위해 여러 변형 알고리즘과 방법들이 소개되는 등 지금 이 순간에도 진화를 거듭하고 있죠. 콘텐츠의 홍수 속에 살고 있다고 해도 과언이 아닌 이 시대에 필수 서비스로 자리 잡은 추천 시스템! 우리의 마음을 꿰뚫어 보는 추천 알고리즘이 나타나는 그 날이 기다려집니다. 

댓글