본문 바로가기

삼성반도체이야기는 더 이상 Internet Explorer를 지원하지 않습니다. 최적의 환경을 위해 다른 웹브라우저 사용을 권장합니다.

[‘엑시노스’ 개발 리더들이 SoC를 말하다] ② CPU · NPU 알아보기

01
02-1
02-2

.

컴퓨터를 능가하는 두뇌를 탑재하다: Arm社와의 협력 강화하는 CPU

03

컴퓨터에서 CPU(Central Processing Unit, 중앙처리장치)는 사람의 ‘대뇌’에 비유되곤 한다. 기억, 해석, 연산, 제어라는 4대 주요 기능을 담당하는 가장 핵심적인 장치로서 PC의 전반적인 성능을 좌우한다. 모바일 CPU 역시, 운영체제(OS) 위에서 모든 소프트웨어(애플리케이션)를 실행하고 다른 하드웨어 장치들을 제어하는 역할을 한다.

CPU의 성능은 클럭[1] 속도, IPC[2], 코어[3] 수 등에 따라 결정된다. 과거 피처폰에 들어가던 CPU는 단순한 파이프라인 구조의 단일 코어로 병렬 처리가 제한돼 최대 주파수가 수백 MHz 수준에 불과했다. 하지만 오늘날 스마트폰의 CPU는 슈퍼스칼라[4] 구조로 여러 개의 명령어를 병렬 처리하고 최대 주파수는 3GHz(초당 30억 번의 신호를 생성한다는 의미)에 이르며, 멀티 코어 구조를 갖는다. 모바일 CPU가 이제 데스크탑 CPU 이상의 고성능 마이크로 아키텍처를 구현하는 것.

엑시노스에 탑재된 CPU는 소형화·저전력화를 위해 ‘빅코어(Big Core)’에서 ‘빅리틀(Big-Little)’로, 다시 ‘빅미드리틀(Big-Mid-Little)’ 구조로 발전해왔다. ‘빅리틀’은 전력 소모가 적게 필요한 곳에는 작은 코어(Little Core)를 돌려서 조금만 전류를 소모해 배터리를 절약하는 개념이다. 예를 들면, 문자를 쓸 때와 3D 게임을 할 때에 필요한 CPU 성능이 다르기 때문에, 문자를 보내기 위해 굳이 고성능의 CPU 코어를 돌리는 것이 불필요하다는 것이다.

000_8121-1
▲ 20여 년간 줄곧 CPU 분야에 몸담고 있는 CPU 전문가 정우경 PL

엑시노스에 탑재되는 CPU 관련 모든 업무를 총괄하는 SoC설계2팀 정우경 PL은 “CPU는 SoC 등 모든 시스템의 경쟁력을 크게 좌우할 뿐 아니라, 반도체의 첨단 기술 적용에 있어 가장 최우선 순위에 있는 중추적인 분야”라며 입사 이래 20여년 간 몸담은 CPU에 대해 설명했다.

이어 그는 “개발 핵심은 제한된 전력 한도(power budget) 내에서 고성능을 내는 것”이라며 “다양한 시나리오에서 최대의 효율을 내기 위해 종류가 다른 CPU 코어들(Big-Mid-Little Core)을 적절히 조합해 운영하는 것이 중요하다”고 말했다. 엑시노스의 CPU는 게임, 카메라 등 고성능을 요하는 다양한 모바일 시나리오에서 최고의 경험을 제공할 수 있도록 동작 코어 조합을 최적화시킨다.

07
▲ 엑시노스 2200의 CPU 코어 구조

삼성전자는 반도체 설계 기업 Arm의 IP를 활용해 CPU 성능을 끌어올리고 있다. 내부 개발진의 구체적인 업무 영역에 대해 물었다. 정우경 PL은 “제품에 들어갈 CPU의 목표 성능을 결정하고, CPU IP를 입수, 성능을 예측 및 검토, 검증 작업을 거치며, 양산 전 디버깅[5] 등 CPU 성능 향상을 위한 전반적인 개발 업무를 수행한다”며 “Arm에서 RTL[6]로 제공된 CPU 설계를 최적의 반도체 칩으로 구현하는 것과 CPU 성능을 최대로 낼 수 있도록 적합한 메모리 서브시스템 등 CPU 주변 회로를 설계·구현하는 것 모두 SoC설계팀의 업무”라고 덧붙였다.

정우경 PL은 앞으로의 개발 방향에 대해 “Arm CPU를 채용하면서 ‘칩 레벨(Chip Level)’이 아닌 ‘세트 레벨(Set Level)’까지 소프트웨어 최적화를 하여 모바일 업계 최고 CPU를 만들 것이며, ‘E2E(End-to-End) Total Solution Provider’를 향한 비전을 갖고 있다”면서 “이러한 목표 달성을 위해 CPU 개발진들은 제품의 초기 개발 단계에서부터 Arm, 세트 업체, 파운드리 공정 등과 One Team으로 매우 긴밀하게 협력하고 있으며, 성능 향상을 위해 차세대 패키징(Advanced Packaging) 기술 활용 등 다양한 방안을 모색하고 있다”고 밝혔다.

05

특히, 정 PL은 앞으로 AR, 메타버스 등 미래 기술과 관련해서 CPU, GPU, NPU와 같은 모든 프로세서를 적절히 활용한 SoC 레벨의 통합 머신러닝(Machine Learning) 처리 성능이 중요한 핵심 경쟁력이 될 것으로 내다봤다. 이어 그는 “CPU도 머신러닝 처리 성능을 강화하여 경쟁력 확보에 힘쓸 것”이라고 강조했다.

.

상상하는 것, 기술을 통해 이룬다: 6세대에 걸친 고도화된 독자 기술력 기반의 NPU

04

NPU(Neural Processing Unit, 신경망처리장치)는 딥러닝 알고리즘 연산에 최적화된 프로세서로, 빅데이터를 사람의 신경망처럼 빠르고 효율적으로 처리할 수 있다. 이러한 특징 때문에 인공지능(이하 AI) 연산에 주로 활용되는 반도체다. 설명은 다소 어렵게 들리지만, 이미 우리 생활에서 흔히 사용되고 있다. 스마트폰 카메라로 사진을 찍을 때 배경 안의 사물·환경·인물을 인식해 자동으로 초점을 조정하는 것, 음식 사진 촬영 시 카메라가 음식 모드로 자동 전환되는 것, 촬영된 결과물에서 불필요한 피사체만 지울 수 있는 것도 모두 NPU 덕분.

09
▲ 최신 스마트폰의 ‘AI 지우개’ 기능은 NPU의 발전으로 가능하게 됐다.

NPU가 없던 과거에는 주로 GPU로 AI 연산을 수행했는데, 하드웨어의 구조적인 차이로 인해 연산 효율이 떨어졌다. 이제는 AI 연산을 주로 NPU가 담당해 모바일 기기에서도 더 효율적으로 데이터를 처리할 수 있다. 데이터의 병렬 연산 처리에 최적화돼 AI 기반의 애플리케이션이 저전력으로 빠르게 동작하기 때문이다.

엑시노스의 NPU 개발 역사는 2016년 시작됐다. NPU를 탑재한 최초 제품은 엑시노스 9820으로 2019년 출시된 갤럭시 S10에 처음 들어갔다. SoC의 하드웨어 디자인 설계를 담당하다가 2세대 NPU부터 함께했다는 권석남 PL은 “6년 전 첫 TF가 구성될 때만 하더라도 20여명에 불과했던 연구원이 현재 해외 연구소까지 포함하면 10배 이상 늘었다”며 “지금은 NPU가 매우 관심이 높은 분야이지만, 당시만해도 해외 대학의 동영상 강의 등을 찾으며 공부해야 할 정도로 낯설고 새로웠다”고 회상했다.

000_8135-1
▲ 입사 후 2세대 NPU 개발부터 함께하며, NPU 개발진을 이끌고 있는 권석남 PL

과거 NPU를 활용하는 영역은 이미지 기반의 객체 검출 등 비교적 단순했다. 하지만 인공지능 시대로 접어들면서 최근에는 카메라 화질 개선, 음성 서비스 등 점차 더 많은 연산량을 필요로 하는 고성능 IP에 대한 시장 요구가 커지고 있다. 게다가 SoC에 들어가는 각 IP의 성능이 높아질수록 면적과 전력이 증가하다 보니, 가장 효율적인 아키텍처를 선정하는 것이 관건.

고성능 NPU일수록 인식 속도와 사진 결과물이 달라진다. 최신 엑시노스에 탑재된 NPU는 전작에 비해 성능이 두 배 이상 개선됐다. 6세대에 걸쳐 NPU 솔루션을 독자 개발해온 만큼, SoC설계팀의 기술과 노하우는 이미 고도화됐다. 권석남 PL은 “엑시노스의 NPU는 MLPerf 등의 벤치마크 성능, 파워 효율성, 면적 경쟁력 등 전반적인 분야에서 절대적인 경쟁력을 갖춘 IP 솔루션”이라며, “성능을 위한 아키텍처 최적화와 파워 효율성 개선을 통해 엑시노스의 경쟁력을 확보하고 있다”고 말했다.

08
▲ 클라우드 서버를 사용하는 인공지능과 온디바이스 인공지능의 비교

앞으로 NPU와 관련된 기술은 어떤 방향으로 발전하게 될까? 이에 대해 권석남 PL은 “스마트폰에서 민감한 개인정보 유출 사고 위험을 최소화하기 위해 서버를 거치지 않고 개인 폰에서 AI 연산을 수행하는 온디바이스(On-device) AI가 확산될 것으로 예상된다. 이를 위해서는 한 단계 향상된 모바일 NPU의 성능이 필요하다”고 설명했다. 또한 “지금은 하나의 NPU가 여러 연산에 범용적으로 사용되지만, 미래에는 응용 프로그램별 특화된 AI 알고리즘을 동작 시키고자 하는 요구도 예상돼 각 도메인에 특화된 NPU를 개발하는 것도 중요해질 것”이라고 강조했다.

다가오는 자율주행 시대와 관련해서는 “가까운 시기에 현실화될 첨단 운전자 보조 시스템(ADAS)은 방대한 데이터의 자율주행 알고리즘을 실시간으로 수행할 수 있는 하드웨어가 반드시 필요하다. 이를 위해 더욱 높은 성능의 NPU가 요구되고 있고, 삼성전자도 시장 요구에 맞춰 자율주행 기기를 위한 강력한 성능의 NPU를 준비하고 있다”고 권 PL은 덧붙였다.

06

마지막으로 개발 과정에서 보람 있었던 순간을 묻자, 권석남 PL은 “엑시노스에 매년 향상된 성능의 NPU를 탑재하고 있다는 사실 자체가 큰 보람”이라고 말했다. 이어 “미래 시장의 핵심 IP로 성장할 분야이기에 개인적으로 NPU의 개발 업무는 개인과 기업 차원의 발전은 물론, 나아가 국가 경쟁력에도 일조하는 일이라는 자부심을 갖고 있다”며 ‘상상하는 것을 이룰 수 있는 최고의 분야’라고 전했다.

※ 기사 내 삽입된 이미지는 이해를 돕기 위해 연출된 것으로 실제 제품에 의한 결과물과 일치하지 않을 수 있습니다.

[1] 클럭(clock): 연산 작업을 위해 0 또는 1의 전기적 진동을 지속적으로 생성하는 것. Hz(헤르츠) 단위로 표기하며, 기본적으로 클럭 수치가 높을수록 처리 속도가 빠르다는 의미
[2] IPC(Instructions Per Cycle): 클럭 당 명령어 처리 횟수. 명령어 하나를 처리하는데 클럭이 얼마나 필요한지를 측정하므로CPU가 얼마나 효율적으로 작동하는지를 평가하는 단위
[3] 코어(core): CPU 내부에 있는 물리적인 처리 회로의 핵심 부분. 코어 개수가 많을수록 여러 가지 작업을 동시에 수행하는데 유리. 코어가 1개면 싱글코어, 2개면 듀얼코어, 4개면 쿼드코어, 6개면 헥사코어, 8개면 옥타코어 등으로 말함
[4] 슈퍼스칼라(superscalar): 파이프라인과 병렬 처리의 장점을 모은 것으로, 여러 개의 파이프라인에서 명령들이 병렬로 처리되도록 한 아키텍처. 여러 명령어들이 대기 상태를 거치지 않고 동시에 실행될 수 있으므로 처리속도가 빠름
[5] 디버깅(debugging): 설계된 프로그램을 확인하고, 프로그래밍 상의 오류를 찾아 고치는 작업
[6] RTL(Register Transfer Level): 디지털 회로 설계의 첫 단계로 일종의 소스코드

삼성전자 반도체 뉴스룸 공식배너