이보 볼젠 AMD 수석 부사장
이보 볼젠 AMD 수석 부사장

인공지능(AI)과 기계학습(ML) 트레이닝은 식별해야 하는 모든 것을 인식하는데 사용되는 추론 모델 개발로 이어진다.

일반적으로 트레이닝은 많은 고성능 서버와 상당한 용량의 메모리, 하드웨어 가속기 및 고속 네트워킹을 워크로드에 투입할 수 있는 엔터프라이즈 데이터센터나 클라우드에서 이뤄진다.

신속한 트레이닝을 위한 과정은 엄청난 규모의 전력이 소비된다. 때문에 최근에는 네트워크 엣지로 이동하는 경향을 보이고 있다.

트레이닝을 네트워크 엣지에서 실시하는 이유는 지연 문제 때문이다. 클라우드나 데이터센터와 소통하기 위해 원시 데이터를 주고 받는데는 많은 시간이 소요된다. 추론을 수행하고, 응답이나 결정을 엣지로 보내는 과정도 필요하다. 이런 과정을 모두 수행하려면 너무나도 많은 시간을 필요로 한다. 하지만 공장 자동화나 레이더 및 전자전과 같은 실시간 작업에서는 의사결정을 가능한 빠르게 진행해야 한다.

컴퓨팅 성능과 전력 소비량도 관련이 있다. AI/ML 추론 워크로드를 수백만개에 이르는 다수의 엣지 장치로 전환하면 추론 엔진의 총 컴퓨팅 성능은 데이터센터 서버를 능가하지만 전력 소모량은 크게 줄어든다.

최근 엣지 추론의 고유한 요구사항을 처리하기 위해 새로운 컴퓨팅 아키텍처를 갖춘 흥미로운 칩들이 많이 발표됐다. 더 적은 전력으로 테라플롭스(teraFLOPS, TFLOPS)나 테라옵스(teraOPS, TOPs)급 컴퓨팅 성능을 달성할 수 있는 칩들이다.

추론 워크로드는 상당한 수준의 테라플롭스 및 테라옵스급 연산 능력이 필요하다. 하지만 이러한 특수 엣지 추론 칩들은 단방향식 아키텍처(One-Way Architectural Street)라 트레이닝 및 추론 워크로드가 결합될 경우, 바람직하지 않은 대안이 될 수 있다.

현재의 AI/ML 모델 트레이닝 워크로드는 주로 데이터센터의 고성능 CPU 및 GPU 상에서 실행하는데 조 단위의 연산을 수행하기 위해서는 많은 양의 전력을 소모한다.

트레이닝에는 높은 동적 범위의 부동소수점 데이터 포맷을 사용해 모델 가중치에 대한 세밀한 증분식 조정이 가능하도록 함으로써 모델 정확도를 극대화한다.

부동소수점 연산은 더 많은 전력을 소모하기 때문에 추가 냉각이 필요하다. 또 CPU와 GPU는 대규모 트레이닝 데이터 세트를 메모리 및 내부 컴퓨팅 요소 간에 이동시키기 위해 상당한 양의 전력을 소모한다.

대부분의 엣지 추론 칩은 모든 계산을 수행하는데 완전 정밀도의 부동소수점 데이터 포맷을 사용하기 때문에 필요한 반도체 성능이나 전력소모를 감당하기 어렵다. 또 높은 피크 테라플롭스 및 테라옵스 지표를 달성하기 위해 정밀도가 낮은 데이터 유형을 사용해 AI/ML 가중치와 활성화 및 데이터를 나타내는 경우도 많다.

엣지 AI/ML 칩 공급업체들은 트레이닝된 모델 가중치의 정밀도를 줄이는 소프트웨어 툴을 제공해 FP8이나 스케일링된 정수 또는 바이너리 데이터 포맷으로 모델을 변환한다.

이러한 작은 데이터 포맷은 엣지의 추론 워크로드에 이점을 제공할 수는 있지만, 이는 모델 정확도를 저하시킨다. 정밀도가 낮아진 AI/ML 모델을 재트레이닝하면 부분적으로 정확도가 다시 복구되기도 한다.

이에 확장 가능한 디바이스 아키텍처를 통해 데이터센터에서 실행되는 워크로드 처리성능을 소형 임베디드 엣지 장치와 대규모 장치에 구축하는 방안을 생각해 보았다.

엣지에서 전력소모 및 비용 효율성을 개선하는 것과 동일한 최적화를 통해 데이터센터의 컴퓨팅 밀도 및 비용 효율성을 높임으로써 추론 및 트레이닝에 대한 설비 투자자본과 운영 비용을 모두 절감할 수 있다.

완전 정밀도 및 낮은 정밀도의 부동소수점 포맷을 모두 지원하는 확장 가능한 아키텍처 기반의 AI/ML 가속기는 트레이닝과 추론 사이의 인위적인 경계를 허물고, 통합 아키텍처를 위한 동일한 표준 및 익숙한 소프트웨어 툴을 배포할 수 있다.

이러한 효율적인 엣지 AI 가속기는 외부 메모리에 저장된 데이터를 칩으로 가져온 후 여러 번 재사용할 수 있는 데이터 플로우 및 온칩 브로드캐스팅 네트워크와 같은 혁신적인 아키텍처를 사용한다.

머신러닝을 위한 확장 가능한 통합 데이터 플로우 아키텍처를 이용해 트레이닝과 추론 단계 간의 고유한 경계를 허물고 있는 실제 애플리케이션 사례를 확인할 수 있다.

연합학습(FL: Federated Learning)은 새로운 유형의 AI/ML 워크로드의 가능성을 보여주는 예다. FL은 일회성 오프라인 트레이닝을 통해 도출된 정밀도가 낮은 AI/ML 추론 모델에 대한 단방향식 접근방식을 대체할 수 있으며, 전형적인 중앙집중식 오프라인 트레이닝 세트를 이용하지 않기 때문에 뛰어난 성능을 발휘할 수 있다.

FL은 원래의 모델 트레이닝 세트를 훨씬 능가하는 다양한 여러 입력에 노출되는 엣지 장치에서 추론의 중요한 특성을 활용한다. 이러한 엣지 장치를 적절하게 설계하면, 다양한 추가 입력으로 러닝을 수행하고, 장치 구축 시 모델 정확도를 더욱 향상시킬 수 있다. 엣지 장치에 이를 구현해 동일한 AI/ML 모델을 개선하면 로컬 응답이나 결정을 향상시킬 수 있다.

이러한 업데이트는 개별적인 개인 데이터가 아닌 엣지 기반 추가 트레이닝을 통해 확보된 통찰력만 공유하는 방식으로 수행할 수 있다. 모든 현장의 장비는 개인정보를 침해하지 않고도 추가 트레이닝의 이점을 얻을 수 있다. FL은 비전 및 음성 알고리즘의 성능을 특정 사용자에 따라 조정할 수 있는 개인정보보호 장치의 개인화 영역에 광범위하게 적용할 수 있다.

네트워크 보안 애플리케이션은 네트워크 진입 노드의 집합적 러닝을 사용해 민감한 사설 네트워크 트래픽을 공유하지 않고도 사전 예방적 보안 규칙을 적용할 수 있다.

통합 클라우드 및 엣지 컴퓨팅 아키텍처의 장점은 동일한 소프트웨어 바이너리를 사용해 클라우드와 엣지에서 모델을 논리적으로 분할해 실행할 수 있다는 점이다.

이러한 통합 아키텍처는 호환되는 데이터 포맷을 사용하고, 희소성 표현 같은 데이터 포맷 최적화가 클라우드와 엣지 간에 일관되게 이뤄질 수 있도록 보장한다.

애플리케이션 수명주기 전반에 걸쳐 이뤄지는 지속적인 러닝과 확장 가능한 통합 아키텍처는 데이터센터의 CPU 및 GPU와 엣지의 특화된 장치에 의존하는 전통적인 트레이닝 및 추론 방식의 한계를 뛰어넘을 수 있다.

이같은 통합적 접근방식은 AI/ML이 확산함에 따라 성능과 정확도 및 전력 효율성의 이점을 극대화하고자 하는 업계의 요구를 충족시킬 수 있는 가장 논리적인 방법이기도 하다.

이보 볼젠 AMD 수석 부사장  xilinxpr@xilinxpr.com