AI·ML 개발 실패 원인 90%는 훈련 데이터 부족...

(그림=셔터스톡)
(그림=셔터스톡)

인공지능(AI) 발전을 위해서는 합성 데이터를 적극 활용해야 한다는 제안이 나왔다. AI를 훈련하는데 필요한 데이터 부족 현상을 합성 데이터로 해소할 수 있다는 주장이다. 

미 기술매체 벤처비트는 23일(현지시간) 데이터겐의 설문 보고서를 인용해 AI 와 기계학습(ML) 개발 프로젝트의 90%가 훈련 데이터 부족으로 실패하고 있으며 컴퓨터 비전 전문가의 99%가 데이터 부족으로 ML 프로젝트를 중단한 적이 있다고 응답했다고 보도했다.

같은 맥락에서 시장조사 업체인 가트너는 AI와 ML 훈련을 위한 보완자료로 합성 데이터를 더 많이 사용할 것으로 예측했다. 또 다른 거대 연구기관은 합셍 데이터가 2024년까지 AI 프로젝트의 60%를 가속하는데 쓰일 것이라고 예상했다.

합성데이터는 실제 현실에서 생성된 데이터가 아니라 기계 학습 알고리즘이나 컴퓨터 시뮬레이션, 통계 모델링 등으로 만들어 내는 인공적인 데이터를 말한다.

예를 들어 자율주행 프로그램을 개발하려면 도로상의 돌발 사고 상황도 가정해 훈련해봐야 하지만 관련된 데이터를 구하기가 어렵다. 이런 경우 시뮬레이션 등을 통해 합성 데이터를 만들어서 쓴다.

합성데이터 플랫폼 제공기업인 퍼랠럴 도메인의 케빈 맥나마라 CEO는 “AI에겐 데이터가 음식인데, 오늘날의 AI는 굶주리고 있으며 영양실조에 걸려 있다”고 벤처비트에 말했다. 그는 “AI를 잘 먹일 수 있다면 건강하고 더 빠르게 성장할 수 있을 것”이라며 “합성데이터는 AI 훈련의 영양제와 같다”고 강조했다.

맥나마라는 특히 최근 각광받는 생성AI 모델들과 관련해 합성데이터가 훈련에 큰 도움이 될 것이라고 말했다. 또 합성데이터는 가상 환경을 만드는데 방대한 데이터가 필요한 메타버스에 대해서도 실용적인 접근방식을 제공할 수 있다고 지적했다.

벤처비트는 AI 모델 훈련과 관련해 합성 데이터가 실제 사람과 장소, 사물보다 낫다고 일부 전문가들은 주장한다고 전했다. 개인정보나 규제에 민감한 실제 데이터 보다는 특정 조건에 맞춰 생산한 합성 데이터가 훈련에는 쓰기도 쉽고 효과적이라는 것이다.

정병일 위원 jbi@aitimes.com

키워드 관련기사
  • 진짜보다 나은 ‘가짜’ 데이터로 AI에 연료 공급
  • “미래는 가짜다”…AI 모델 훈련에서 합성데이터의 부상
  • KAIST, 데이터 라벨 없이 훈련 가능한 방법론 개발