데이터 세트 라벨 의존하지 않아 효율적 
데이터 자체 기본 구조 활용하는 등 자체 해석 
의약 및 의료 AI 분야 패러다임 전환 전망

자기지도학습 기술이 의료 AI 분야의 판도를 바꾸고 있다는 해석이 나왔다. (사진=셔터스톡)
자기지도학습 기술이 의료 AI 분야의 판도를 바꾸고 있다는 해석이 나왔다. (사진=셔터스톡)

라벨이 없는 데이터 세트로도 인공지능(AI) 모델을 학습시킬 수 있는 자기지도학습 기술이 의료 분야 AI 판도를 바꾸고 있다는 분석이 나왔다.

미국 IT 매체 벤처비트는 5일 의약 및 의료 분야에서 자기지도학습 기술 활용으로 데이터 및 이미지 등을 해석하는 AI 모델에 획기적인 진전이 이뤄지고 있다고 밝혔다.

자기지도학습은 연구자들이 AI학습용으로 가공되지 않은 라벨 없는 대규모 데이터를 활용해 더 나은 머신 러닝 모델을 개발하려는 흐름에 따라 지난 몇 년 동안 AI 분야에서 빠르게 성장하고 있다. 메타의 수석 AI 과학자인 얀 레쿤은 2020년 자기지도학습이 보다 광범위하게 사용되면서 라벨 있는 데이터 세트에 AI 모델을 교육하는 지도학습이 줄어들 것이라고 밝혔다. 

그는 2020년 국제학술회의의 가상 세션 청중들에게 “사람으로서 배우는 대부분의 것과 동물이 배우는 것은 강화 모드가 아닌 자기지도 모드로 학습하는 것”이라고 설명했다. 2021 메타 블로그 게시물에서 그는 자기지도학습이 “데이터 자체에서 지도 신호를 얻고 종종 데이터의 기본 구조를 활용한다”고 설명했다. 즉 “공동 발생 모달리티(modality, 비디오 및 오디오 등 의사소통 채널) 및 대규모 데이터 세트 전반에 걸쳐 다양한 지도 신호를 라벨에 의존하지 않고 사용할 수 있다“고 밝혔다. 

이러한 이점은 의료 및 의약 분야에서 전자 의료 기록 및 의료 이미지 데이터 세트, 바이오 전기 신호, 유전자 및 단백질의 서열과 구조 등 방대한 양의 비정형 데이터 덕분에 자기지도학습이 널리 사용되게 만들고 있다. 이전에는 머신 러닝 의료 응용 프로그램을 개발하기 위해 주로 의료 전문가가 수동으로 데이터 라벨을 작성해야 했다. 

라벨 효율적인 의료 이미지 해석, 임상의와 AI 협업 설계, 공개 벤치마크 분석을 위한 딥 러닝에 초점을 맞춘 연구를 주도하고 있는 하버드 의대 생의학 정보학과 프라네프 라즈푸카르 교수는 이러한 현상이 진행에 병목 현상을 초래했다고 밝혔다. 

그는 “라벨이 있는 데이터 세트를 통해 많은 놀라운 발전을 볼 수 있었다”며 “그러나 매우 특별한 의료 작업을 수행하는 100개의 알고리즘에서 지루하고 집중적인 프로세스를 수행하지 않아도 되는 수천 개의 알고리즘으로 패러다임 전환이 이뤄질 필요가 있다”고 설명했다. 관찰되지 않거나 숨겨진 입력으로부터 입력되는 모든 부분을 예측할 수 있는 자기지도학습이 시장의 판도를 바꾸어 놓을 수 있는 이유다. 

라즈푸카르 교수는 네이처 생물의학 공학 저널에 실린 논문에서 심장학자, 과학자 및 저자인 에릭 토폴, 연구원 레이언 크리스난과 함께 의약 및 의료 분야에 사용되는 자기지도 방식과 모델은 물론, 멀티 모달 데이터 세트를 활용하는 모델 개발을 위한 자기지도학습의 유망한 응용 분야 및 학습을 위한 편향되지 않은 데이터 수집에 겪는 어려움을 다뤘다. 

라즈푸카르 교수는 “의약 분야를 포함해 많은 AI 응용 분야에서 앞으로 수년 동안 보게 될 패러다임의 변화를 뒷받침하는 기회와 과제를 알리는 데 목표를 두고 있다”며 “자기지도학습은 라벨이 지정되지 않은 데이터를 사용해 의료 영상이든 신호이든 특정 데이터 소스에 대해 학습할 수 있다. 이를 통해 라벨이 지정된 대형 데이터 세트를 실제로 수집하지 않고도 의약 분야나 그 이상의 모든 작업을 수행할 수 있다”고 설명했다.

자기지도학습 기술이 의료 AI 분야의 판도를 바꾸고 있다는 해석이 나왔다. (사진=셔터스톡)
자기지도학습 기술이 의료 AI 분야의 판도를 바꾸고 있다는 해석이 나왔다. (사진=셔터스톡)

2019년 및 2020년에 라즈푸카르 교수 연구실은 흉부 X레이를 비롯한 의료 이미지 판독을 위해 자기지도학습이 가능하도록 하는 성과를 냈다. 그는 “사진을 이해하는 데 도움이 되는 몇 가지 알고리즘 수정을 통해 특정 질병을 확인하기 전에 특정 질병에 대해 보여야 하는 흉부 X레이의 수를 줄일 수 있었다”고 밝혔다.

연구진은 심전도에도 유사한 원리를 적용했다. 그는 “알고리즘에 약간의 생리학적인 통찰력과 함께 자기지도학습을 적용할 수 있는 몇 가지 방법을 통해 라벨이 지정되지 않은 많은 데이터를 활용할 수 있다는 것을 보일 수 있었다”고 밝혔다.

이후, 폐 및 심장 음향 데이터에도 자기지도학습을 적용했다. 라즈푸카르 교수는 “최근 한두 해 동안 딥 러닝에 대해 매우 흥미로운 점은 모달리티를 통해 다양한 방식으로 방식을 잘 전달할 수 있다는 것”이라고 덧붙였다. 

예를 들어, 곧 발표될 또 다른 논문에서 연구팀은 라벨이 없는 흉부 X선 질환의 예시를 통해 실제로 흉부 X선 상의 질병을 검출하고 방사선 전문의 수준에서 다양한 질병을 분류할 수 있었다. 라즈푸카르 교수는 “기본적으로 판독 시 판독된 방사선 보고서와 쌍을 이룬 이미지를 통해 학습했다. 그리고 이 두 가지 기법을 결합해 제로 샷 방식으로 적용할 수 있는 모델을 만들었다. 즉, 다른 질병을 분류하는 데 라벨이 있는 샘플이 필요하지 않았다”고 밝혔다. 

단백질이나 이미지, 텍스트 등 어떤 작업을 하든 이 프로세스는 2년 또는 3년 전보다 더 통일된 방식으로 동일한 종류의 체계, 방법 및 용어를 차용하고 있다. 그는 “일반적인 도구 세트를 통해 이러한 특정 모달리티를 작업하는 모든 사람들이 도움을 얻을 수 있기에 매우 흥미롭다”고 설명했다. 

그는 “연구진이 수년간 연구해 온 의료 이미지 해석과 관련해 매우 혁신적인 것”이라며 “한 번에 하나씩 문제를 해결하고 이 프로세스를 1000번 반복하기보다, 훨씬 더 많은 문제를 한꺼번에 해결할 수 있다”고 덧붙였다.

라즈푸카르 교수는 이러한 가능성을 통해 의약 및 의료 분야에서 자기지도학습 방법을 개발 및 적용하려는 모멘텀이 형성됐고, 대규모 데이터 수집 능력을 갖춘 다른 산업, 특히 의료 데이터와 관련된 민감성이 없는 산업 분야에서도 이러한 가능성을 볼 수 있다고 밝혔다. 

그는 앞으로 의학 전문가가 하는 잠재적인 과제들을 보다 가까이에서 해결하는 데 관심이 있다고 덧붙였다. 그는 “항상 많은 사람에 의약 및 의료 서비스의 접근성을 높일 수 있는 지능형 시스템을 구현하는 것이 목표”라며 “한 가지 좁은 문제만 해결하는 것이 아닌 솔루션을 구축하려고 한다. 의사나 환자가 진단과 치료에 대해 현명한 결정을 내릴 수 있도록 다양한 신호를 결합하는 모델이 있는 세상이 오도록 노력하고 있다”고 강조했다. 

이한선 객원 기자 griffin12@gmail.com

키워드 관련기사
  • 텔레파시 가능하게 해 줄 AI 기술 나온다
  • 네이버 음성기록 AI '클로바 노트', 일본 간다
  • 네이버 "한국어 음성 인식 기술은 클로바가 1등...활용도 계속 높일 것"