생체분자 데이터 생성, 예측, 이해 도와

엔비디아가 생물학 분야로 대형 언어 모델 지원을 확대했다. (사진=엔비디아)
엔비디아가 생물학 분야로 대형 언어 모델 지원을 확대했다. (사진=엔비디아)

엔비디아가 신약 개발과 질병 치료 연구를 가속할 ‘바이오네모(NVIDIA BioNeMo)’ 프레임워크를 22일(현지시간) GTC 2022에서 공개했다. 

바이오네모는 생체분자 대형 언어 모델(LLM) 훈련 및 배포용 프레임워크다. 질병 이해와 치료 개선을 돕는다. 여기서 LLM 프레임워크는 화학과 단백질, DNA, RNA 데이터 형식을 지원한다. 

해당 플랫폼에서 인공지능(AI)은 LLM을 통해 인간 언어를 이해한다. 이를 통해 생물학과 화학 언어도 학습한다. 바이오네모는 대형 신경망이 생체분자 데이터를 보다 쉽게 학습하도록 만들었다. 생물학적 시퀀스에서 새로운 패턴과 인사이트를 도출하게 지원할 수 있다. 연구자는 해당 방식으로 생물학적 특성이나 기능을 인간 생체와 연결해 연구할 수 있다. 

현재 생물학 데이터용 자연어 처리 모델을 사용하는 과학자들이 주로 훈련하는 신경망은 상대적으로 규모가 작고 맞춤형 전처리를 요한다. 바이오네모를 도입하면 수십억개의 파라미터를 가진 LLM으로 모델을 확장해 분자 구조와 단백질 용해성 등에 대한 정보를 얻을 수 있다.

바이오네모는 대규모 자가지도(self-supervised) 언어 모델의 GPU 가속 훈련을 위한 '네모 메가트론(NVIDIA NeMo Megatron)' 프레임워크의 확장 버전이다. 도메인별로 특화돼 만들어졌다. 

특히 LLM 서비스에는 생물학과 화학 분야의 디지털 애플리케이션용 LLM을 신속히 시작하기 원하는 개발자를 위해 사전 훈련된 언어 모델 4종 ▲ESM-1 ▲오픈폴드(OpenFold) ▲메가몰BART(MegaMolBART) ▲프롯T5(ProtT5) 등이 포함돼 있다. 모두 추론에 최적화돼 있으며, 'DGX 파운드리(NVIDIA DGX Foundry)'에서 구동되는 클라우드 API 조기 체험을 통해 접근할 수 있다.

김미정 기자 kimj7521@aitimes.com

키워드 관련기사
  • 엔비디아, 로보틱스를 위한 신제품 출시
  • "AI모델이 갖춰야 할 필수 요소는 예측성"...AI석학 3인이 본 AI의 과제
  • 엔비디아, 음성 AI 구축 솔루션에 한국어 추가