비디오 및 전문 이미지 생성 AI 등장

구글의 이마젠 비디오가 프롬프트 '화성의 아름다운 일출, 고화질, 타임랩스, 극적인 색상'으로 생성한 비디오
구글의 이마젠 비디오가 프롬프트 '화성의 아름다운 일출, 고화질, 타임랩스, 극적인 색상'으로 생성한 비디오

AI 이미지 생성기는 최근 몇 달 동안 웹을 휩쓸었습니다. 이 AI 시스템은 텍스트 설명을 이미지로 변환합니다. '백마를 탄 우주비행사'를 입력하면 시스템이 이것을 백마를 탄 우주비행사의 이미지로 변환합니다. 

이러한 서비스 중 첫 번째인 오픈AI에서 개발한 달리(DALL-E)는 놀라운 사실감의 고해상도 이미지를 생성합니다. 이후에 등장한 미드저니(Midjourney)나 스테이블 디퓨전(Stable Diffusion)과 같은 시스템도 똑같이 인상적입니다.

그리고 최근에 메타와 구글은 텍스트 설명으로 비디오를 생성하는 AI 비디오 생성기를 출시했는데요. 이는 '달리'와 같은 텍스트-이미지 생성기가 출시된 지 불과 6개월 만에 일궈낸 비약적인 발전이라는 점에서 탄성을 자아내기 충분하다는 평가가 나옵니다.

메타의 비디오는 테디베어가 인물을 그리거나 다리를 벌리고 들판을 질주하는 모습을 보여주는 마치 꿈의 장면처럼 보입니다. 그것들은 약 1~2초 동안 지속되며 결함이 있지만 여전히 주목할 만합니다. 

메타의 메이커비디오가 텍스트 프롬프트 "인물을 그리는 테디베어"에서 생성한 비디오(사진=메타)
메타의 메이커비디오가 텍스트 프롬프트 "인물을 그리는 테디베어"에서 생성한 비디오(사진=메타)

메타의 AI 비디오 생성기 ‘메이커비디오(Make-A-Video)’는 달리와 같은 텍스트-이미지 AI 모델을 사용해 단어와 이미지 사이의 연관성을 파악하고 추가로 레이블이 지정되지 않은 비디오 훈련 데이터를 적용해 AI 모델이 텍스트 또는 이미지 프롬프트가 시간과 공간에서 어디에 존재하는지 학습했습니다. 이어 현재 이미지 다음에 올 이미지를 예측해 짧은 시간 동안 움직이는 장면을 표시합니다.

구글의 이마젠 비디오가 텍스트 프롬프트 '말을 타고 있는 우주 비행사'로 생성한 비디오 (사진=구글)
구글의 이마젠 비디오가 텍스트 프롬프트 '말을 타고 있는 우주 비행사'로 생성한 비디오 (사진=구글)

구글에서 생성한 커피를 컵에 따르거나 눈 덮인 산을 비행하는 비디오는 더 사실적으로 보입니다. 구글의 AI 비디오 생성기 ‘이마젠 비디오(Imagen Video)’는 텍스트 설명을 가져와 먼저 24×48픽셀 해상도에서 16프레임, 초당 3프레임 비디오를 생성합니다. 그다음 7단계의 확산 모델로 점진적으로 추가 프레임을 업스케일링하고 예측해, 최종적으로 1280×768픽셀에서 총 128프레임, 초당 24프레임 비디오를 생성합니다. 이렇게 생성한 최종 비디오의 길이는 5.3초입니다.

구글은 또한 페나키(Phenaki)라는 두 번째 AI 비디오 생성기를 구축했는데요. 페나키는 더 획기적입니다. 더 구체적이고 긴 동영상을 만들어 줍니다. 기존에는 프롬프트의 '단어'를 기반으로 AI가 장면을 유추해서 영상을 만들었다면, 페나키는 '연속적이고 구체적인 문장'으로 동영상을 만들어 냅니다.

예를 들어 아래와 같은 긴 프롬프트를 입력하면 페나키는 2분짜리 비디오를 생성해 줍니다.

구글의 페나키가 위의 프롬프트로 생성한 2분 분량의 비디오 (사진=구글)
구글의 페나키가 위의 프롬프트로 생성한 2분 분량의 비디오 (사진=구글)

'미래 도시의 교통량이 많습니다. 외계인 우주선이 미래 도시에 도착합니다. 카메라는 외계인 우주선 안으로 들어갑니다. 카메라는 파란색 방에 우주 비행사를 보여줄 때까지 앞으로 이동합니다. 우주 비행사가 키보드를 입력하고 있습니다. 카메라가 우주 비행사에게서 멀어집니다. 우주 비행사는 키보드를 떠나 왼쪽으로 걸어갑니다. 우주 비행사는 키보드를 떠나 걸어갑니다. 카메라는 우주 비행사 너머로 이동하여 화면을 봅니다. 우주 비행사 뒤의 화면에는 바다에서 헤엄치는 물고기가 표시됩니다. 파란 물고기로 크래시 줌. 우리는 어두운 바다에서 헤엄치는 푸른 물고기를 따라갑니다. 카메라는 물을 통해 하늘을 가리킵니다. 바다와 미래 도시의 해안선. 미래의 마천루를 향해 크래시 줌. 카메라는 많은 창 중 하나를 확대합니다. 우리는 빈 책상이 있는 사무실에 있습니다. 사자가 사무실 책상 위를 달리고 있습니다. 카메라는 사무실 내부의 사자 얼굴을 확대합니다. 사무실 방에서 검은 양복을 입은 사자를 축소합니다. 입고 있는 사자가 카메라를 바라보며 미소 짓고 있습니다. 카메라는 마천루 외부로 천천히 축소됩니다. 현대 도시에서 저속 촬영한 일몰입니다.'

특히 페나키는 이처럼 시나리오 형태의 텍스트 명령을 입력하면 영화를 방불케하는 비디오를 만들 수 있는데요. 이마젠 비디오는 '품질'에 중점을 두었다면 페나키는 '일관성과 길이'를 우선시한다는 것이 구글의 설명입니다.

물론 페나키가 생성한 비디오는 아직 부자연스럽다는 결함도 있죠. 하지만 비디오의 긴 러닝 타임과 길고도 복잡한 텍스트 설명을 얼마나 잘 구현해냈는지를 확인하면 감탄이 나올 정도라는 평가입니다.

구글은 또한 사진 한 장만 있으면 마치 드론이 사진속으로 들어가 항공 촬영을 하는 것처럼 사진 속 세계를 가상으로 그려주는 3D 뷰(view) 생성 AI를 공개하기도 했는데요. 풍경 사진을 찍은 다음 AI를 사용해 새처럼 비행하면서 공중에서 바라본 풍경을 비디오로 생성해 줍니다. 

'인페이팅'이라는 시뮬레이션 기법을 활용해 사진에는 보이지 않는 숨겨진 영역을 AI로 생성해 채워주는 것으로 비행효과를 얻는 방식입니다. 거대한 AI 데이터 세트를 머신러닝으로 학습해 거기에 있을 것으로 생각되는 숨겨진 부분을 예측해 생성하는 것이죠.

또 사진 경계 밖에 있는 것은 '아웃페인팅' 기법을 이용해 대규모 데이터 세트를 학습해 원본 사진을 기반으로 더 넓은 이미지를 만들어 냅니다.  

사진을 공중에서 촬영한 영상으로 바꿔주는 3D 뷰 생성 AI (사진=구글)
사진을 공중에서 촬영한 영상으로 바꿔주는 3D 뷰 생성 AI (사진=구글)

구글의 AI 비디오는 기계가 생성한 미래를 분명하게 가리키고 있습니다.

물론 AI 생성 비디오를 가까운 시일 내에 현지 영화관에서 보기는 어렵습니다. 그러나 우리는 소셜 미디어 피드, 특히 틱톡, 인스타그램 또는 유튜브와 같은 플랫폼에 게시되는 것을 거의 확실히 보게 될 것입니다.

틱톡이 자체 AI 비디오 생성 도구를 구축하고 있는지는 분명하지 않지만 플랫폼의 특성상 지원하는 것이 합리적 입니다. 틱톡의 콘텐츠 제작자와 플랫폼 자체는 이미 대규모로 비디오를 생성할 수 있는 도구를 활용할 모든 준비가 되어 있습니다. 

틱톡의 사용자는 게시물에 스티커, 텍스트 및 그린 스크린을 추가하는 것을 좋아하기 때문에 플랫폼은 새로운 기술을 제공해 수요를 수용합니다. 그린 스크린은 글자 그대로 영상 촬영 시 배경으로 사용하는 초록색 스크린을 의미합니다. 그린 스크린을 배경으로 촬영한 영상을 편집 소프트웨어를 사용해 초록색 배경과 전경을 분리하여 다른 배경과 합성할 수 있습니다.

최근에는 양식화된 그린 스크린을 만드는 AI 이미지 생성기 ‘AI 그린스크린(Greenscreen)을 앱에 추가했습니다. 예를 들어 ‘보리스 존슨’과 같은 프롬프트를 입력하면 전 영국 총리를 어렴풋이 연상시키는 추상적인 이미지를 생성합니다.

틱톡 AI 그린스크린은 프롬프트에 대해 추상적인 이미지를 생성한다.(사진=틱톡)
틱톡 AI 그린스크린은 프롬프트에 대해 추상적인 이미지를 생성한다.(사진=틱톡)

또 스테빌리티 AI와 같은 조직 덕분에 조만간 이러한 도구를 거의 제한 없이 사용할 수 있게 될 것입니다. 스테빌리티 AI는 지난 8월 유명인, 정치인, 전쟁 지역의 가짜 사진은 물론 멋진 예술을 누구나 생성할 수 있는 이미지 생성 도구 '스테이블 디퓨전'를 출시했습니다. 이 도구를 사용해 몇 초 만에 도널드 트럼프 전 대통령이 김정은 북한 국무위원장과 골프를 치는 사진을 만들 수 있습니다. 스테빌리티 AI는 준비가 되면 공개적으로 출시할 계획인 비디오 생성 도구를 개발 중입니다.

또 이미지 생성 AI는 일반적인 이미지나 비디오 생성 뿐 만 아니라 특정 분야에 집중된 문제를 처리하도록 활용의 폭이 광범위해 질 전망입니다. 

예를 들어 건축 분야에 이미지 생성 AI를 적용해 건축 세부 사항, 연결, 교차 및 조립 순서를 생성하도록 훈련할 수 있는 방법을 탐구하고 건축 문서나 도면를 생성하는 데 활용할 수 있습니다.

미드저니가 생성한 추측성 축적 조립 도면(사진=디자인붐)
미드저니가 생성한 추측성 축적 조립 도면(사진=디자인붐)

실내 공간에 새로운 스타일과 기능을 생성할 수 있도록 인테리어 디자인을 하는데 이미지 생성 AI를 활용할 수 있습니다. 이미 실내 공간의 2D 이미지를 입력하고 스타일을 선택하면 사진의 인테리어를 수정해 주는 AI 이미지 생성 플랫폼이 출시된 바 있습니다.

AI 이미지 생성기가 생성한 인테리어 디자인 (사진=인테리어 AI)
AI 이미지 생성기가 생성한 인테리어 디자인 (사진=인테리어 AI)

박찬 위원 cpark@aitimes.com

키워드 관련기사
  • [찬이의 IT교실] 이미지 생성 AI ③…어떻게 사용해요?
  • [찬이의 IT교실] 이미지 생성 AI ②...최고의 AI 이미지 생성기는?
  • [찬이의 IT 교실] 이미지 생성 AI ①...상상이 현실이 되다