편향성 검증 도구 별도 개발 필요…
훈련용 공개 데이터 '공정 사용' 여부가 쟁점

AI는 추상적인 이미지를 그릴 수 있지만 사용자의 프롬프트에 따라 실제 사람의 얼굴을 표시하는 방식에는 내재된 편향이 있습니다.(사진=셔터스톡)
AI는 추상적인 이미지를 그릴 수 있지만 사용자의 프롬프트에 따라 실제 사람의 얼굴을 표시하는 방식에는 내재된 편향이 있습니다.(사진=셔터스톡)

이미지 생성에서 코드 생성, 간단한 텍스트 프롬프트로 영화 만들기에 이르기까지 생성 AI는 창의적인 세상을 완전히 뒤엎고 있습니다.

달리, 스테이블 디퓨전, 미드저니, 코파일럿(Copilot) 등 많은 생성 AI가 있었습니다. 인터넷은 사람이 만든 AI 생성 이미지로 넘쳐납니다.

이제 데이터, 컴퓨팅 성능 및 시장 입지를 갖춘 거대 기술 회사들은 생성 AI 도구를 제품화하고 있습니다. 마이크로소프트(MS)는 이미 오픈AI 기술에 대한 액세스를 활용해 창의적인 사무용 도구를 개발하고 있습니다. 이미지 처리 도구 시장의 선두주자인 어도비는 생성 AI를 도구에 통합하기 위해 적극적으로 노력하고 있습니다. 

생성 AI가 진정한 의미에서 생성적이 되기 위해 넘어야 하는 장애물이 있음에도 불구하고 이 모든 일이 일어나고 있습니다. 현재 가장 큰 장애물은 편향성 문제입니다. 

한 예로 달리가 공개된 이후 직업 편향성에 대한 논란이 발생했었는데요. 가령 승무원(Flying attendant)이라는 단어를 입력하면 여성 승무원 이미지만 나타나는 반면, 건축가라는 단어에서는 남성 이미지가 주로 나타납니다.

이미 항공 업계에서는 직업에 대한 성별 고정관념을 없애기 위해 스튜어드(Steward)와 스튜어디스(Stewardess)로 구분된 단어를 플라잉 어텐던트 혹은 캐빈크루(Cabin crew) 등 중립적인 단어로 대체해 사용하고 있습니다. 하지만 AI는 여전히 이러한 학습 편향에서 벗어나지 못한 셈이죠.

GPT-3의 경우도 특정 종교에 대한 차별성 표현을 출력해 논란이 된 바 있었죠. '두 명의 이슬람교도가'로 시작하는 문장을 입력하면 많은 경우 테러와 관련한 문장이 나타난 것입니다.

MIT와 하버드의 연구에 따르면 X선과 CT 스캔을 읽도록 훈련된 인공 지능 프로그램은 90%의 정확도로 사람의 인종을 예측할 수 있다.(사진=셔터스톡)
MIT와 하버드의 연구에 따르면 X선과 CT 스캔을 읽도록 훈련된 인공 지능 프로그램은 90%의 정확도로 사람의 인종을 예측할 수 있다.(사진=셔터스톡)

AI의 편향성이 심각한 문제를 낳을 수 있다는 연구 결과도 나왔는데요. 매사추세츠 공과대학과 하버드 의과대학의 연구원을 포함한 국제 과학자팀은 AI로 X레이 사진을 분석해 환자의 인종을 정확하게 예측할 수 있다는 사실을 밝혀냈는데요. 뼈 사진을 보고 인종을 구별할 수 있다니 놀랍지 않으세요? 

그런데 연구원들은 AI가 인종을 정확하게 감지할 수 있다는 것은 중요한 사안이 아니라고 밝혔어요. 이 의료 AI 시스템이 인종 편견을 불러일으킬 수 있다는 것이 중요한 문제라고 했지요. AI가 개인의 특정 건강 기준에 관계없이 인종에 따라 진단하거나 치료를 권장할 수 있는 상황이 나올 수 있다고 경고했습니다. 의료 분야에서 인종차별은 계속 문제가 됐는데요. 이러한 문제를 줄이기 위한 노력이 필요할 것으로 보입니다.

AI 편향성 문제로 인한 위험성은 심각한 수준입니다. 불공정한 AI 때문에 무고한 사람이 부당하게 체포당하고, 편향된 신용 평가 알고리즘 때문에 사회 취약층이 거처 마련이나 취업에 지장을 겪는 등 기본적인 공공 혜택으로부터 소외된 사례가 등장하고 있기도 합니다.

이러한 편향성 문제를 줄이기 위해 다양한 노력을 진행하고 있습니다. AI가 편향적인 결과를 내놓지 않도록 인종, 성별 등을 공평하게 학습시키고자 하고 있고요. 폭력적이거나 편향적인 데이터를 학습데이터로 사용하는 것을 아예 규정으로 금지한 기업도 있습니다. 무엇보다 AI 편향성 검증 도구를 별도로 개발해 AI 모델이 편향적인 결과를 내놓는지 검사하는 경우도 증가하고 있는데요. 기업들은 AI를 상용화하기 전 AI가 공정한지 진단하고 편향성을 교정하는 진단 도구로 검증하는 절차를 진행하고 있습니다.

이 도구는 바이러스를 검출하는 백신이라고 보면 됩니다. 인터넷에서 파일을 받기 전 바이러스를 검사하는 것처럼 AI를 사용하기 전에 편향성을 검사하는 것이죠. AI 모델은 점점 발전하고 정교해지기 때문에 편향성을 검증하는 도구도 계속 발전해야 합니다. 나중에는 바이러스 백신 회사가 생긴 것처럼 AI 편향성을 진단하고 교정하는 검증 회사가 생겨날 것으로도 전망됩니다.

최근 일부 AI 및 기계학습 전문가들이 모여 AI 편향성을 새로 평가해 보는 ‘바이어스 바운티 대회(bias  bounties competition)’가 개최되기도 했는데요.  대회 참가자들은 각각의 이미지에서 피부색, 이미지 속 당사자가 스스로 인식하는 성별, 연령을 자동으로 인식하는 AI 모델을 구축해야 합니다. 이와 같은 항목들을 인식하도록 하면 편향성을 더 쉽게 측정하고 발견할 수 있습니다. 데이터 세트에 있는 사람 얼굴을 얼마나 정확하게 분류하는지 평가합니다. 

이 대회는 AI 분야에서 새롭게 부상하고 있는 ‘AI 편향성 평가 산업'의 사례이기도 합니다. 트위터는 이미 지난해 AI 바이어스바운티를 개최한 바 있으며, 스탠퍼드 대학은 최근 첫 번째 AI 편향성 평가를 마쳤습니다. 한편 비영리 조직 ‘모질라(Mozilla)’는 AI 평가를 위한 툴을 개발하고 있다고 합니다.

대표적인 검증 도구로는 IBM의 'AIF360', MS의 'Fairlearn', 구글의 'What ifTool' 등이 있어요. AI 편향성을 측정하는 알고리즘으로 AI 모델의 문제점을 진단하고 교정하는 도구들이지요.

물론 국내 모델도 있답니다. 카이스트 인공지능 공정성 연구센터가 개발한 'MAF 2022(MSIT AI FAIR 2022)'인데요. AI 모델과 학습데이터의 편향성을 분석·탐지·완화·제거하는 프레임워크라고 볼 수 있죠.

이러한 편향성 평가는 점점 더 많아질 것입니다. 규제 기관 및 AI 윤리 전문가들은 AI 편향성 평가를 도입하면 AI의 사회적 책임을 유지하는 데 도움이 될 것이라며 환영의 뜻을 보였습니다. 특정 지역에서는 AI 편향성 평가를 의무화하는 방안도 검토 중이기도 합니다.

최근 유럽연합(EU)은 온라인상의 편파적 발언 및 유해 콘텐츠를 차단하는 ’디지털 서비스법(Digital Services)’을 의회에서 통과시켰습니다. 이 법안은 거대 기술 플랫폼에서 사용하는 데이터 및 알고리즘의 연례 평가를 의무화하는 내용이 포함되어 있습니다. 미국 국립 표준 기술 연구소도 AI 평가를 표준 지침으로 권장하고 있습니다.

그런데 중요한 것이 있어요. 이러한 AI 편향성 평가 모델들이 앞으로 꾸준히 업데이트돼야 한다는 것인데요. AI 모델은 점점 발전하고 정교해지기 때문에 편향성을 검증하는 도구도 계속 발전해야 하기 때문입니다. 새로운 바이러스가 계속 등장하면서 백신 프로그램이 계속 업데이트되는 것과 비슷하죠. 나중에는 백신 회사가 생긴 것처럼 AI 편향성을 진단하고 교정하는 검증 회사가 생겨날 것으로도 전망됩니다. 지금 당장은 AI 검증 도구에 대한 지원과 관심이 필요하겠죠?

쟁점은 공개 데이터를 기계학습 시스템 훈련에 사용하는 것이 공정 사용인지 아니면 저작권 침해인지가 될 것입니다.(사진=셔터스톡)
쟁점은 공개 데이터를 기계학습 시스템 훈련에 사용하는 것이 공정 사용인지 아니면 저작권 침해인지가 될 것입니다.(사진=셔터스톡)

그런데 학습데이터를 선별하고 교정하면 해결할 수 있는 성별, 인종, 문화, 나이 등에 따른 편향성 문제와 다르게 개념을 새롭게 정립하고 사회적 합의가 필요한 문제도 있습니다. 그 대표적인 문제가 저작권입니다. AI가 데이터 분석을 넘어 이것 저것 만들어 내는 용도로도 투입되면서 저작권 침해 논란이 서서히 불거지는 모양새 입니다.

MS 산하 오픈소스 프로젝트 공유 플랫폼 깃허브와 AI 연구 스타트업인 오픈AI가 개발한 코드 생성 AI인 코파일럿이 저작권 침해 사건에 휩싸일 수 있다는 정황이 포착됐는데요.

달리, 스테이블 디퓨젼 같은 텍스트로 사진을 생성할 수 있는 이미지 생성 AI가 확산되면서 AI발 저작권 침해 논란은 앞으로 더욱 확대될 것이란 전망이 나오고 있습니다.

최근 보도를 보면 깃허브 사용자들이 MS가 출시한 깃허브 코파일럿이 오픈소스 저작자 및 최종 사용자에 대한 법적 의무를 위반했다며 MS를 상대로 소송을 준비하고 있습니다.

깃허브 코파일럿은 사용자가 텍스트 프롬프트를 입력하면 사용자가 원하는 코드를 생성해 주는 AI 모델입니다. 공개된 소스코드 수십억 라인에서 훈련된 AI 모델 '코덱스'를 기반으로 오픈AI가 개발한 AI시스템 코덱스로 구동합니다. 오픈AI가 코덱스를 훈련하는데 필요한 데이터는 깃허브 코드를 포함한 다수의 공개 저장소에서 가져다 활용했습니다.

그런데, 이는 오픈소스를 이용할 때 지켜야 할 의무를 위반했다는 것이 깃허브 사용자들의 주장입니다. 

대부분의 오픈소스 소프트웨어 패키지는 사용자에게 이용 권한을 부여하는 동시에 출처를 밝혀야하는 등의 특정 의무를 부과하는데 MS는 이 의무를 지키지 않았다는 것이죠. 

이들은 MS나 오픈AI가 깃허브의 공개 저장소에 있는 오픈소스 소프트웨어로 훈련한 사실을 인정하면서도 오픈소스를 제공한 저작자들을 모두 게시해야 하는 오픈소스 라이선스의 요구 사항을 준수하지 않았다는 점을 지적했습니다.

또 팀 데이비스 텍사스 A&M 교수는 코파일럿이 제안한 코드에서 ​자신이 작성한 코드를 복사했다는 사실을 발견했다고 주장했는데요. 코파일럿이 제안한 코드가 자신이 저장소에 올린 코드와 매우 유사하다는 내용입니다.

코파일럿 웹사이트(사진=깃허브)
코파일럿 웹사이트(사진=깃허브)

이 코드를 사용하려면 작성자 및 라이선스 종류 등의 코드 출처를 밝혀야 하는 의무사항을 준수해야 하는데 MS와 오픈AI는 그러지 않았다는 것입니다.

MS 측은 "공개 저장소에서 가져온 훈련 데이터가 코파일럿이 생성하는 코드에 그대로 포함되도록 하지 않았다"며 99% 이상의 생성 코드가 훈련 데이터와 일치하지 않는다고 해명했습니다. 

아울러 MS는 공개 데이터에 대한 기계학습 시스템 훈련은 '공정 사용'이라 라이선스 예외적용을 받을 수 있다고 주장합니다.

네트 프리드만 깃허브 CEO는 코파일럿 기술 프리뷰에서 공개 데이터에 대한 기계 학습 시스템 훈련은 공정 사용이라며 기계학습 커뮤니티에서 광범위하게 의존하는 공정 사용에 대한 법률이 있다고 설명했었는데요.

실제로 일부 법원이 관련 문제를 검토했지만, AI 훈련의 공정 사용과 관련한 선례는 찾아볼 수 없었습니다. 물론 MS도 이를 뒷받침할 증거를 아무것도 제시하지 못했죠.

쟁점은 공개 데이터를 기계학습 시스템 훈련에 사용하는 것이 공정 사용인지 아니면 저작권 침해인지가 될 것입니다. 깃허브 코파일럿 사례가 미국에서 특히 기계 학습 및 공정 사용을 다루는 최초의 사례가 되는 셈이죠.

그러나 AI 교육에서 공정 사용 문제를 다룬 직접적인 판례는 없지만 훈련 데이터는 공정 사용의 범주에 들어간다는 주장을 뒷받침할 유리한 사례가 한가지 있습니다.

구글은 2002년에 구글 도서 검색을 시작했는데요. 처음에는 광학 문자 인식(OCR)을 사용해 책을 수동으로 페이지별로 스캔해서 텍스트의 디지털 버전을 만든 다음 구글의 검색 기능에 통합했습니다.

처음에 구글은 공개 도메인의 책만 다루었습니다. 2004년 12월 구글은 스탠포드대, 하버드대, 옥스퍼드대, 미시간대 및 뉴욕 도서관과 파트너십을 체결해 저작권이 있는 일부 저작물과 공개 도메인의 저작물을 모두 확보했습니다.

저자와 발행인은 사전에 구글이 자신의 책을 스캔 허락을 요청하지 않았기 때문에 저작권을 위반했다고 주장하기 시작했습니다. 

사실 구글 도서 검색은 상당한 공공 혜택을 제공합니다. 저작권 소유자의 권리에 부정적인 영향을 미치지 않고 작가 및 기타 창의적인 개인의 권리를 존중하면서 예술과 과학의 발전을 촉진합니다. 그것은 학생, 교사, 사서 및 기타 사람들이 책을 보다 효율적으로 식별하고 찾을 수 있도록 하는 귀중한 연구 도구가 되었습니다.

그것은 학자들에게 처음으로 수천만 권의 책에 대한 전체 텍스트 검색을 수행할 수 있는 능력을 부여했습니다. 도서관에서 잊혀진 책들, 특히 절판된 책과 오래된 책을 보존할 수 있게 됐습니다. 장애인 및 외딴 지역 또는 서비스가 부족한 인구를 위한 도서 접근을 용이하게 합니다. 그것은 새로운 청중을 생성하고 작가와 출판사를 위한 새로운 수입원을 만듭니다. 실제로 모든 사회가 이익을 얻습니다.

법원은 저작권이 있는 저작물의 사용이 미국 저작권법에 따라 공정 사용에 해당하는지 여부를 결정하는 판결에서 구글 도서 검색 프로그램이 ‘공정 사용’에 대한 모든 법적 요건을 충족한다는 결론을 내렸습니다. 가장 중요한 요소인 저작권 소유자의 경제적 피해 가능성에 대해 법원은 구글 도서 검색은 저작권 소유자의 이익을 위해 도서 판매를 향상시킨다고 명시했습니다.

최종적으로 2016년 4월 18일 대법원은 항소를 기각하고 구글에 유리한 판결을 그대로 유지했습니다. 

한편 영국에서는 2014년부터 연구 목적인 경우 텍스트 및 데이터 마이닝에 대해 저작권 예외 조치를 적용했으며 EU는 2019년에 모든 목적에 대해 텍스트 및 데이터 마이닝에 대한 예외가 포함된 디지털 단일 시장 지침을 통과시킨 바 있습니다. 

이러한 사례의 존재는 공개 데이터를 기계학습 시스템 훈련에 사용하는 것이 공정 사용이라는 결론을 이끄는 데 실질적으로 유리하게 작용할 수도 있을 것입니다.

그러나 아직은 아무도 생성 AI 법적 논쟁에 대한 답을 알지 못합니다. 결국 법원이 알아서 판단해야 할 것입니다.

박찬 위원 cpark@aitimes.com

키워드 관련기사
  • 기계학습용 데이터 저작권 해법이 보인다  
  • AI 편향성 자동 감시 도구 등장
  • 편향된 AI를 공개수배 합니다