들어가며...

인공지능(AI) 기술이 우리 사회 곳곳에 스며들면서 관련 법과 제도의 필요성이 부쩍 제기되고 있다. 최근 크게 논란이 되었던 AI 챗봇 이루다 사건은 전 국민이 AI 윤리를 고민하는 계기가 됐다.

법무법인 태평양과 공동 기획한 연재 칼럼에서는 변호사 관점에서 최신 AI 법·제도·윤리 이슈를 분석한다. 법무법인 중 국내 최초로 AI팀을 꾸린 태평양 내 AI 전담 변호사들이 AI가 사회 속에 자연스레 녹아들어갈 방법과 실제적인 해결책을 모색한다.

① 유럽연합 AI 규제안의 내용과 의미

②대규모 언어모델의 등장과 위험 기반의 AI 거버넌스

③정부의 AI 활용, 어디까지 왔는가

④금융 AI 가이드라인, AI 성능과 공정성을 어떻게 담고 있나

법무법인 태평양 마경태 변호사
법무법인 태평양 마경태 변호사

금융위원회는 7월 8일 인공지능(AI) 기반 금융서비스 개발을 위한 「금융분야 AI 가이드라인」(금융 AI 가이드라인)을 발표하였다. 금융 AI 가이드라인은 지금까지 정부에서 AI 거버넌스 체계에 관하여 발표한 자료 중에서 가장 포괄적인 내용을 담고 있다.

특히 AI 시스템의 평가∙검증 부분에서 AI 시스템의 성능과 공정성을 평가하고 개선하기 위한 방안을 제시하고 있는데, 최근 제기되고 있는 AI에 의한 차별 또는 편향성 이슈에 대한 사회적 논의의 출발점이 될 수 있다는 점에서 주목할 필요가 있다. 금융 AI 가이드라인이 제시하는 성능과 공정성 평가지표의 내용들을 살펴보자.

AI 시스템의 성능

금융 AI 가이드라인은 AI 시스템의 성능과 관련하여 적합한 성능 목표와 평가지표를 선정하여야 한다고 설명하고 있다. 그리고 성능 평가지표의 예시로 ‘거짓 음성’(False Negative) 오류와 ‘거짓 양성’(False Positive) 오류의 최소화를 들고 있다.

금융위 AI 가이드라인 주요내용 중 ‘성능’ 부분 캡처(출처=금융위, ‘금융분야 AI 가이드라인 및 주요 검토 필요사항’, 5면.)
금융위 AI 가이드라인 주요내용 중 ‘성능’ 부분 캡처(출처=금융위, ‘금융분야 AI 가이드라인 및 주요 검토 필요사항’, 5면.)

각 오류 유형의 내용과 관계를 설명하기에 앞서 금융 서비스에서 AI 시스템이 어떻게 작동하는지 살펴보자. 금융 AI 가이드라인은 AI 시스템이 활용되는 금융 서비스 분야로 신용평가, 대출심사, 보험심사, 사기탐지(FDS), 규제 미준수 탐지(Reg-tech)를 들고 있다. 위 각 서비스에서 AI 시스템은 주어진 데이터를 통계적으로 분석하고 사람을 대신하여 의사결정을 내린다.

가령 대출을 신청한자가 상환능력을 갖고 있는지, 특정 거래가 사기거래에 해당하는지 여부를 판단한다. 여기서 중요한 점은 AI 시스템이 출력하는 값이 실제 일어난 사실에 대한 정보가 아니라 해당 사실이 일어날 가능성을 통계적으로 예측한 정보라는 점이다. 즉 AI 시스템은 실제 대출상환을 한 자나 사기거래를 찾아내는 것이 아니라 대출상환을 할 가능성이 높은 자나 사기거래에 해당할 가능성이 높은 사례를 예측해 내는 것이다.

문제는 AI 시스템이 부정확한 예측을 내릴 수 있고, 이로 인해 서비스 상대방이 피해를 입을 수 있다는 점이다. 이를 방지하기 위해서는 AI 시스템의 성능이 높아야 한다. 그렇다면 AI 시스템의 성능은 어떻게 측정할 수 있을까. 이는 AI 시스템의 목적에 따라 달라진다.

통계학 강의 시간으로 돌아가보자. AI 시스템이 오류를 발생시키는 유형은 다음과 같이 크게 두 가지로 구분할 수 있다.

(표=마경태 변호사)
(표=마경태 변호사)

가령 어떤 거래가 사기거래인지 여부를 판단하는 ‘사기탐지 시스템’의 경우, ① 어떤 거래가 실제로는 정상거래(음성)인데도 AI 시스템이 사기거래(양성)로 분류하는 경우가 있을 수 있고, ② 어떤 거래가 실제로는 사기거래(양성)이지만 AI 시스템이 정상거래(음성)로 분류하는 경우가 있을 수 있다. 전자를 ‘거짓 양성’(False Positive)이라고 하고, 후자를 ‘거짓 음성’(False Negative)이라고 한다.

정상거래가 한 사례라도 사기거래라고 잘못 분류될 경우 그로 인해 소비자는 거래가 제한되기 때문에 발생하는 위해가 크다. 따라서 AI 시스템이 ‘실제 정상거래를 사기거래로 분류’해서 소비자의 거래를 금지시키는 경우(거짓 양성) 발생하는 위해는 반대로 ‘실제 사기거래를 정상거래라고 분류’하는 경우(거짓 음성) 발생하는 위해보다 크다고 볼 수 있다.

이처럼 AI 시스템이 ‘위법∙부당사례 탐지 기능을 수행하는 경우’에는 소비자가 위법∙부당한 사례로 잘못 분류되는 상황을 방지하는 것이 중요하다(예: FDS, Reg-tech). 따라서 이 경우 ‘거짓 양성’ 오류를 최소화할 필요가 있다.

반면 대출심사의 경우, ‘실제 대출심사 적격자’를 부적격자로 분류하는 경우(거짓 음성) 금융 소비자는 자신의 정당한 대출 기회를 박탈당하는 것이기 때문에 그 반대의 경우(거짓 양성)보다 발생하는 위해가 크다. 따라서 AI 시스템이 ‘금융거래 기회를 제공하는 기능을 수행하는 경우’에는 적격자에 대한 기회 제공을 위하여 ‘거짓 음성’ 오류를 최소화할 필요가 있다(예: 신용평가, 대출심사, 보험심사).

이러한 구분에 대해 거짓 양성 오류와 거짓 음성 오류를 모두 최소화하면 되는 것 아니냐는 의문이 있을 수 있다. 위해 방지를 위해 두 오류 유형 모두 최소화하기 위해 노력해야 한다는 점은 맞다. 하지만 거짓 양성 오류와 거짓 음성 오류는 어느 한 오류를 감소시키려고 하면 다른 오류가 증가하는 통계적 ‘상충관계’가 존재한다.

따라서 어느 유형의 오류를 중점적으로 최소화할지에 대한 의사결정이 필요하고, 이는 앞서 본 바와 같이 AI 시스템의 목적에 따라 달라져야 한다. 이에 금융 AI 가이드라인은 금융 서비스 내용별로 각각 다른 오류 유형을 최소화할 것을 제시하고 있는 것이다.
 

AI 시스템의 공정성

금융 AI 가이드라인은 AI 시스템의 공정성과 관련하여 평가지표를 선정하고 이에 따라 측정해야 한다고 설명하고 있다. 그리고 AI 시스템에 대한 공정성 평가지표로 주로 언급되고 있는 ‘인구통계적 동등성’(Demographic Parity) 기준과 ‘기회의 균등’(Equal Opportunity) 기준을 금융 서비스별 공정성 평가지표의 예시로 들고 있다.

금융위 AI 가이드라인 주요내용 중 ‘공정성’부분 캡처(출처: 금융위, ‘금융분야 AI 가이드라인 및 주요 검토 필요사항’, 6면.)
금융위 AI 가이드라인 주요내용 중 ‘공정성’부분 캡처(출처: 금융위, ‘금융분야 AI 가이드라인 및 주요 검토 필요사항’, 6면.)

‘인구통계적 동등성’ 기준이란 집단별로 취급율(예: 대출승인율)이 동등한 것을 의미한다. 다만 현실적으로 집단간 취급율이 완전히 동일하기는 어렵기 때문에 통상 취급율의 차이가 일정 범위 내일 것을 요구한다.

가령 대출심사에서 비교대상 집단을 ‘저소득 소외계층’과 ‘그 외의 신청자’로 가정해보자. ‘소외계층 중에 대출승인을 받은 비율’과 ‘그 외의 신청자 중에 대출승인을 받은 비율’이 동등하다면 인구통계적 동등성 기준을 충족한다. 이 때 대상자가 ‘실제 자격이 있는 자’인지 여부(예: 대출적격자 또는 부적격자인지 여부)는 고려 대상이 아니다. 아래 그림 사례를 보자.

인구통계적 동등성 기준 적용 사례(출처=마경태 변호사)
인구통계적 동등성 기준 적용 사례(출처=마경태 변호사)

이를 수식으로 나타내면 아래와 같다(A: 소외계층 해당 여부, d: 예측 분류 값).

P(d = 1 | A = 1) = P(d = 1 | A = 0)

인구통계적 동등성 기준은 ‘결과의 평등’을 추구한다. 사회적 소외계층에게 금융 서비스에 대한 접근을 보장해 줌으로써 평등이라는 결과를 이끌어낸다. 이는 장기적으로 사회적 불평등 완화로 이어질 수 있지만, 다른 한편 ‘특혜’ 논란이 발생할 가능성도 존재한다.

다음으로 ‘기회의 균등’ 기준을 살펴보자. 기회의 균등 기준이란 실제 자격이 있는 대상자 중에서 AI 시스템이 정확하게 예측한 비율(재현율, True Positive Rate)이 집단별로 동일한 것을 의미한다. 가령 대출심사에서 비교대상 집단을 남성과 여성으로 가정해보자. ‘실제 대출적격자 중에서 AI 시스템이 제대로 대출적격자로 예측하여 대출승인을 받은 자의 비율’이 남성과 여성에 대하여 동등하면 기회의 균등 기준을 충족한다. 아래 그림 사례를 보자.

기회의 균등 기준 적용 사례(출처=마경태 변호사)
기회의 균등 기준 적용 사례(출처=마경태 변호사)

이를 수식으로 나타내면 아래와 같다(G: 여성/남성 여부, Y: 실제 분류 값, d: 예측 분류 값)

P(d = 1 | Y = 1, G = 여성) = P(d = 1 | Y = 1, G = 남성)

기회의 균등 기준은 비교대상을 각 집단의 ‘실제 자격이 있는 자’로 제한하고 있다. 그리고 AI 시스템이 ‘실제 자격이 있는 자’를 정확하게 예측할 수 있는지 여부에 초점을 두고 있다. 이처럼 지원자의 실제 능력에 대하여 고려를 한다는 점에서 결과의 평등에 초점을 맞춘 인구통계적 동등성 기준과 구분된다.

연구논문을 통해 발표된 AI 시스템 공정성 평가지표는 앞서 본 인구통계적 동등성 기준과 기회의 균등 기준 외에도 수십 개에 달한다. 이러한 공정성 평가지표들은 앞서 본 두 기준과 마찬가지로 그 내용과 사용될 수 있는 맥락이 다르다. 그리고 공정성 평가지표를 모두 충족하는 AI 모델을 구축하는 것은 불가능하다는 점이 수학적으로 증명되어 있다.

따라서 특정 기준에 따르면 공정해 보이는 AI 모델이 다른 기준을 적용하면 그렇지 않은 경우가 발생할 수 있다. 그러므로 AI 시스템의 공정성을 심사하는 경우 평가 결과를 분석하는 것도 중요하지만 이에 앞서 어떠한 기준이 적합한 평가지표에 해당하는지에 대하여 신중한 검토가 요구된다고 할 것이다.
 

AI 거버넌스에 대한 시사점

AI 시스템의 성능과 공정성을 평가하는 지표들은 서로 양립할 수 없는 ‘상충관계’에 있음을 알 수 있다. 그런데 이러한 상충관계는 성능과 개인정보보호, 성능과 설명가능성, 설명가능성과 개인정보보호 등 AI 거버넌스를 구성하는 각 요소들 사이에서도 존재한다. 이처럼 AI 거버넌스 요소들이 상충관계에 놓여있다는 것은 AI 시스템의 목적과 사용 맥락에 따라 AI 거버넌스의 내용 또한 달라질 수밖에 없고 AI 거버넌스에 있어 하나의 모범 답안이 존재하지 않는다는 것을 의미한다.

금융위원회는 앞으로 금융 AI 가이드라인을 바탕으로 업권별 특성 등을 반영한 ‘금융업권/서비스별 세부실무지침’ 마련할 계획이다. 어려운 과제인만큼 처음부터 완벽한 지침이 나올 수는 없을 것이다. 규제기관과 사업자들을 비롯하여 여러 전문가들이 머리를 맞대고 차근차근히 사업자들에게 실제로 도움이 될 수 있는 방안을 마련하길 기대한다.

법무법인 태평양 마경태 변호사 kyungtae.ma@bkl.co.kr

 

[관련 기사]서울대 강유 교수, 주가 예측 AI로 탑컨퍼런스 발표...국내 최초 성과

[관련 기사]불확실성 시대에 금융 예측은 AI에게 맡겨라

키워드 관련기사
  • [세계 속 AI ⑩ 독일] 포스트 코로나 시대 ‘유럽 AI’ 선도 국가 목표
  • 네이버클라우드, “8월 유전체 분석 서비스 시작”...'데이터박스' 개발 중
  • 英美 공공기관, 로봇·윤리 관련 AI 프레임워크 속속 발표