4차

이루다: AI 시대에 우리의 사생활은 지켜질 수 있을까?

존재천국 2021. 1. 16. 21:22
728x90
반응형
SMALL

20대 여성을 컨셉으로 만들어진 이루다는 딥러닝 알고리즘을 이용해 인간과 많은 유사성을 보였다

 

지난 12일 운영을 중단한 인공지능 챗봇 ‘이루다'의 개발사 스캐터랩이 13일 ‘연애의 과학’ 이용자들의 카톡 데이터 1700건이 외부에 유출됐음을 인정하고 사과했다.

최근 AI 제품이 대거 개발되면서 이와 관련한 보안 및 사생활침해 우려도 깊어지고 있다.

개인정보보호법은 AI 시대에 우리의 사생활을 지켜줄 수 있을까?

재발 방지를 위해 할 수 있는 일은 무엇이 있을까?

 

이루다는 무엇인가?

이루다는 스캐터랩에서 개발한 페이스북 메신저 채팅 기반의 인공지능 챗봇이다.

20대 여성을 컨셉으로 만들어진 이루다는 딥러닝 알고리즘을 이용해 인간과 많은 유사성을 보였다.

2020년 6월 베타 서비스를 거친 이루다는 약 6개월 뒤인 12월 출시됐다.

 

논란의 중심

출시 직후 엄청난 인기를 얻었던 이루다는 곧 성소수자 혐오, 성희롱 등 논란에 휩싸였다.

 

성소수자에 대해 어떻게 생각하느냐고 질문했을 때 혐오스럽다는 답변을 하거나, 일부 이용자들이 외설적 목적으로 사용하며 이를 공유한 것이다.

 

이루다 제작사인 스캐터랩 측은 9일 “금지어 필터링을 피하려는 시도가 있을 거라 예상했지만, 이 정도일 줄은 예상을 못 했다”며 “성적 취지로 접근하기 어렵게 알고리즘을 업데이트 할 것이다”고 밝혔다.

하지만 비판이 거세지자 스캐터랩은 11일 "이루다가 특정 소수집단에 대해 차별적인 발언을 한 사례가 생긴 것에 대해 진심으로 사과드린다. 저희는 이루다의 차별적 발언에 동의하지 않으며 그러한 발언은 회사의 생각을 반영하지 않고 있다"며 12일부터 이루다 서비스를 중단하겠다고 발표했다.

 

서비스는 그렇게 중단됐지만, 여전히 개인정보 유출 의혹에 대한 해명을 요구하는 여론이 빗발쳤다.

 

이루다의 답변엔 실제 주소, 사람 이름, 계좌 정보 등이 포함됐다. 그러자 스캐터랩이 이루다 서비스를 `연애의 과학` 이용자들의 카카오톡 대화를 무단으로 활용해 제작했다는 주장이 나왔다.

 

스캐터랩이 2016년 출시한 연애의 과학은 이용자가 5000원가량을 내고 자신의 카카오톡 대화를 넘기면 대화 내용을 분석해 연애 조언을 제공하는 서비스다.

 

스캐터랩은 연애의 과학이 카카오톡 대화 100억건을 수집했고 이를 통해 AI 성능을 높였다고 홍보한 바 있다.

 

개인정보보호법

논란이 계속되면서 정부가 조사에 들어갔다.

한국인터넷진흥원(KISA)과 개인정보보호위원회 등은 정보 수집 과정에서 개인정보 동의를 제대로 받았는지, 데이터를 이루다 재료로 쓰는 과정에 익명화(비식별화)를 제대로 했는지를 중점으로 조사를 진행할 것으로 보인다.

 

스캐터랩은 앞서 연애의 과학 로그인 화면에서 이용약관 및 개인정보취급방침 동의를 받은 것과 관련해 ‘개인정보 이용 동의를 소홀히 받았다’는 의혹을 받았다.

 

이에 스캐터랩은 11일 “연애의 과학이 개인정보 수집·이용에 동의를 받는 방법은 실제로 국내외 서비스들이 채택하고 있는 동일한 방법으로, 내부적으로 법적 문제가 없을 것이라고 판단했다”고 설명했다.

 

하지만 동의를 받을 때 필수 사항과 선택 사항을 구분해야 한다는 개인정보보호법 제22조 위반의 소지가 있다는 지적이 이어졌다.

 

또 디지털정보위원회, 정보인권연구소 등 다수 시민연대들은 13일 공동 논평을 내고 스캐터랩이 “각각의 사항을 알리고 명시적으로 동의를 받도록 한 개인정보보호법을 위반한 것”이라고 주장했다.

 

현행 개인정보보호법은 개인정보 처리자는 개인 정보 처리 목적을 명확하게 해야 하고 정보주체의 사생활 침해를 최소화하는 방법으로 개인정보를 처리하도록 규정하고 있다.

 

또 정보 주체가 자신의 개인정보 처리에 관한 정보를 제공받고 처리에 관한 동의 여부, 동의 범위를 선택하고 결정할 권리를 갖도록 한다.

 

이에 스캐터랩은 13일 밤 사과문을 발표하고 "이용자분들과 충분히 소통하지 못한 점은 깊이 반성한다"고 말했다.

 

또 이루다 관련 개발 기록을 오픈소스 공유 플랫폼 ‘깃허브’에 공유하는 과정에서 개인 정보가 제대로 비식별화, 즉 익명화 되지 않았다는 의혹에 대해서도 사과했다.

 

스캐터랩은 "깃허브에 공개한 오픈소스에 내부 테스트 샘플이 포함된 사실이 확인됐다"며 "실명을 자동화 비식별 처리했는데, 필터링 과정에 걸러지지 않은 부분이 일부 존재했다"고 인정했다.

 

비식별화란?

김재환 인터넷기업협회 정책국장은 BBC에 비식별화가 크게는 3가지 단계로 구분된다고 말했다.

 

처음은 인물을 특정할 수 있는 ‘개인 정보`를 취득하는 것, 2번째 단계는 이를 특정할 수 없는 ‘가명 정보`로 변환하는 것, 그리고 마지막은 이를 되돌리는 것이 불가능한 정보인 ‘익명 정보`로 변환하는 것이다.

 

그는 “2020년 1월에 데이터사용법이 통과되면서 기존의 서비스 개발사가 자체적으로 ‘개인 정보`를 취득해 ‘가명 정보`로 활용할 수 있게 됐다”고 말했다.

 

그는 이어 왜 ‘익명 정보’까지 비식별화를 진행하지 않느냐는 질문에는 “익명 정보까지 비식별화의 단계를 높이면 연관성이 있는 정보가 없으므로 활용 가치가 떨어진다”고 말했다.

 

AI 시대의 사생활

 

최근 AI 제품이 대거 개발되면서 이와 관련한 보안 및 사생활침해 우려도 깊어지고 있다.

 

지난 2018년 5월에는 아마존의 AI 스피커 알렉사가 주인 모르게 사적 대화를 녹음하고 연락처 명단에 있는 사람들에게 이를 발송하는 사건이 있기도 했다.

 

또 2019년에는 아마존이 영국 국가보건서비스(NHS)와 협약을 맺고 질병 증상 관련 질문을 보고하기로 하면서 `사생활 침해`에 대한 논란이 불거졌다.

 

당시 빅 브라더 워치의 실키 카를로는 해당 파트너십이 "건강 정보를 이용해 수익을 창출하는 사기업에 개인정보를 넘겨주는 행위"라며 우려를 표했다.

 

아마존 측은 이 정보가 제3자의 광고 등 수익창출 행위에 쓰이지 않을 것이라고 해명했지만, 카를로는 AI 스피커가 "단순히 책과 음악에 대해 검색하는 사람들과 건강 관련 질문을 검색하는 사람들을 구별하기 어렵다"며 상업적 의도로 쓰이지 않을 것을 확신할 수 없다고 비판했다.

 

AI 시대의 사생활은 어떻게 접근해야 할까?

김 정책국장은 우선 이루다 사건을 예로 들며 “정보 수집 단계에서 개인정보처리자, 보호책임자 등 명확히 범위 설정하고 단계별로 권한을 부여했는지가 철저히 감시돼야 한다"고 말했다.

 

그는 “만약 단순 개발 직원이거나 관련 업무 종사자가 아닌데 비식별화 이전의 대화 내용을 다 볼 수 있었다면 문제가 된다”고 말했다.

 

그는 이어 “AI가 학습할 수 있는 다양한 데이터가 부족했던 점도 하나의 원인"이라며 “다산 콜센터와 같은 공공기관에 엄청난 데이터가 녹음되어있는데, 이런 공적인 데이터로 비식별화를 우선 진행하고 다른 대화 서비스를 개발하는 민간 사업체에 정보 목적으로 개방하게 되면 문제가 줄어들 것"이라고 제안했다.

반응형
LIST