
헬스케어 AI 프로젝트를 처음 납품했을 때, NPS(순추천지수)가 3점이었습니다. 여기서 NPS란 "이 서비스를 주변에 추천하겠는가"를 0~10점으로 묻는 지표로, 10점에 가까울수록 사용자 만족도가 높다는 뜻입니다. 3점이면 사실상 "쓰지 말라고 말리겠다"는 수준입니다. 진단 결과 화면은 꽤 깔끔하게 나왔는데, 사용자들은 "이 숫자가 어디서 나온 건지 모르겠다"는 말을 반복했습니다. 그때 처음으로 깨달았습니다. AI UX에서 빠진 건 기능이 아니라 신뢰였다는 것을.
데이터 편향을 모르면 설계가 처음부터 어긋난다
AI 시스템이 틀리는 이유 대부분은 알고리즘이 아니라 데이터에 있습니다. 제가 직접 써봤는데, 데이터 출처 카드를 붙이기 전까지 사용자들은 결과를 신뢰하지 않았습니다. 출처 카드를 "의료 영문 원문 + 한국어 번역 요약 + 신뢰도 점수 3단 구성"으로 바꾸자 NPS가 1점 더 올랐습니다. 작은 숫자처럼 보이지만, 헬스케어 도메인에서 1점 차이는 굉장히 큽니다.
데이터 편향(Data Bias)이란 학습에 사용된 데이터가 특정 집단이나 상황에 치우쳐 있어 결과가 왜곡되는 현상을 말합니다. 예를 들어 서울 대형병원 환자 데이터로만 훈련한 모델은 농촌 지역 환자군에서 정확도가 떨어질 수밖에 없습니다. 문제는 이 편향이 의도적이지 않은 경우가 훨씬 많다는 점입니다. 데이터를 수집한 사람이 특정 계층이거나, 수집 시기가 특정 계절에 몰렸거나, 단순히 어떤 데이터가 "존재하지 않아서" 빠지는 경우까지 포함하면 모든 데이터는 본질적으로 편향을 품고 있습니다(출처: 개인정보보호위원회).
그렇기 때문에 데이터 출처의 투명성(Data Provenance)을 UI 레벨에서 보여주는 것이 핵심입니다. 데이터 출처의 투명성이란 "이 결과가 어떤 데이터를 근거로 나왔는가"를 사용자가 파악할 수 있도록 시각화하는 작업입니다. 저는 이를 AI 윤리 카드 5종으로 정리해 라이브러리화했고, 현재 외주 2건에서 재사용 중입니다.
신뢰 보정 없이 내보낸 AI는 두 가지로 망한다
자동화 편향(Automation Bias)이라는 개념이 있습니다. 자동화 편향이란 컴퓨터나 AI가 제시한 결과를 사람이 비판 없이 수용하는 경향을 뜻합니다. 쉽게 말해, "기계가 했으니 맞겠지"라고 무비판적으로 믿는 심리입니다. 헬스케어 현장에서 이게 특히 위험한 이유는, 의사나 환자 모두 AI 수치를 보는 순간 판단력이 일부 이양되기 때문입니다.
신뢰는 스펙트럼입니다. 한쪽 끝은 불신으로 인한 비사용, 반대쪽 끝은 과신으로 인한 오용입니다. 제 경험상 이건 좀 다릅니다. 대부분의 클라이언트는 "사용자가 AI를 너무 믿으면 어쩌냐"보다 "사용자가 안 쓰면 어쩌냐"만 걱정합니다. 하지만 실제로는 두 방향 모두 제품을 망칩니다. 전기차 완전 자율주행 기능에 "Full Self-Driving"이라는 이름을 붙였다가 과신으로 인한 사고가 반복된 사례가 이를 잘 보여줍니다.
목표는 교정된 신뢰(Calibrated Trust)입니다. 교정된 신뢰란 AI 시스템의 실제 능력에 딱 맞는 수준으로 사용자의 신뢰를 유지하는 상태입니다. 이를 위해 저는 첫 진입 화면에 다음 요소를 반드시 포함합니다.
- 이 AI가 할 수 있는 것과 할 수 없는 것을 명시한 한계 고지 카드
- 데이터 출처와 신뢰도 점수를 3단계로 표시하는 출처 카드
- 결과에 이의를 제기하거나 수동으로 변경할 수 있는 오버라이드 버튼
- 동의 항목을 단계별로 분리한 정보 동의 시퀀스
- 데이터 삭제 요청 흐름을 처리하는 훅(useDataDeletion)
이 다섯 가지를 첫 진입 화면 Variants로 구성해 넣은 이후 NPS가 3점에서 7점으로 뛰었습니다. 솔직히 이건 예상 밖이었습니다. 기능을 더한 게 아니라 설명과 통제권을 더한 것만으로 이 정도 차이가 났으니까요.
한국 시장에서 윤리 설계가 더 복잡한 이유
글로벌 AI 윤리 가이드라인을 그대로 한국에 적용하면 바로 문제가 생깁니다. 제가 직접 써봤는데, 국내 사용자들은 동의 화면에서 이탈률이 유독 높습니다. 이유는 간단합니다. 50개가 넘는 동의 항목이 한 화면에 쏟아지는 디폴트 패턴 때문입니다.
한국 개인정보보호법은 정보주체 동의 의무를 매우 세밀하게 규정합니다. 수집 목적, 보유 기간, 제3자 제공 여부를 각각 분리해서 동의받아야 하고, 가명정보 처리 시에는 별도 안내가 필요합니다. 여기서 가명정보 처리란 개인을 직접 식별할 수 없도록 일부 정보를 삭제하거나 대체한 뒤 통계나 연구 목적으로 활용하는 방식입니다. 이 조항을 무시하고 한 화면에 모든 동의를 때려 넣으면, 법적으로도 문제가 되고 사용자 경험도 박살납니다(출처: 개인정보보호위원회).
카네기멜론대학교 소프트웨어공학연구소(SEI)가 제시한 인간중심 AI 설계 프레임워크도 맥락 복잡성, 인간-기계 협업, 비판적 감시라는 세 축을 강조합니다. 그런데 한국 시장에서 이 프레임워크를 실무에 적용하려면 위 세 축에 "한국 법령 의무 + 동의 단계 분할 + 데이터 삭제 권리"를 추가해야 비로소 완성됩니다. 글로벌 원칙은 원칙일 뿐, 한국 사용자의 실제 행동 패턴과 법적 맥락은 별도로 설계해야 합니다.
외주 단가를 결정하는 것은 결국 윤리 설계였다
처음에는 AI 윤리 작업을 "추가 옵션" 정도로 제안했습니다. 클라이언트 반응은 냉담했습니다. "그게 꼭 필요한 거냐"는 질문이 돌아왔습니다. 그런데 NPS 수치가 나오고 나서부터 분위기가 바뀌었습니다. 윤리 패턴 5종이 결국 이탈률을 낮추고 재방문율을 높인다는 걸 데이터로 보여주자, 그다음 프로젝트부터는 클라이언트가 먼저 물어봤습니다.
머신러닝 모델 신뢰성 감사(AI Audit)도 이제 실무 키워드가 되고 있습니다. AI Audit이란 AI 시스템이 편향 없이, 의도한 대로, 지속적으로 작동하는지를 주기적으로 점검하는 과정입니다. AI는 새로운 데이터가 유입될 때마다 다른 시스템이 될 수 있기 때문에, 한 번 검수하고 끝나는 게 아니라 지속적인 모니터링이 필수입니다. 이 감사 항목을 설계 산출물에 포함시키는 순간, 외주 단가가 올라갔습니다. AI 윤리는 비용이 아니라 신뢰 자산이고, 그 신뢰 자산은 측정 가능한 수치로 증명됩니다.
앞으로 3년 안에 한국 시장에서도 AI 윤리 UX는 디자인 시스템 표준 항목이 될 가능성이 높다고 봅니다. 지금 당장 AI 프로젝트를 맡고 있다면, 기능 설계보다 먼저 데이터 출처와 동의 흐름을 점검하는 것이 출발점입니다. NPS 3점짜리 경험을 한 번 겪고 나면, 이 순서가 얼마나 중요한지 몸으로 알게 됩니다.