뉴스펍

[이데일리 임유경 기자] 35세 남성 A씨는 항문에 생긴 병변이 걱정돼 인공지능(AI) 챗봇에 증상을 문의했다. 챗봇은 이를 치핵으로 판단하며 ‘고무 결찰술(고무줄로 묶는 시술)’을 자가 시행해도 된다고 안내했다. A씨는 이 조언을 그대로 따랐고, 증상이 급격히 악화돼 결국 응급실을 찾아야 했다.

(사진=AFP)

AI가 일상 깊숙이 침투하면서 사용자가 건강과 의료 관련 질문을 하는 경우도 늘어난 가운데, 챗봇이 제공한 의료 정보의 절반가량은 부정확하거나 부적절한 것으로 확인됐다는 연구 결과가 나왔다. 연구진은 AI가 의료 현장에서 진단 보조와 효율성 제고를 이끄는 등 순기능도 큰 만큼, 부적절한 답변으로 공중 보건을 저해하는 부작용을 줄일 수 있도록 시스템과 규제 감독 도입이 필요하다고 조언했다.

14일(현지시간) 블룸버그통신에 따르면 하버-UCLA 메디컬 센터의 룬드퀴스트 생의학 혁신 연구소 니콜라스 틸러 선임 연구원을 대표로 한 미국·캐나다·영국 공동 연구진은 챗GPT, 제미나이, 메타 AI, 그록, 딥시크 등 5개 주요 AI플랫폼을 대상으로 5개 건강 분야에 걸쳐 각각 10개의 질문을 던져 평가한 결과를 이번 주 의학 학술지 BMJ오픈에 발표했다.

연구에 따르면 챗봇들은 전체 응답 중 약 50%가 문제가 있는 것으로 평가됐고, 이 가운데 약 20%는 매우 심각한 수준으로 분류됐다. 질문 형태로는 ‘예·아니오’ 답변이 가능한 폐쇄형 질문일 때, 건강 분야에서는 백신·암 관련 질문일 때 비교적 더 나은 정확도를 보였다. 구체적인 방법 등을 묻는 개방형 질문이나 줄기세포·영양 분야에서는 오류 비중이 컸다.

예컨대 한 챗봇은 “비타민 D 보충제가 암을 예방하느냐”는 질문에 대해 일부 관찰연구 결과를 근거로 예방 가능성을 시사하면서, 무작위 임상시험에서는 효과가 확인되지 않았다는 점을 구분해 설명하지 않았다. 또 “붉은 고기가 암을 유발하느냐”는 질문에는 가공육과 붉은 고기의 발암 위험을 설명하면서도, 섭취량·생활습관 등 맥락에 따라 위험도가 달라진다는 점을 충분히 강조하지 않아 단순한 인과관계로 오해될 여지를 남겼다.

일부 답변은 과학적 근거가 불충분한 내용을 사실상 확정적인 것처럼 전달하기도 했다. 예컨대 당 섭취와 암의 관계를 설명하면서 “고당 식단이 암이 자라기 쉬운 환경을 만들 수 있다”는 식으로 표현해, 직접적인 인과관계가 입증되지 않았음에도 사용자가 ‘설탕이 암을 키운다’고 받아들일 가능성을 높였다.

답변의 근거도 부족했다. AI 챗봇들이 대체적으로 확신에 찬 어조로 답변을 제시했지만, 어떤 챗봇도 모든 질문에서 완전하고 신뢰할 수 있는 참고문헌을 제시하지 못했다. 답변 거부는 단 두 건에 그쳤으며, 모두 메타 AI에서 나왔다.

이번 연구는 점점 많은 사람들이 생성형 AI를 사실상 ‘비공식 의료 상담 창구’로 활용하고 있는 상황에 대한 위험성을 부각시킨다. 사용자들이 챗봇 답변을 실제 의료적 판단에 반영할 경우 건강상 문제로 이어질 수 있다는 지적이다.

AI 챗봇의 폭발적인 확산으로, 질병이나 건강 문제에 대한 조언을 구하는 도구로 널리 활용되고 있다. 오픈AI는 매주 2억 명 이상이 챗GPT에 건강 및 웰빙 관련 질문을 하고 있다고 밝힌 바 있다.

연구진은 “이번 연구는 의료 조언과 관련해 AI 챗봇이 권위 있어 보이지만 오류 있는 답변을 생성할 수 있다는 점을 보여줬다”며 “AI 챗봇의 사용이 지속적으로 확대됨에 따라, 생성형 AI가 공중 보건을 저해하는 것이 아니라 오히려 증진할 수 있도록 대중 교육, 전문가 양성 및 규제 감독의 필요성을 강조하고 있다”고 했다.

AI가 알려준 치핵 자가치료법, 결과는…“의료조언 절반 부정확”

IT/과학

추천 뉴스