세무·법률의 AI 환각을 억제하는 방법

[프리미엄 리포트]양정환 더존 AI연구소 책임연구원

인공지능(AI)을 활용하는 법률 및 세무·회계 전문가들이 점점 늘어나고 있습니다. 오래 걸렸던 단순 반복 업무를 신속하게 개선해주는 장점이 있지만, 과연 AI가 내놓는 결과물을 어디까지 믿어야 하는지 고민스러울 때가 많죠. 전문가 맞춤형 AI 개발자인 양정환 더존 AI연구소 책임연구원에게 AI 환각 문제와 전문가들의 활용 방법에 대해 들어봤습니다.

AI를 맹신한 대가: 가짜 판례 인용 사건

지난 10월 17일, 국회 행정안전위원회 국정감사장에서는 충격적인 사실이 드러났다. 경기 용인동부경찰서가 아동복지법 위반 사건의 불송치 결정문에 이 세상에 존재하지 않는 대법원 판례를 인용한 것이다.

결정문에는 "일시적이거나 단편적인 언행만으로는 아동의 정신 건강 및 발달에 해를 끼친다고 단정하기 어렵고, 반복성·지속성 및 구체적인 피해 정황이 인정되어야 한다"라는 대법원과 서울북부지법 판결문의 문구가 당당히 적혀 있었다. 하지만 고소인 측이 내용을 확인한 결과 이 판례는 AI가 만들어낸 가짜 판결문이었다.

경찰청장 직무대행은 "챗GPT를 활용해 작성했다"며 "판결문을 잘못 인용한 것"이라고 인정했다. 챗GPT가 만든 가짜 판결을 경찰이 한치의 의심 없이 공식 문서에 인용했던 것이다.

이 사건은 업무에 AI를 활용하고 있는 세무업계 전문가들에게 명확한 경고를 보내는 사례다. AI가 만든 정보를 검증 없이 신뢰했다가는 의뢰인의 이익과 전문가의 신뢰도에 치명적 손해를 입힐 수 있다는 것이다.

전 세계 법조계를 뒤흔든 AI 환각 문제

비단 한국만의 문제가 아니다. 전 세계 법조계가 AI 환각 문제로 골머리를 앓고 있다.

2023년 뉴욕 연방 법원에서 30년 경력의 변호사가 챗GPT를 이용해 소송 준비서면을 작성하면서 총 6개의 판례를 인용했는데, 이 판례들은 모두 존재하지 않았다. 더욱 기가 막힌 것은 변호사가 챗GPT에게 "이 판례가 진짜냐"라고 재확인했을 때도 챗GPT는 판례 사이트에서 찾을 수 있는 진짜 판례라고 거짓 답변을 했다는 점이다. 이 문제로 인해 법원은 변호사들에게 벌금을 부과하고 이름이 도용된 판사와 의뢰인에게 사과 편지를 보내도록 명령했다.

프랑스 변호사가 운영하는 'AI Hallucination Cases Database'에 따르면, 2023년 이후 미국, 영국, 캐나다, 호주, 이스라엘, 브라질 등 12개국에서 455건 이상의 AI 환각 사례가 법원에서 확인됐다. 스탠퍼드 대학과 HAI 연구팀이 2024년 발표한 논문에 따르면 챗GPT-4는 법률 질의에 대해 최소 58%, Llama 2는 88%의 환각률을 보였다. 특히 법원의 핵심 판결 관련 질문에서는 75% 이상이 환각이었다.

AI가 법을 인식하는 방법

그렇다면 왜 AI는 유독 법률문제에서 약점을 보이는 것일까? 엄밀히 말하면 웹 검색 같은 별도 기능이 탑재 되지 않은 순수 AI 모델은 '법령 데이터베이스'가 아니라 '법령 텍스트 생성기'다. 그리고 이 '텍스트 생성기'는 끝말잇기(정확히 말하면 다음 단어 찾기) 로직으로 법령을 만들어 낸다. 사람이 법령을 찾을 때는 국가법령정보센터 사이트에 접속해서 정확한 조문을 검색하지만 AI는 그렇지 않다. AI는 텍스트를 단어 단위로 쪼개어 처리하며 비슷한 문맥에서 자주 함께 등장하는 단어들은 비슷한 의미라고 학습한다.

여기서 법률 조문의 특성이 문제를 일으킨다. 법률은 정형화된 문구를 반복적으로 사용하는 데 예를 들어 법인세법 제61조는 '준비금의 손금산입 특례', 제62조는 '비영리 내국법인의 이자소득에 대한 신고 특례', 제62조의 2는 '비영리 내국법인의 자산 양도소득에 대한 신고 특례'를 규정하고 있다.

세 조문 모두 '특례', '대통령령으로 정한다', '소득 금액을 계산할 때', '과세표준 신고' 등의 동일한 법률 용어를 반복적으로 사용한다. 특히 제62조와 제62조의 2는 둘 다 '비영리 내국법인'으로 시작하고, '과세표준 신고를 하지 아니할 수 있다', '각 사업연도의 소득 금액을 계산할 때 포함하지 아니한다'라는 거의 동일한 문장 구조를 공유한다.

AI는 학습 과정에서 이런 패턴들을 포착한다. '법인세법 제62조'와 '법인세법 제62조의 2'는 조문 번호도 인접하고, 사용하는 단어와 문장 구조도 거의 같다. 결과적으로 AI의 내부 표현 공간(벡터 공간)에서 이 두 개념은 극도로 가까운 위치에 놓인다.

하지만 실제 내용은 완전히 다르다. 법인세법 제62조는 이자소득을 다루고 제62조의 2는 자산 양도소득을 다룬다. 전자는 원천징수된 이자소득에 대한 소득 금액 제외를 후자는 주식·부동산 등 자산 양도소득에 대한 소득 금액 제외를 규정한다. 형식은 유사하지만 실질은 전혀 다르다.

문제는 AI가 확률적으로 다음 단어를 예측한다는 점이다. '비영리 내국법인의 OO소득에 대한 신고 특례'라는 문장에서 빈칸을 채울 때 AI는 학습 데이터에서 본 '이자', '자산 양도', '배당' 등 여러 후보 중 가장 확률이 높은 것을 선택한다. 문맥을 정확히 파악하지 못하면 엉뚱한 소득 유형을 제시한다.

더 심각한 것은 AI가 실제로 함께 등장한 적 없는 요소들을 재조합한다는 점이다. [법인세 + 소득 + 신고 특례] 같은 표현들을 각각 학습했다면, AI는 이들을 조합해서 '법인세 제62조의 3 [비영리 내국법인의 배당소득에 대한 신고 특례]' 같은 그럴듯한 가짜 법령을 만들어낼 수 있다. 각 구성요소는 실제 학습했지만 그 조합은 현실에 존재하지 않는다. 용인동부경찰서 사건이 바로 이런 경우다.

더욱 교묘한 사례를 보자. 만약 '1년 이상 계속 근무한 경우'와 '1년 이상 계속 근무한 때'라는 두 문장이 있다. '경우'와 '때'라는 단어 하나만 다를 뿐이다. AI가 이 두 문장을 처리할 때 대부분의 단어가 동일하므로 매우 유사한 것으로 인식한다. 그러나 법률적 해석에서는 미묘한 차이가 있을 수 있다. '때'는 특정 시점이나 시기를 강조하는 표현으로, 1년이라는 기간이 완성되는 그 시점에 초점을 맞춘다. 반면 '경우'는 1년 이상 근무했다는 조건이나 상황 전반을 포괄하는 표현이다.

예를 들어 연차휴가 발생 시점이나 법정수당 지급 기준을 판단할 때, '1년 이상 계속 근무한 때'는 정확히 1년이 되는 시점인 입사 1주년 당일을 기준으로 해석될 수 있지만, '1년 이상 계속 근무한 경우'는 1년을 초과하여 근무 중인 상태 전반을 의미하는 것으로 해석해야 하며 퇴직금이나 법정수당 계산에서 이러한 기준일의 차이는 실제 금액 차이로 이어질 수 있다. 하지만 AI는 이런 미묘한 표현의 차이가 만드는 법률적 의미 변화를 포착하기 어렵다.

부정어는 더욱 위험하다. '과세한다'와 '과세하지 않는다'라는 의미가 정반대지만, 두 표현 모두 '과세'라는 핵심 단어를 포함하고 세법조문이라는 같은 유형의 문맥에서 등장한다. AI는 이런 공통 패턴 때문에 두 표현을 비슷한 것으로 인식할 수 있다. 부정어 하나가 의미를 완전히 뒤집는다는 것을 완벽하게 이해하지 못한다.

숫자도 마찬가지다. 소득세 과세표준에서 1400만원, 1400만원 초과~5000만원 이하 등 금액 정보는 비슷한 문맥에서 등장하며 구간별로 세율을 특정하고 있지만 법률이 요구하는 '구간의 불연속성' 과 AI가 학습한 '숫자의 연속성'사이에는 위험한 간극이 존재한다. AI는 6%와 15%라는 구간 세율을 정확히 특정하지 못할 위험이 있다.

AI의 환각을 억제하는 방법

그렇다면 AI를 법률·세무 업무에서 전혀 사용할 수 없는 것인가? 그렇지 않다. 문제의 본질을 이해하면 해결책도 보인다. 핵심은 AI가 벡터 공간에서 상상으로 답을 만들어내지 않고 실제 존재하는 문서에서만 답을 찾도록 강제하는 것이다.

이를 위해 등장한 것이 RAG(Retrieval-Augmented Generation)다. 하버드 법학 기술 저널에 따르면, RAG는 LLM의 강력한 언어 능력과 외부 진실 출처를 결합하여 환각률을 크게 감소시킨다. 일반 LLM이 사용자 질문을 받으면 벡터 공간에서 그럴듯한 답을 생성하는 반면, RAG는 먼저 실제 법령·판례 데이터베이스를 검색한다. 검색된 원문 문서를 확보한 후, 이 문서만 참조해서 답변을 생성한다. 모든 답변에는 출처 링크가 첨부된다.

'벡터 공간의 유사도'가 아니라 '실제 존재하는 문서'에서만 답을 찾다 보니 AI가 상상으로 판례를 만들어낼 수 없으며 데이터베이스에 없는 정보는 답할 수 없다.

RAG 방식을 세무 자문 AI에 적용하면 어떻게 될까? 사용자가 '중소기업 사회보험료 세액공제율은?'이라고 질문한다고 가정해 보자. 시스템은 먼저 질의를 분석한 후, 법령 데이터베이스에서 조세특례제한법 제30조의 4 원문을 검색한다. 동시에 관련 국세청 예규, 조세심판원 결정례도 함께 검색한다.

검색된 실제 문서만을 참조해 '조세특례제한법 제30조의 4 제1항에 따라...'로 시작하는 답변을 생성한다. 이때 벡터 조합이 아닌 실제 조문을 인용하는 것이다. 세액 계산이 필요하면 파이썬 같은 프로그래밍 언어로 정확한 연산을 수행한다. 급여에 사회보험료율을 곱하고 25%를 계산하는 식이다.

결과를 내놓기 전에 시스템은 에이전트를 통해 추가 검증을 수행한다. 해당 규정의 시행일과 일몰기한을 확인하고, 중복공제 배제 규정이 있는지 체크한다. 최종 답변에는 '조세특례제한법 제30조의 4'로의 링크가 첨부되고, 결론내기 애매한 문제는 전문가의 판단이 필요하다는 의견을 제시한다. RAG 기술의 발전과 에이전트의 등장으로 더욱 정확한 세무 전문 AI 서비스가 속속 등장하고 있다.

AI 시대는 곧 전문가의 시대

용인동부경찰서 사건은 우리에게 명확한 교훈을 준다. AI는 강력한 도구지만, 검증 없이 맹신하면 재앙이 될 수 있다는 것이다. 환각은 LLM의 버그가 아니라 본질이다. 이론적으로도 완전히 제거할 수 없다. 그러나 이는 AI가 쓸모없다는 의미가 아니다. RAG와 에이전트 기반 아키텍처로 환각은 많은 부분이 해결 가능해지고 있다.

결과적으로 이번 사안이 제시하는 화두는 전문가의 검증과 판단이 더욱 중요해진 시대가 왔다는 것이다. 세무사와 공인회계사의 역할은 'AI가 대체하는 것'이 아니라 'AI가 만든 결과물을 검증하고 책임지는 것'으로 진화할 것이다. AI가 초안을 작성하면 전문가는 인용된 법령이 현행법인지 확인하고, 적용 요건이 충족되는지 판단하며, 특수한 상황에서의 예외를 검토하고, 납세자에게 최적의 방안을 제시한 후, 궁극적으로 자문 결과에 책임을 진다.

AI는 세무사의 생산성을 높이는 강력한 조수다. 하지만 조수는 조수일 뿐이다. 고객이 신뢰하고 의지하는 것은 여전히 전문가의 판단과 책임이다. AI 시대에 전문가의 가치는 사라지는 것이 아니라, 오히려 더 명확해진다. 누구나 AI를 쓸 수 있지만, AI가 만든 답변이 맞는지 틀렸는지 판단할 수 있는 것은 오직 전문가뿐이다.

용인동부경찰서 사건에서도 고소인 측 법률대리인이 아니었다면 가짜 판례는 영원히 발견되지 않았을 것이다. AI 시대는 이미 현실이 되었지만 맹신해서는 안 된다. 검증하고, 판단하고, 책임지는 전문가의 역할이 그 어느 때보다 중요해졌다.

☞양정환 책임연구원은?
현재 더존 AI연구소 AiFrontier 팀장으로 근무하고 있다. 더존비즈온에서 15년 동안 근무하며 ERP 기획과 설계 업무를 담당했다. 더존의 차세대 솔루션 Amaranth10, 신한은행 BaaS서비스, 현대백화점 재경정보시스템 개발 프로젝트에 참여했다. IT 트렌드 서적 '코파일럿이 온다'의 공저자로 참여했다.

세무·법률의 AI 환각을 억제하는 방법

[프리미엄 리포트]양정환 더존 AI연구소 책임연구원

관련 뉴스

많이 본 뉴스more

more

프리미엄 리포트

정보보고

전문가 인터뷰