일상적인 질문에는 거침없이 답을 내놓는 챗GPT도 세법 앞에서는 유독 힘을 쓰지 못한다. 실제로 GPT-4에 지난해 세무사 1차 시험 중 '세법학 개론' 문제를 풀어보게 하자, 24.1점에 그치며 낙제점을 기록했다. 반면 더존비즈온 AI연구소가 최근 개발한 세법 지식 그래프 탐색 에이전트(NOVA)는 같은 문제에서 86.2점을 받았다.
세법 앞에서 GPT와 NOVA가 다른 결과를 내는 이유는 무엇일까.
단어 유사도만 보는 AI, 세법에선 안 통해
11일 서울 한국과학기술회관에서 열린 한국인공지능(AI)서비스학회 창립기념학술대회에서 더존비즈온 AI연구소(조희진·유효진·최효림·지용구·정재근)는 NOVA 구조와 기능에 대한 연구 논문을 발표했다. 이 논문은 학술대회에서 최우수 논문상을 수상했다.
더존비즈온 AI연구소는 챗GPT 같은 범용 AI의 한계는 세법의 독특한 구조에서 비롯한다고 지적했다. 세법은 법률·시행령·시행규칙이 위계적으로 얽혀 있어, 특정 문제를 해결하려면 이들을 아울러 참조해야 한다.
즉 상위법의 정의를 확인한 후에, 시행령의 세부 규정을 살펴보고, 다시 시행규칙의 서식이나 예외 조항까지 따라가야 답을 알 수 있는 것이다.
하지만 챗GPT를 포함한 기존 AI는 문서를 검색할 때 질문과 문서 간 '단어 유사도'를 중심으로 판단한다. 이 방식은 세법에서는 거의 작동하지 않는다.
연구진은 "실제 세무 상담 사례를 분석한 결과, 질문과 정답 법조항 간 단어 유사도(0~1 기준)가 0.45 이하인 경우가 전체의 80%에 달했다"고 설명했다. 때문에 기존 검색증강생성(RAG) 시스템은 전혀 관련 없는 문서로 인식할 수밖에 없었던 것이다.
세법 구조를 지하철 노선도로 비유한다면
NOVA는 이러한 문제를 해결하기 위해 세법 전체를 지식 그래프로 재구성하는 방식을 택했다. 연구진은 세법 체계를 지하철 노선도에 비유했다.
지식 그래프에서 각 법 조항은 '역(노드), 조항 간 참조·위임 관계는 '선로(엣지)'로 표현된다. 법률·시행령·시행규칙은 마치 지하철 1·2·3호선처럼 서로 다른 노선으로 작용한다. 수백, 수천 개 조항이 하나로 연결되면서, 세법 전체가 관계 중심의 거대한 지도가 된다.
NOVA는 지도의 내비게이션 역할
NOVA는 이 지도를 기반으로 스마트 내비게이션처럼 경로를 따라가는 탐색 알고리즘을 갖췄다. NOVA는 크게 세 가지 단계로 작동한다.
먼저, 사용자의 질문을 분석해 가장 적절한 출발 법 조항(핀 노드)을 찾는다. 예를 들어 '프리랜서 세금 처리 방법'을 묻는다면 소득세법에서 시작하는 식이다. 그 다음으로 탐색 엔진이 출발 법 조항과 관련된 시행령, 시행규칙을 순차적으로 탐색해 연결된 정보를 수집한다. 마지막으로 이렇게 수집한 정보의 중요도를 평가해, 사용자에게 가장 관련이 있는 답변만 선별해 제공한다.
이를 통해 세무사 시험 세법학 개론 문제에서 NOVA는 86.2점, GPT-4는 24.1점을 받아 약 3.6배의 성능 차이를 보였다. 실제 세무 상담 100건을 대상으로 한 테스트에서도 필수 법조항을 빠짐없이 찾는 재현률은 기존 RAG가 0.27에 머문 반면, NOVA는 0.69로 2.6배 높았다.
세법 AI를 넘어 전문영역 AI로
연구진은 NOVA를 세법이라는 특수한 영역을 대상으로 개발했지만, 원리를 통해 금융 규제, 특허법, 의료보험 약관 등 복잡한 전문영역까지 확장할 수 있다고 설명했다.
최효림 더존비즈온 AI연구소 연구원은 "AI가 세금 문제에 약했던 이유는 단어를 몰라서가 아닌, 법 조항 사이에 숨겨진 연결관계를 보지 못했기 때문"이라면서 "NOVA는 전문가 머릿속에 있던 추론 과정을 눈에 보이는 시스템으로 구현할 수 있다는 가능성을 보여줬다"고 분석했다.
더존 AI연구소를 총괄하고 있는 지용구 더존비즈온 성장전략부문 대표는 이날 기조강연을 통해 "세무사, 공인회계사, 노무사, 관세사 등 전문가들은 스스로 행동하고 학습하는 AI를 통해 더욱 전문가다운 일을 하게 될 것"이라며 "우리가 잘하는 것에 집중하고 나머지는 AI를 도우미로 활용하는 것이 AI 시대의 생존 전략"이라고 강조했다.













