데이터 품질 검사로 생성형 AI 유해성 문제와 환경 문제 해결
[편집자 주] AI TOP는 한국 AI 산업 발전을 이끄는 리더들의 진솔한 이야기를 전하는 기획입니다. AI TOP에는 국내 공신력 있는 AI 협회인 한국인공지능산업협회가 선정한 ‘2024 Emerging AI+X Top 100’ 기업들의 이야기를 전합니다. 독자 여러분의 많은 관심 부탁드립니다.
인공지능(AI)이 빠르게 발전하면서 우려 섞인 목소리도 나오고 있다. 기술로 인한 부작용에 대처할 방안을 제대로 마련하지 않은 상황에서 AI가 빠르게 보급되면서 사회적 문제를 양산할 수 있어서다. 실제로 AI는 할루시네이션(환각), 보안, 환경 등 다양한 문제를 안고 있다. 생성형 AI가 내놓는 글이 윤리적이지 않거나 사실과 다른 정보인 사례가 많고, 학습과 연산에 많은 전기를 사용해 상당한 양의 탄소를 배출하고 있다. 불순하거나 성희롱적인 글이나 이미지를 만드는 등의 악용사례도 나오는 중이다.
AI 부작용을 줄이기 위해 AI 기업은 물론 정부, 국제기구까지 나서고 있다. 이달에는 이와 관련한 논의를 위해 AI 주요국 정상과 국제기구 수장, 빅테크 최고경영자(CEO) 등이 서울에 방문, ‘AI 서울 정상회의’를 개최한다. 이 자리에선 AI 안전과 혁신, 포용성 등을 논의할 예정이다.
AI 부작용에 각국 정상과 국제기구까지 나서는 이유는 단편적으로 해결할 수 있는 문제가 아니어서다. AI가 실제 사용자와 만나는 서비스 접점부터 AI 학습 등에 쓰이는 데이터, AI 모델 구축에 필요한 컴퓨팅 영역까지 노력이 병행돼야 하고, 여기에 기준점이 될 정책과 표준 등을 각 국가가 합심해 만들어야 한다. 이 과정에서 AI 원료라 불리는 데이터 영역에서 역할을 해주는 국내 기업이 있다. 바로 비투엔이다.
비투엔은 2004년 데이터 설계와 컨설팅 업체로 출발, 지금은 AI 원료가 되는 빅데이터의 품질 관리 등을 지원하는 업체다. AI 학습 데이터 품질부터 라벨링하는 플랫폼, 메타 데이터 관리 솔루션 등을 종합적으로 점검, 관리해준다. 이를 토대로 데이터 문제로 발생하는 AI 신뢰성 문제, 중복 데이터로 인한 환경 문제 등을 해결하고 있다. 쉽게 말해 AI의 기본 원료가 되는 데이터 상태를 점검하고 품질을 높이면서 데이터 문제로 발생할 AI 부작용을 줄이는 역할을 하고 있다고 보면 된다. 자동차가 움직일 때 연료 문제로 고장이나 화재가 발생하지 않도록 연료 점검을 하듯, AI를 개발하고 활용하는 단계에서 문제가 생기지 않도록 조치해준다고 볼 수 있다. 최근 의료나 법률, 제조 등 특정 도메인에서 데이터 점검과 관리를 해주는 곳은 있지만, 종합적인 데이터를 관리할 수 있는 곳은 몇 없다. 그중 한 곳이 비투엔이다.
박순혁 비투엔 DIX그룹 이사는 데이터 관리만으로 AI 부작용 문제를 줄일 수 있다고 설명한다. 데이터 중복을 최소화하면 컴퓨팅 자원 낭비를 막을 수 있어 전력을 아낄 수 있고, 편향되거나 유해한 데이터를 사전에 없애면 생성형 AI가 윤리에 어긋난 답변을 할 가능성을 줄일 수 있다고 밝혔다. 이를 위해 비투엔은 현재 유해 데이터 검증 분야까지 사업을 확대하고 있다고 했다. 박 이사는 “최근 AI가 대형언어모델(LLM) 기반 생성형 분야에 무게가 실리다 보니 신뢰성 문제가 계속 거론되고 있다”면서 “학습데이터의 신뢰성 검증부터 AI 모델을 구축 후 개방하기 전 모델에 관한 신뢰성 검증까지 시행해 안전한 AI 활용에 기여하겠다”고 말했다. 이달 열리는 AI 서울 정상회의에 앞서 데이터 분야에서 안전한 AI 활용을 이끄는 비투엔의 박순혁 이사를 만나 자세한 얘기를 나눠봤다.
- 데이터 품질 관리는 왜 필요할까.
“과거부터 데이터 품질 문제는 계속 거론됐다. 특히 빅데이터란 개념이 나오면서 품질 문제는 커졌다. 일례로 사람이 볼 수 있는 빙산의 모습은 일부인 것처럼, 데이터도 80%는 사용하지 못하고 20%만 쓸 수 있다는 얘기가 있다. 데이터를 일단 쌓아놓긴 했는데 품질이 낮거나 중복된 것이 많으면서 쓸 수 없는 데이터가 많았다. 빅데이터란 개념이 꽤 오래전에 등장했어도 이를 제대로 분석해 활용한 것은 5~6년 정도밖에 되지 않았다. 이러한 문제로 정부에서는 공공 데이터 품질 수준 평가를 진행하기도 했다. 데이터 품질 관리를 하는 이유는 이러한 데이터를 잘 활용하기 위해서다. 앞으로 AI가 발전하고, LLM 기반 생성형 AI 모델이 지속 나오면서 데이터 품질 이슈는 계속 중요해질 것이다. 정부에서 3곳의 민간 평가 기관을 마련한 것도 이 때문이다.”
- AI 경쟁력을 보유하기 위해 정부가 공공 데이터를 민간에 개방하는 등의 활동이 이어지고 있다. 여기서도 품질 검사가 중요할 것 같다.
“공공이 가진 데이터를 개방하는 이유는 민간 생태계 활성화를 위해서다. AI 학습데이터도 스타트업이나 연구소, 대학 등이 이를 토대로 AI 모델을 만들고 특정 서비스를 제공하거나 AI 관련 선행 연구를 하기 위함이다. 결국 데이터 공개는 활용에 목적을 두고 있다. 그리고 활용을 제대로 하기 위해선 품질이 중요하다. 2010년만 해도 데이터가 모이고만 있었다. 이 데이터를 공공에서 개방하고 관련한 민간 서비스가 나오고 있다. 최근엔 아예 정부가 돈을 들여 민간 서비스를 활성화하기 위한 활동을 하고 있다. 이 과정에서 데이터 품질은 빠지면 안 되는 요소다.”
- 정부에서 데이터 구축 사업 등도 진행했었다. 이 과정에서 품질 문제도 거론됐을 것 같은데.
“맞다. AI 학습용 데이터 구축 사업은 사업 기간이 상당히 짧다 보니 기업들이 데이터 구축에 시간적 압박을 많이 받았다. 자체적으로 품질 관리를 해야 하지만 시간 문제 등으로 어려워했다. 그래서 우리 같은 전문 기관이 데이터 품질을 검사해주는 도구를 만들어 지원하고, 혹여나 최종 품질 검사에 탈락한 기업이 있으면 검증해 품질을 높여주는 활동을 했었다. 데이터 구축이라는 것이 막연히 쌓기만 해서는 안 되고 제대로 쓸 수 있는 데이터를 모아야 하므로 품질 검사나 검증 등에 관한 니즈가 있었다.”
- 최근 생성형 AI 모델이 경쟁적으로 등장하고 있다. 그런데 일부 모델에선 윤리에 어긋난 답변이 나오기도 한다. 이 문제를 데이터 관리로 풀어갈 수 있나.
“그렇다. 지금도 말뭉치 데이터에 관한 유해성 검사를 하게 되면 상당수가 많이 걸린다. 한 가지 사례로 개방된 여러 소스의 데이터들을 샘플링 해 검사하면 유해성이 담긴 데이터가 존재한다. 이러한 유해 데이터를 걸러내면 생성형 AI 활용에 있어서 안전성을 높일 수 있다. 이미 LLM을 만드는 기업과 이를 기반으로 AI를 제공하는 기업들은 유해성 문제 등을 줄이기 위해 데이터 품질 향상에 노력을 기울이고 있다.”
- 생성형 AI 발전으로 업무를 지원하는 ‘코파일럿’ 개념이 등장했다. 데이터 품질 쪽으로도 코파일럿을 준비할 생각이 없나.
“코파일럿은 AI 비서처럼 사용자의 업무를 AI가 보조하고 지원하는 것을 뜻한다. 실제 사람이 수동으로 하는 업무는 AI에 맡기고 더 생산적인 일에 집중할 수 있게 보조하는 AI 도구라고 볼 수 있다. 우리도 생성형 AI 기반으로 데이터 품질이나 데이터 표준화의 수동 작업을 AI가 지원하는 도구를 준비하고 있다. AI를 토대로 검증한 데이터 품질은 어느 정도 보장할 수 있는 시스템을 구축할 예정이다. 이 검증을 마치면 누가 사용하더라도 어느 정도 비슷한 수준의 품질은 보장받을 수 있으니 AI의 안전한 활용에도 도움이 될 것이라 본다. 해당 제품은 올해 출시를 목표로 준비하고 있다.”
- 데이터 단에서 안전한 AI 활용을 돕고 있다고 평가된다.
“우리는 데이터 측면에서 AI 활용에 기여하는 사업 전략을 펴고 있다. 지금 AI는 대부분이 서비스 단과 엔드유저 단을 보고 있다. 사실 데이터 단은 스마트하지 않은 업무다. 상당히 세부적이면서 수동적인 노동 작업도 필요하다. 노하우도 필요해 자동화 로봇들이 대체하기도 어려운 영역이다. 이 부분에 있어서 AI 구시대라고 볼 수 있다. 누군가는 AI 신세대를 개척하고 있지만, 우리는 구시대에서 신시대를 지원하는 역할을 하고 있다. 그런데 누군가는 이 일을 해야 한다. 연료가 있어야 자동차가 진화하고 비행기가 날고 우주선을 타고 우주에 갈 수 있는 것처럼, 안전하고 높은 품질의 데이터가 있어야 AI가 계속 발전할 수 있다. 우리는 이러한 신시대 AI 발전을 지원할 수 있는 데이터 품질 영역에 집중하는 것이 아직 맞다고 생각하고 있고, 이 과정을 토대로 안전한 AI 활용 역시 지원하고 있다.”
- 데이터 품질 검사를 통해 중복된 데이터도 줄일 수 있을 것으로 본다. 그렇게 된다면 컴퓨팅 사용량을 줄여 환경에도 기여할 수 있을 것 같은데.
“학습데이터가 많으면 그만큼 전력을 많이 사용하게 된다. 지금은 LLM처럼 모델이 커지고 있고 여기에 학습되는 데이터가 많다. 그만큼 전기는 더 들게 된다. 그런데 사실 AI 모델에는 중복된 데이터가 많다. 빅데이터 중에서 굳이 없어도 되는 데이터도 있다. 이러한 데이터를 줄여주면 전력량이 줄어 AI 학습으로 인한 탄소배출 감소에도 기여할 수 있다.”
- 한국 AI 경쟁력을 높이기 위한 다양한 시도가 이뤄지고 있다. 기업 입장에서 어떤 점이 필요하다고 보나.
“최근 생성형 AI에 관한 관심이 높다. 그런데 사실 작은 기업이 LLM 기반 생성형 AI를 만든다고 하면 투자 비용이 상당히 든다. 서버 자원이 부족하기 때문이다. 이를 위해 정부에서 중소기업 위주로 공용 클라우드를 대여해 주는 지원이 있었으면 한다. 초거대 AI는 기업들이 다 만들 수 있는 것도 아니고 정부도 만들어 줄 수 있는 것도 아니다. 결국 몇 개의 대기업 중심으로 만들어질 것이고, 이를 사용하는 생태계가 마련될 것이다. 밑바닥에서도 이를 할 수 있는 환경을 지원해줬으면 좋겠다. 지금 바우처와 같은 지원이 있지만 작은 수준이다. 이런 지원이 있으면 중소기업이나 스타트업도 AI에 힘을 쓸 수 있을 것으로 본다.”
- 앞으로 비투엔의 계획이 궁금하다.
“우리는 기업간거래(B2B) 사업을 주로 하다 보니 이 시장에서 데이터 기반 지원할 수 있는 영역을 지속 찾고 있다. 기업들이 데이터를 활용할 때 안정적인 품질을 제공하면서도 우리도 수익을 창출할 수 있는 서비스 모델을 고민 중이다. 실제로 연구개발(R&D) 하는 사업들이 많고, 여기서 나온 결과물들을 온프레미스나 클라우드로 제공하고자 한다. 지금은 생성형 AI가 이슈이다 보니 이 사업에 집중하는 시기가 될 것 같다. 트렌드를 놓치면 따라가는 비용이 더 들기 때문에 현재 AI 시장을 예의주시하면서 R&D를 하고 있다.”
* 기사 링크 : https://digitalchosun.dizzo.com/site/data/html_dir/2024/05/14/2024051480092.html