“SK텔레콤이 인공지능(AI) 모델 개발에서 가장 중요하게 생각하는 일은 양질의 데이터를 모으는 것입니다. 최근 ‘네이처(Nature)’는 AI 모델이 생성한 데이터를 다른 AI 모델이 학습하는 일이 반복되면, 차츰 데이터의 다양성이 없어지고 모델이 붕괴한다는 내용을 발표했는데, 비전AI에서도 마찬가지입니다. 영상에 눈에 보이지 않는 노이즈를 삽입하면 데이터 결과가 완전히 오인되며, 의도적으로 삽입한 워터마크가 강제로 무력화되기도 합니다.”
SK텔레콤의 비전R&D를 이끄는 양승지 담당(부사장)은 5일 서울 중구 웨스틴조선호텔에서 열린 ‘스마트클라우드쇼 2024′에서 ‘기업 스케일의 비전 AI 기술 - 문제와 기회의 간격’이라는 주제로 강연하며 이같이 말했다. 양 담당은 “거대언어모델(LLM)의 본질은 어떤 데이터가 많은 지에 집중돼 있다. 어떤 특성을 갖고 있는지는 간과된다”며 “이런 부분들 때문에 상용화되면서 문제가 발생하는 것”이라고 했다.
그러면서 “2년 전 벤처비트 자료에 따르면 80%의 엔터프라이즈 AI 솔루션은 실패한다. 그런데 2년이 지난 지금도 여전히 80%가 실패하고 있다”며 “실제 현장은 전혀 예측할 수 없기 때문”이라고 말했다. 예컨대 CCTV 영상에 거미줄이 등장하면 이를 사람으로 오인할 수 있다는 것이다. 이 같은 데이터는 기존의 학습 데이터에 포함돼 있지도 않고 만들어내기도 어려움이 있다는 것이 양 담당의 설명이다.
그는 “가정했던 상황이 바뀌거나 새 컨셉트가 끊임없이 나오기 때문에 AI 성능은 시간이 지날수록 정확도가 떨어질 수 밖에 없다”며 “얼마나 많은 데이터로 얼마나 오래 학습해야 되는지 아직 잘 모르기 때문에 여전히 시행착오를 겪고 있다”고 했다. 그렇기 때문에 양질의 데이터를 확보하는 일이 중요하다는 것이다. 데이터를 쉽게 얻을 수 없는 경우 영상을 생성해서 학습시키는 방법도 사용한다.
양 담당은 비용 감축에도 노력을 기울이고 있다고 밝혔다. 그는 “영상 데이터는 비용 민감도가 높아서 비용 감축 방안을 일찍부터 고민해왔다”며 “2014년 딥러닝을 개발하기 시작해 2016년 상용화할 무렵, 엔비디아에 비용을 줄일 방법이 있는지 문의했다”고 했다. 그러면서 “텐서RT라는 솔루션을 소개받아 비용 문제를 해결했고, 클라우드와 비교해 100분의 1 정도 크기의 모델로 동일한 정확도를 달성했다”고 전했다.
또 “엣지 컴퓨팅의 컴퓨팅 파워가 제한적이기 때문에 엣지와 클라우드 간의 균형을 지속적으로 맞춰야 하며, 균형을 맞추더라도 AI 시스템을 지속적으로 개선해야 한다. AI 모델이 배포된 후에도 지속적으로 데이터를 수집해 어떤 부분에서 약점이 있는지를 분석하고 있다”고 덧붙였다.