“이 사진에 나온 티셔츠와 잘 어울리는 바지를 추천해줘.”
“이미지 속 검은색 티셔츠와 잘 어울리는 바지를 찾으신다면, 어두운 색상의 면 또는 폴리 혼방 소재의 바지를 선택하세요.”
멀티모달(시각·청각 등 다양한 감각을 통해 정보를 주고받는 것) 인공지능(AI) 플랫폼에 검은색 티셔츠 이미지와 함께 위와 같은 명령어를 입력하니 아래 답이 나왔다. 이는 카카오엔터프라이즈가 진행한 한국어 LLaVA(대형 언어 및 시각 복합 모델) 실험 결과다. LLaVA는 시각 인코더와 대규모언어모델(LLM)을 연결해 시각 및 언어 이해를 가능케한 모델로, 카카오클라우드는 이를 타깃 모델로 잡고 한국어 학습 실험에 나섰다. 카카오클라우드는 AI 주요 연구 영역인 비전, 자연어 처리, 음성 부문에서 다양한 모델을 개발해 API(응용프로그램 인터페이스) 형태로 제공하고 있다.
전재진 카카오엔터프라이즈 클라우드서비스개발실 클라우드 AI/ML 기술개발 리더는 21일 서울 소공동 웨스틴조선호텔에서 열린 국내 최대 테크 콘퍼런스 ‘스마트클라우드쇼 2023’에서 “AI를 개발하기 위해서는 GPU(그래픽처리장치) 서버뿐만 아니라 컴퓨팅, 네트워킹, 스토리지에 대한 깊은 연구가 필요하다”며 “카카오는 단순히 기업과 연구소 등에 플랫폼을 제공하는 것 뿐 아니라 사용성을 명확하게 확인하기 위해 한국어 학습을 포함한 다양한 모델링을 진행하고 있다”고 말했다.
전 리더는 “AI 관련 언어 모델 학습에서 가장 어려운 점은 한국어 데이터가 적다는 점”이라며 “이에 카카오는 오픈 모델을 활용해 LLaVA에서 한국어 학습을 진행했다”고 말했다. 첫 실험 결과 사용자가 이미지와 명령어를 제시하고 간단한 답변을 받는 데엔 문제가 없었으나, AI가 이미지에 나타난 한글이나 국내 장소는 제대로 인식하지 못했다고 한다.
전 리더는 “한국어를 잘 인식하는 모델을 만들기 위해 20억장에 이르는 다국어 데이터 중 한국어 비율 50% 이상, 250음절 이내 길이의 데이터를 뽑아 추가 모델링 실험을 진행했다”며 “여기에 한국 이미지를 추가로 제공해 사전 학습과 파인튠 과정을 거쳐 한국어로 훨씬 자세한 이미지 기반 정보를 얻을 수 있었다”고 설명했다.
전 리더는 “이처럼 LLM 모델뿐 아니라 멀티모달 모델의 중요성이 점점 더 커지고 있는데, 카카오 클라우드는 이런 멀티모달을 개발한 경험이 충분하다”며 카카오 클라우드의 강점으로 효율적 학습 환경 관리, AI 모델 개발 및 배포 파이프라인, 동적 자원 할당 및 대규모 분산학습 지원을 꼽았다. 그는 “카카오 클라우드 머신 러닝은 실시간 스케일 인·아웃으로 유연한 개발 환경을 제공하고, AI 프레임워크를 통해 빠르게 모델을 검증할 수 있다”며 “카카오 클라우드의 숱한 경험을 토대로 외부 기관, 회사 등과 협업을 지속해 좋은 모델을 개발할 수 있도록 계속 노력하겠다”고 말했다.