사진=유클리드소프트 제공
사진=유클리드소프트 제공

한국금융경제신문=김가람 기자 | AI 전문기업 유클리드소프트는 2023년 ‘인공지능 학습용 데이터 구축 사업’에 선정돼 ‘한국어 GQA 데이터’를 성공적으로 제출했다고 밝혔다.

과학기술정보통신부가 주관하고, 한국지능정보사회진흥원(NIA)이 추진하는 ‘인공지능 학습용 데이터 구축 사업’은 인공지능 학습용 데이터를 구축해 누구나 활용할 수 있도록 개방함으로써 국가 AI 산업의 생태계 조성에 이바지하는 것을 목적으로 하는 사업이다.

유클리드소프트는 서울과학기술대학교 산학협력단, 엠에이치소프트, 써로마인드와 컨소시엄을 구성해 ‘장면 그래프 100,000건’과 ‘질의응답 1,000,000쌍’의 데이터를 구축했다. 이는 일상생활에서 활용되는 객체의 속성, 객체 간의 관계를 표현할 수 있는 Scene Graph 기반의 VQA(Visual Question Answering) 학습데이터이다.

VQA 데이터는 최근 멀티모달 데이터로 확장된 GPT4에서 가장 첫 번째로 성능평가를 진행한 데이터이다. 그 중 GQA는 장면 그래프 기반의 VQA이며, 사실상 업계 표준으로 활용되고 있다.

컨소시엄은 10만 여 장의 국내 일상 장면 이미지를 토대로, 한국적인 객체를 반영했으며 이를 기반으로 한국어적 특성을 투영한 질의응답 데이터를 구축했다. 이는 Supervised Fine-Tuning(SFT)에 활용할 수 있으며, 챗봇, 이미지 검색 등 다양한 애플리케이션과의 접목을 통한 응용 서비스 개발이 이루어질 것으로 전망된다.

유클리드소프트는 2022년 ‘인공지능 학습용 데이터 구축 사업’ 최종 평가에서 우수 등급을 받은 ‘대규모 시각 추론 학습 데이터’ 등 AI 학습 데이터 구축 경험을 다수 보유하고 있으며, 크라우드 소싱 플랫폼 ‘LabelOn’ 등 자체 개발 저작도구와 체계적인 품질 검수를 기반으로 고객들에게 높은 수준의 AI 학습데이터를 제공하고 있다.

유클리드소프트 박주한 대표는 “‘한국어 GQA 데이터’는 객체의 관계를 표현할 수 있는 장면 그래프를 기반으로 한 멀티모달 데이터로, 생성형 멀티모달 AI의 가장 기본이 되는 성능 지표로 활용할 수 있다”면서 “양질의 인공지능 학습용 데이터를 구축하여 국내 생성형 AI 선순환 생태계 조성에 이바지할 것”이라고 말했다.

이 기사를 공유합니다
저작권자 © 한국금융경제신문 무단전재 및 재배포 금지