스프레드 시트를 해석하고 생성하고 질문에 답하는 LLM

스프레드시트LLM 소개

마이크로소프트는 대형언어모델(LLM)의 기능을 통해 스프레드시트의 기능을 향상시키는 새로운 AI 모델인 “스프레드시트LLM”을 선보였습니다. 이 모델은 AI가 이전에는 스프레드시트의 구조적 및 수식 콘텐츠를 이해하는 데 어려움을 겪었던 문제를 해결합니다.

 기술적 개요

스프레드시트LLM은 스프레드시트 데이터를 LLM이 이해할 수 있는 형식으로 인코딩하여, AI가 스프레드시트 데이터를 해석하고, 데이터 관련 질문에 답하며, 자연어 프롬프트를 기반으로 새로운 스프레드시트를 생성할 수 있게 합니다.

위 도표는 “SheetCompressor” 프레임워크를 설명하고 있습니다. 이 프레임워크는 스프레드시트 데이터의 효율적인 인코딩 및 압축 과정을 보여줍니다. 각 부분을 구체적으로 살펴보겠습니다:

  1. 구조적 앵커 기반 추출 (Structural-anchor-based Extraction):

    • 초기 스프레드시트(a)는 많은 데이터 항목과 계층적 헤더를 포함하고 있습니다. 이 예에서는 576행과 23열을 가지고 있습니다.
    • 구조적 앵커를 사용하여 불필요한 행과 열을 제거하고 데이터를 재구성합니다(b). 이 과정에서 24×8 크기의 더 작은 스프레드시트로 변환됩니다.
    • 최종 인코딩 과정에서는 스프레드시트를 토큰 형태로 변환하며, 초기 61,240개 토큰에서 최종적으로 708개 토큰만을 사용하여 표현합니다.
  2. 역색인 번역 (Inverted-index Translation):

    • 데이터를 더 효과적으로 표현하기 위해 역색인 번역 방식을 사용합니다. 이는 데이터의 위치 정보를 간결하게 만듦으로써 인코딩을 최적화합니다.
    • 예를 들어, ‘Sub Region’이 ‘A1’, ‘F1’ 위치에 관련된 데이터를 나타내고 있습니다.
  3. 데이터 형식 인식 집계 (Data-format-aware Aggregation):

    • 데이터 형식을 인식하여 관련 데이터를 집계하고, 스프레드시트를 더욱 압축된 형태로 재구성합니다.
    • 이 절차는 데이터의 유형과 형식에 따라 다르게 처리되며, 최종적으로 필요한 정보만을 포함하게 됩니다.

실제로 스프레드시트LLM은 데이터 정리, 서식 지정, 요약과 같은 지루하고 시간이 많이 소요되는 작업을 자동화하고  복잡한 공식이나 프로그래밍 언어 대신 간단한 영어를 사용하여 스프레드시트 데이터와 상호작용할 수 있습니다.

스프레드시트LLM의 영향은 비즈니스와 재무 분야에서 특히 중요합니다. 재무 시스템에서 데이터를 직접 가져와 차이를 분석하고, 데이터 수집을 자동화하며, 모니터링을 지원하는 등의 기능을 통합한 도구들이 이미 선보여져 있습니다.

<이하 광고>

© 2023 나의 웹 페이지