Sketch2Diagram: 視覚的指示を入力とするダイアグラム生成

Mar 3, 2025·

斉藤いつみ

吉田遥音

坂口慶祐

· 0 min read

Abstract

スケッチ画像を理解してベクター形式のダイアグラムを生成するためのベンチマークデータセットSkeTikZを提案する．SkeTikZは，人手で作成したスケッチ画像とTikZ形式のダイアグラムがペアになった初めてのデータセットである．さらに，画像を理解してベクター形式のダイアグラムを生成可能なマルチモーダルモデルImgTikZを提案する．ImgTikZは，コード生成に特化した大規模言語モデルと画像エンコーダを活用したモデルであり，実験によって7B規模のモデルサイズながらGPT-4oに匹敵するダイアグラム生成能力を有することを確認した．また，スケッチ作成のツールによって画像認識の難易度が大きく変わることを確認した．

Type

Conference paper

Publication

In 言語処理学会第31回年次大会

Last updated on Mar 3, 2025

Diagram

← ASCII Challenge ---LLMは画家になれるか--- Mar 3, 2025

ダイアグラム理解に向けた大規模視覚言語モデルの内部表現の分析 Mar 3, 2025 →