Sketch2Diagram: 視覚的指示を入力とするダイアグラム生成

Mar 3, 2025·
斉藤 いつみ
,
吉田 遥音
,
坂口 慶祐
· 0 min read
Abstract
スケッチ画像を理解してベクター形式のダイアグラムを生成するためのベンチマークデータセットSkeTikZを提案する.SkeTikZは,人手で作成したスケッチ画像とTikZ形式のダイアグラムがペアになった初めてのデータセットである.さらに,画像を理解してベクター形式のダイアグラムを生成可能なマルチモーダルモデルImgTikZを提案する.ImgTikZは,コード生成に特化した大規模言語モデルと画像エンコーダを活用したモデルであり,実験によって7B規模のモデルサイズながらGPT-4oに匹敵するダイアグラム生成能力を有することを確認した.また,スケッチ作成のツールによって画像認識の難易度が大きく変わることを確認した.
Type
Publication
In 言語処理学会第31回年次大会