Abstract
スケッチ画像を理解してベクター形式のダイアグラムを生成するためのベンチマークデータセットSkeTikZを提案する.SkeTikZは,人手で作成したスケッチ画像とTikZ形式のダイアグラムがペアになった初めてのデータセットである.さらに,画像を理解してベクター形式のダイアグラムを生成可能なマルチモーダルモデルImgTikZを提案する.ImgTikZは,コード生成に特化した大規模言語モデルと画像エンコーダを活用したモデルであり,実験によって7B規模のモデルサイズながらGPT-4oに匹敵するダイアグラム生成能力を有することを確認した.また,スケッチ作成のツールによって画像認識の難易度が大きく変わることを確認した.
Type
Publication
In 言語処理学会第31回年次大会