Research on understanding and generating diagrams has used vision models such as CLIP. However, it remains unclear whether these models accurately identify diagram attributes, such as node colors and shapes, along with edge colors and connection patterns. This study evaluates how well vision models recognize the diagram attributes by probing the model and retrieving diagrams using text queries. Experimental results showed that while vision models can recognize differences in node colors, shapes, and edge colors, they struggle to identify differences in edge connection patterns that play a pivotal role in the semantics of diagrams. Moreover, we revealed inadequate alignment between diagram attributes and language representations in the embedding space.
Jul 24, 2024
ダイアグラムの意味やデザインを考慮して分類や検索,評価を行うための道具として,画像埋め込みがある.しかし,既存の事前学習済み画像モデルから得られる埋め込みに,ダイアグラムを特徴づける情報が十分に含まれているかは明らかでない.本研究では,エッジの向きやノードの形といった要素が異なるダイアグラムの埋め込み分布を比較し,事前学習済みモデルから得られる画像埋め込みがダイアグラムを特徴づける情報を含んでいるかを調べた.既存の事前学習済みモデルから得られる埋め込みはダイアグラムを特徴づける情報を十分には含んでいない可能性があり,ダイアグラムを扱うことができるモデルの必要性が示唆された.
Feb 11, 2024