Haruto Yoshida

Avatar of Haruto Yoshida

Graduate School of Information Sciences, Tohoku University

PhD student (first year)

I am interested in natural language processing and multimodal AI. In particular, I am conducting research that analyzes how vision-language models represent and understand the attributes and structures of diagrams.

Education

Publications

Conference (Peer Reviewed)

  • Ryosuke Matsuda, Keito Kudo, Haruto Yoshida, Nobuyuki Shimizu, Jun Suzuki. SLVMEval: Synthetic Meta Evaluation Benchmark for Text-to-Long Video Generation. Proceedings of IEEE/CVF Conference on Computer Vision and Pattern Recognition 2026 (CVPR 2026). 2026.

  • Itsumi Saito, Haruto Yoshida, Keisuke Sakaguchi. Sketch2Diagram: Generating Vector Diagrams from Hand-Drawn Sketches. Proceedings of the Thirteenth International Conference on Learning Representations (ICLR 2025). 2025.

Workshop (Peer Reviewed)

  • Haruto Yoshida, Keito Kudo, Yoichi Aoki, Ryota Tanaka, Itsumi Saito, Keisuke Sakaguchi, Kentaro Inui. How Well Do Vision Models Encode Diagram Attributes?. Proceedings of the 62nd Annual Meeting of the Association for Computational Linguistics (Volume 4: Student Research Workshop). 2024.

Conference (Not Peer Reviewed)

  • 吉田 遥音, 工藤 慧音, 青木 洋一, 田中 涼太, 斉藤 いつみ, 坂口 慶祐, 乾 健太郎. 大規模視覚言語モデル内部におけるダイアグラムの表現形成過程. 言語処理学会第32回年次大会(NLP2026). 2026.

  • 松田 陵佑, 工藤 慧音, 吉田 遥音, 清水 伸幸, 鈴木 潤. 長尺動画生成タスクにおけるメタ評価ベンチマーク. 言語処理学会第32回年次大会(NLP2026). 2026.

  • 猪股 和樹, 吉田 遥音, 塩野 大輝, 赤間 怜奈, 坂口 慶祐. JCuisines: 日本の地域文化の理解にむけた郷土料理視覚言語ベンチマーク. 言語処理学会第32回年次大会(NLP2026). 2026.

  • 吉田 遥音, 工藤 慧音, 青木 洋一, 田中 涼太, 斉藤 いつみ, 坂口 慶祐, 乾 健太郎. ダイアグラム理解に向けた大規模視覚言語モデルの内部表現の分析. 言語処理学会第31回年次大会(NLP2025). 2025.

  • 吉田 遥音, 羽根田 賢和, 斉藤 いつみ, 坂口 慶祐. ASCII Challenge -LLMは画家になれるか-. 言語処理学会第31回年次大会(NLP2025). 2025.

  • 斉藤 いつみ, 吉田 遥音, 坂口 慶祐. Sketch2Diagram: 視覚的指示を入力とするダイアグラム生成. 言語処理学会第31回年次大会(NLP2025). 2025.

  • 本田 恭平, 松﨑 孝介, 吉田 遥音, 坂口 慶祐. 認知言語学的イメージスキーマの生成と解釈における大規模言語モデルと画像生成モデルの評価. 言語処理学会第31回年次大会(NLP2025). 2025.

  • 吉田 遥音, 工藤 慧音, 青木 洋一, 田中 涼太, 斉藤 いつみ, 坂口 慶祐, 乾 健太郎. 自然画像で学習された画像埋め込みにダイアグラムを特徴づける情報は含まれているか?. 言語処理学会第30回年次大会(NLP2024). 2024.

Preprint

  • Haruto Yoshida, Keito Kudo, Yoichi Aoki, Ryota Tanaka, Itsumi Saito, Keisuke Sakaguchi, Kentaro Inui. Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models. arXiv. 2026.

Awards

  • 2026-03: Excellence Award, The 32nd Annual Meeting of the Language Processing Society of Japan (NLP2026), Award rate: 13/789 = 1.6%

  • 2026-03: Graduate School of Information Sciences Dean’s Award, Graduate School of Information Sciences, Tohoku University

  • 2025-03: Young Researcher Encouragement Award, The 31st Annual Meeting of the Language Processing Society of Japan (NLP2025), Award rate: 20/487 = 4.1%

  • 2024-03: School of Engineering Dean’s Award, School of Engineering, Tohoku University, Award rate: 26/828 = 3.1%

  • 2023-08: Encouragement Award, The 18th Symposium of Young Researcher Association for NLP Studies (YANS), Award rate: 23/187 = 12%

Career

  • 2024-10 - Present: Future Corporation, NLP Engineer, Part-time

  • 2024-10 - 2024-10: PKSHA Technology, Algorithm Engineer, Internship

  • 2024-08 - 2024-09: Future Corporation, NLP Engineer, Internship