IPO文書のセクション構造分析のためのツールキットとデータセット

IPO-Mine: A Toolkit and Dataset for Section-Structured Analysis of Long, Multimodal IPO Documents

IPO文書の解析を支援するツールを提案

2026-05-27 中級 arXiv
マルチモーダルベンチマーク
  • IPO文書は企業の公開に関する重要な情報を含むが、構造が不規則で長大である。
  • 本研究では、IPO文書を標準化されたセクション構造に変換するIPO-Toolkitを提案する。
  • 新たに構築したIPO-Datasetは、実際の規制文書におけるマルチモーダル推論の課題を明らかにする。
IPOマルチモーダルデータセット

IPO文書は企業が公開する際の重要な情報源ですが、その長さや構造の不規則さが解析を難しくしています。本論文では、これらの文書を標準化されたセクション構造に変換するためのIPO-Toolkitを提案し、109,000件以上のIPO文書を含むIPO-Datasetを構築しました。特に、マルチモーダルモデルの評価における専門家との乖離を示す点が新しい発見です。金融市場やデータ解析に興味のある研究者にとって、有用なリソースとなるでしょう。

金融市場やデータ解析に興味がある研究者や実務家に向いています。

IPO-Mine: A Toolkit and Dataset for Section-Structured Analysis of Long, Multimodal IPO Documents
Michael Galarnyk, Siddharth Lohani, Vidhyakshaya Kannan, Sagnik Nandi, Aman Patel, Liqin Ye ほか