疑問

  • 上場企業について、ROEとかPERとか時価総額の平均はしばしば見かけるが定性的な情報の平均はあまり見かけない。
  • 例えば有価証券報告書に「事業の内容」という記載項目があるが上場企業全体の平均をとるとどんな内容になるだろうか。

調査方法

  • Edinetにおいて2022年1月1日から2022年10月27日に提出された国内の企業(投資信託除く)の有価証券報告書を取得する。
  • 有価証券報告書のうちの「事業の内容」の文章を取り出す。
  • 取り出した文章ひとつづつについてJumanを使って形態素解析(単語や品詞ごとに分割)する。
  • 全ての企業の「事業の内容」を解析した結果から、個々の「事業の内容」についてベクトルを作成する(PythonのScikit-learnを使用)
  • 全ての企業の「事業の内容」ベクトルの平均から個々のベクトルとのコサイン類似度を計算し最も平均に近い「事業の内容」を探す。
  • なお、形態素解析にあたっては画像は無視したほか、数字と、改行やタブなどの特殊文字列は除外し、長すぎる文章についても解析できないため5000文字以上になる部分はベクトル作成対象外とした。
  • また、ベクトル作成の際には解析後に1文字になる単語は無視したほか、inverse document frequency(≒単語のレア度)は考慮しないこととした。

調査結果



  • 有価証券報告書の「事業の内容」作成時には石油資源開発を参考にしてはいかがだろうか。
  • チャート:「事業の内容」文字数の分布
  • チャート:「事業の内容」コサイン類似度の分布


コメント

このブログの人気の投稿

ETFで1年以内に億り人になろう

ボラティリティの変化とオプションの値段

VIXに関して、implied volatility (VVIX)とrealized volatilityの関係