投稿

10月, 2022の投稿を表示しています
イメージ
 疑問 上場企業について、ROEとかPERとか時価総額の平均はしばしば見かけるが定性的な情報の平均はあまり見かけない。 例えば有価証券報告書に「事業の内容」という記載項目があるが上場企業全体の平均をとるとどんな内容になるだろうか。 調査方法 Edinet において2022年1月1日から2022年10月27日に提出された国内の企業(投資信託除く)の有価証券報告書を取得する。 有価証券報告書のうちの「事業の内容」の文章を取り出す。 取り出した文章ひとつづつについて Juman を使って形態素解析(単語や品詞ごとに分割)する。 全ての企業の「事業の内容」を解析した結果から、個々の「事業の内容」についてベクトルを作成する(PythonのScikit-learnを使用) 全ての企業の「事業の内容」ベクトルの平均から個々のベクトルとのコサイン類似度を計算し最も平均に近い「事業の内容」を探す。 なお、形態素解析にあたっては画像は無視したほか、数字と、改行やタブなどの特殊文字列は除外し、長すぎる文章についても解析できないため5000文字以上になる部分はベクトル作成対象外とした。 また、ベクトル作成の際には解析後に1文字になる単語は無視したほか、inverse document frequency(≒単語のレア度)は考慮しないこととした。 調査結果 2022年1月1日から2022年10月27日の間に提出された国内企業の有価証券報告書は3904件。 全ての有価証券報告書の「事業の内容」を閲覧したところ 文字数に関しては 中央値は938文字 平均値は1,669文字 最少が 株式会社BASE沖縄野球球団 の36文字 最長が 株式会社レナサイエンス の36,891文字 上場企業での最少は 大伸化学株式会社 の58文字 平均文字列ベクトルとのコサイン類似度(0~1、1に近いほど平均文字列に近い)に関しては 中央値は0.65 平均値は0.64 最小が 日本観光ゴルフ株式会社 の0.17 最大が 石油資源開発株式会社 の0.87 上場企業での最小は 株式会社東芝 の0.20 コサイン類似度で見た場合、もっとも平均的な有価証券報告書の「事業の内容」は石油資源開発株式会社という結果になった。 具体的には 下記のような内容 有価証券報告書の「事業の内容」作成時には石油資源開発を参考にしてはいかが...