疑問 上場企業について、ROEとかPERとか時価総額の平均はしばしば見かけるが定性的な情報の平均はあまり見かけない。 例えば有価証券報告書に「事業の内容」という記載項目があるが上場企業全体の平均をとるとどんな内容になるだろうか。 調査方法 Edinet において2022年1月1日から2022年10月27日に提出された国内の企業(投資信託除く)の有価証券報告書を取得する。 有価証券報告書のうちの「事業の内容」の文章を取り出す。 取り出した文章ひとつづつについて Juman を使って形態素解析(単語や品詞ごとに分割)する。 全ての企業の「事業の内容」を解析した結果から、個々の「事業の内容」についてベクトルを作成する(PythonのScikit-learnを使用) 全ての企業の「事業の内容」ベクトルの平均から個々のベクトルとのコサイン類似度を計算し最も平均に近い「事業の内容」を探す。 なお、形態素解析にあたっては画像は無視したほか、数字と、改行やタブなどの特殊文字列は除外し、長すぎる文章についても解析できないため5000文字以上になる部分はベクトル作成対象外とした。 また、ベクトル作成の際には解析後に1文字になる単語は無視したほか、inverse document frequency(≒単語のレア度)は考慮しないこととした。 調査結果 2022年1月1日から2022年10月27日の間に提出された国内企業の有価証券報告書は3904件。 全ての有価証券報告書の「事業の内容」を閲覧したところ 文字数に関しては 中央値は938文字 平均値は1,669文字 最少が 株式会社BASE沖縄野球球団 の36文字 最長が 株式会社レナサイエンス の36,891文字 上場企業での最少は 大伸化学株式会社 の58文字 平均文字列ベクトルとのコサイン類似度(0~1、1に近いほど平均文字列に近い)に関しては 中央値は0.65 平均値は0.64 最小が 日本観光ゴルフ株式会社 の0.17 最大が 石油資源開発株式会社 の0.87 上場企業での最小は 株式会社東芝 の0.20 コサイン類似度で見た場合、もっとも平均的な有価証券報告書の「事業の内容」は石油資源開発株式会社という結果になった。 具体的には 下記のような内容 有価証券報告書の「事業の内容」作成時には石油資源開発を参考にしてはいかが...
投稿
ラベル(altdata)が付いた投稿を表示しています
今年夏の京都は数年ぶりの人混みが予想されるでしょう
- リンクを取得
- ×
- メール
- 他のアプリ
問題意識 来月から外国人観光客受け入れ再開 ということなので都道府県別データからいろいろ調べてみた。 観光客データとしては 観光庁が提供している統計 から、コロナの影響のない2019年の数字を使用した。 都道府県別人口データとしては 総務省提供の統計 から2020年の数字を使用した。 調査結果 人口と宿泊者数 全体として人口が多い都道府県は宿泊者(訪問者)も多いが地域によって傾向はばらついている。 散布図の左上は人口比で宿泊者が多い都道府県になる。やはり沖縄、京都、北海道が集客力が強い。 右下は逆に人口比で宿泊者が少ない都道府県で、他県や他国からみて魅力の低い都道府県になる。巷間取りざたされるよう埼玉、茨城の不人気が目立つ。 東京は人口も多ければ宿泊者も多い。 人口当たりの宿泊者数と外国人比率 次に人口当たりの宿泊者数を見てみた。 想像されるとおり沖縄と京都が強く、沖縄にいたっては住民一人につき20人以上が宿泊している。 沖縄と京都は海外からの訪問も多く、宿泊者のうちそれぞれ4分の1、3分の1程度が海外からきている。 ここでも埼玉の不人気ぶりが圧倒的で、人口一人当たりの宿泊者が1人を割っているのは唯一埼玉のみ。 外国人宿泊者の少なさでは埼玉と茨城が際立っている。あとは山口県も結構な少なさ。獺祭とか海外で有名と聞いたのだけど。 山梨、長野、石川が北海道よりも上位に来ているのが意外なところ。 山梨は外国人宿泊客も多く富士山の効果だろうか。富士山を分け合う静岡とはかなり差がある。分母の人口の違いのせいか。 人口当たりの宿泊者数と目的 宿泊者の目的別に人口当たりの数字を見た。 沖縄、京都、山梨、長野はじめ上位県は観光目的の宿泊が過半を占めている。 福島が人口当たりの宿泊者で上位に来ているがここは観光よりもビジネス目的での訪問が多い。 東京、宮城、福岡のビジネス客の多さは想像できるところ。 やはり埼玉は観光目的の少なさが際立っている。 宿泊目的と国籍によるマトリックス 最後に、これまでに見た宿泊者の目的、国籍、サイズを一つのグラフにまとめた。 日本における外国人観光客の目的地といえば圧倒的に京都ということがよくわかる。 これから夏に向けて京都は例年以上の熱さとなるでしょう。