文字の使用頻度の統計情報

ハングマンゲームの政略のご参考に

by Akihiko Koga,   [ Ver. 0.70 (2024.07.17) ]
[ Ver. 0.50 (2024.07.15) ]
ホームページトップへ   ハングマンゲーム集へ

当サイトは Google Analyticsを使用しています.プライバシーポリシー


文字の世界は奥が深いのよね~

目次

目的

ハングマンゲームは,一文字ずつ推測していく単語当てゲームであるから,一般的には多く使われる文字から試してみるのがよい.ということで,いくつかの言語で,文字使用頻度についての統計情報を取ってみた.

英語

Gutenberg のフリーテキストに登録されている次の作品で,アルファベットの文字の出現頻度を調べた.

これらの作品の中での文字の出現頻度を表に示す. 左の3列 Alice, TheWarOfWorld, MobyDick はそれぞれの テキストに出現した各文字の生の回数である.文字は アルファベットだけを数えて,大文字は小文字にして数えている.

それぞれのテキストごとに合計の文字数が異なるために,このまま数値を比較できない.そのため,右の3列は,テキストの全体の文字数が 100,000 文字だった場合の 文字数に正規化してある.つまり,そこに現れる数値は

出現頻度の率 × 100,000
である.パーセンテージを1000倍したものと考えればよい.

この表の右の3列をのグラフを示す.

作品によって微妙な差があるものの,全体の傾向としてはそれほど 変わらない.

次に,これら3作品の文字の出現回数の生の値を合計して,文字の出現頻度の 大きい順に並び変えて,比率の累計を取ったグラフを示す.

このグラフからは次のことが読み取れる.

もちろん,これはある程度大きなテキストの中での各文字の出現頻度であるので, そのままハングマンに適用できるものではない.ハングマンでは,たとえば,長さ5の単語を集めたときの各文字の出現頻度のような値が役に立つだろう.

その近似としては,まず,文章に入っている単語を集めて,各単語1つずつにして,その中の各文字の出現頻度を調べると良いだろう.

目次に戻る

英単語集の中の文字比率

英語のテキストの中の文字の出現比率の調査では,そのテキストの中で,同じ単語が 何度も現れ得る.それに対して,単語を対象としたときのハングマンゲームでは,一つの単語は1つゲームに登録されているだけである.

このように,テキストの中で,複数現れる単語を1つにまとめなおした場合は, また,英文字の出現比率が違うかもしれない.複数現れる単語を1つにまとめなおしたものとしては,英語の単語集がある.したがって,この問は,謂わば,

テキスト本体の文字の出現比率 v.s. 単語集の文字の出現比率
は同じかという問題と言えよう.

一般に,英文テキストの中では定冠詞 the,不定冠詞 a が多く現れるだろう. 一方,単語集には,これらは1つずつしか現れない.ハングマンゲームに至っては, これらをヒント無しで当てさせるのは至難の業なので出ないかもしれない.これらの 多くの出現は,a, e, h, t の出現率を押し上げると予想される.他にもこのように,テキストと単語集で文字の出現率を変えるものがあるかもしれない.

この問は,ハングマンゲームを作っている身としては関心があるのだが, 本格的に調べる気力が起きなかったので,

Alice's Adventures in Wonderland by Lewis Carroll
でだけ調べてみた.厳密に単語を1まとめにするためには,例えば, 動詞の人称変化,時制変化などを同一視することが必要であるが, それには形態素解析などが必要になってくる.ここでは,空白やコンマ,ピリオドなどで単語を切り出して,まったく同じ字面の単語だけを同一視した.

具体的な文字数,単語数などは省略するが,このようにして調べた文字の出現比率の グラフを次に示す.

英語テキスト本体とその単語集の中の文字の出現比率の比較

このグラフから読み取る限り,テキスト本体からでも,その単語集からでも 文字の出現比率にそれほど差はないことが見て取れる.

目立った差は,次のとおりである.

これを踏まえると,単一の単語でハングマンゲームを行った場合は, 文字を次の順序で試していったら良いということが示唆される.
e i n r t s a o l d c u g p h m y f w b k v x q j z

テキスト内の出現頻度では次の通りだった.

e t a o n i s h r l d u m c w g f y p b v k q j x z

目次に戻る

幕間

英語のところで,一気に調べはじめたら疲れてしまいました.ゆっくりやることに します.調べたところから載せます.さらに調べたら,追加してくことにしますので, よろしくお願いします.


ドイツ語

ドイツの文学や書籍については,あまり詳しくないので調査するのに,何を使えばよいのか,何を使えるのかなど,あまり勘が働かない.とりあえず次のものを調べてみた.

このテキストで使用されている文字の出現回数の表を次に示す.

これをグラフにしてみる.

英語との比較のグラフも示す.

ドイツ語テキストにおける文字の出現比率をその出現順に並べて,累計を取ったグラフを示す.

このグラフから次のことが読み取れる.

現時点では,まだ1つのテキストを調べただけなので,これが一般的なドイツ語テキストの傾向なのか,それともこのテキストの個性なのかは分からない.

参考資料

現時点ではきちんと調べたドイツ語のテキストが1件だけなので,大雑把ではあるが,同様のことを調べた別のグラフを載せておく.


事前の感触を見るために行ったドイツ語と英語の文字出現率比較

これは,このページを書く前に,まずは,感触をみるために,ある Wikipedia のページから 37000~38000文字のドイツ語と英語のテキストで文字の出現率を比較してみたものである.比較しやすいように,上の Zauberberg と英語テキストの比較グラフも再度掲載しておく.


Zauberberg と英語テキストの比較グラフ(再掲)

傾向としては,二つのグラフはかなり類似しているように見える.

目次に戻る

ドイツ語単語集の中の文字比率

ドイツ語も,テキストの中に現れる文字の出現率と,それを単語集にしたときの文字の主具現率は異なるかもしれない.

ここでは,上で調べた

について,単語集での文字の出現率を調べ,テキストの中の文字の出現率と比較する. 現状では余力がないので,いまのところこれ一件だけの調査しかしていない.

その比較のグラフを次に示す.

確かに,テキスト内の出現率と単語集での出現率は異なるのだが,英語の時ほどの差は無いように見える.参考のために,英語の時のグラフをもう一度ここでも示す.

英語テキスト本体とその単語集の中の文字の出現比率の比較

英語では,h, t, p に顕著な違いがでていた.ドイツ語では,どの文字もそれほどの差はでていない.

単語集での文字を出現率の多い順に並べると次のようになる.

単語集内での出現頻度順
e n r t i s h a l g u c d m b o f k p z w v ä ü ö ß y j x q

テキスト内での出現頻度順
(e n i r s t a h d u c l g m o b w f k z p v ü ä ß j ö y q x)

目次に戻る

・ページトップの挿絵は,perchance.org/ai-girl-image-generator で生成しました. 2024.07.15