当サイトは Google Analyticsを使用しています.プライバシーポリシー

ハングマンゲームは,一文字ずつ推測していく単語当てゲームであるから,一般的には多く使われる文字から試してみるのがよい.ということで,いくつかの言語で,文字使用頻度についての統計情報を取ってみた.
Gutenberg のフリーテキストに登録されている次の作品で,アルファベットの文字の出現頻度を調べた.
それぞれのテキストごとに合計の文字数が異なるために,このまま数値を比較できない.そのため,右の3列は,テキストの全体の文字数が 100,000 文字だった場合の 文字数に正規化してある.つまり,そこに現れる数値は
出現頻度の率 × 100,000である.パーセンテージを1000倍したものと考えればよい.
この表の右の3列をのグラフを示す.
作品によって微妙な差があるものの,全体の傾向としてはそれほど 変わらない.
次に,これら3作品の文字の出現回数の生の値を合計して,文字の出現頻度の 大きい順に並び変えて,比率の累計を取ったグラフを示す.
このグラフからは次のことが読み取れる.
もちろん,これはある程度大きなテキストの中での各文字の出現頻度であるので, そのままハングマンに適用できるものではない.ハングマンでは,たとえば,長さ5の単語を集めたときの各文字の出現頻度のような値が役に立つだろう.
その近似としては,まず,文章に入っている単語を集めて,各単語1つずつにして,その中の各文字の出現頻度を調べると良いだろう.
英語のテキストの中の文字の出現比率の調査では,そのテキストの中で,同じ単語が 何度も現れ得る.それに対して,単語を対象としたときのハングマンゲームでは,一つの単語は1つゲームに登録されているだけである.
このように,テキストの中で,複数現れる単語を1つにまとめなおした場合は, また,英文字の出現比率が違うかもしれない.複数現れる単語を1つにまとめなおしたものとしては,英語の単語集がある.したがって,この問は,謂わば,
テキスト本体の文字の出現比率 v.s. 単語集の文字の出現比率は同じかという問題と言えよう.
一般に,英文テキストの中では定冠詞 the,不定冠詞 a が多く現れるだろう. 一方,単語集には,これらは1つずつしか現れない.ハングマンゲームに至っては, これらをヒント無しで当てさせるのは至難の業なので出ないかもしれない.これらの 多くの出現は,a, e, h, t の出現率を押し上げると予想される.他にもこのように,テキストと単語集で文字の出現率を変えるものがあるかもしれない.
この問は,ハングマンゲームを作っている身としては関心があるのだが, 本格的に調べる気力が起きなかったので,
Alice's Adventures in Wonderland by Lewis Carrollでだけ調べてみた.厳密に単語を1まとめにするためには,例えば, 動詞の人称変化,時制変化などを同一視することが必要であるが, それには形態素解析などが必要になってくる.ここでは,空白やコンマ,ピリオドなどで単語を切り出して,まったく同じ字面の単語だけを同一視した.
具体的な文字数,単語数などは省略するが,このようにして調べた文字の出現比率の グラフを次に示す.
このグラフから読み取る限り,テキスト本体からでも,その単語集からでも 文字の出現比率にそれほど差はないことが見て取れる.目立った差は,次のとおりである.
英文テキストの中に沢山現れるはずの 冠詞 the, a を考えると,単語集では,t, h, a などの比率が下がるだろう ことはうなずける.一方,e はあまり変わっていない.ほかの単語の中にも 多く現れるので,あまり影響を受けないということだろうか.
e i n r t s a o l d c u g p h m y f w b k v x q j zテキスト内の出現頻度では次の通りだった.
e t a o n i s h r l d u m c w g f y p b v k q j x z
英語のところで,一気に調べはじめたら疲れてしまいました.ゆっくりやることに します.調べたところから載せます.さらに調べたら,追加してくことにしますので, よろしくお願いします.
ドイツの文学や書籍については,あまり詳しくないので調査するのに,何を使えばよいのか,何を使えるのかなど,あまり勘が働かない.とりあえず次のものを調べてみた.
これをグラフにしてみる.
英語との比較のグラフも示す.
ドイツ語テキストにおける文字の出現比率をその出現順に並べて,累計を取ったグラフを示す.
このグラフから次のことが読み取れる.
現時点では,まだ1つのテキストを調べただけなので,これが一般的なドイツ語テキストの傾向なのか,それともこのテキストの個性なのかは分からない.
これは,このページを書く前に,まずは,感触をみるために,ある Wikipedia のページから 37000~38000文字のドイツ語と英語のテキストで文字の出現率を比較してみたものである.比較しやすいように,上の Zauberberg と英語テキストの比較グラフも再度掲載しておく.
傾向としては,二つのグラフはかなり類似しているように見える.
ドイツ語も,テキストの中に現れる文字の出現率と,それを単語集にしたときの文字の主具現率は異なるかもしれない.
ここでは,上で調べた
その比較のグラフを次に示す.
確かに,テキスト内の出現率と単語集での出現率は異なるのだが,英語の時ほどの差は無いように見える.参考のために,英語の時のグラフをもう一度ここでも示す.
英語では,h, t, p に顕著な違いがでていた.ドイツ語では,どの文字もそれほどの差はでていない.単語集での文字を出現率の多い順に並べると次のようになる.
単語集内での出現頻度順
e n r t i s h a l g u c d m b o f k p z w v ä ü ö ß y j x qテキスト内での出現頻度順
(e n i r s t a h d u c l g m o b w f k z p v ü ä ß j ö y q x)
・ページトップの挿絵は,perchance.org/ai-girl-image-generator で生成しました. 2024.07.15