英語やドイツ語などの単語の抽出ユーティリティ

by Akihiko Koga, Ver. 0.50 2024.09.25 [2024.09.25 (First)]
当サイトは利用状況の分析,サイトの改善のために Google Analyticsを使用しています.

    英語,ドイツ語,フランス語,ロシア語など,色々な言語で単語を抽出できます.

文章を入力して「単語抽出」ボタンを押してください.   |  

    単語の長さ: 以上   小文字化  

出現した単語と出現回数(
アルファベット順   頻度順  

出現した文字

本ツールの説明

英語,ドイツ語,フランス語,ロシア語など,(世界の)色々な言語で単語を抽出できます.

単語の認識は,ユニコード(unicode)で,「文字」というカテゴリーに属している文字コードの並びです.だいたい,行頭や空白,区切り記号扱いの文字コードで区切られた文字の列が抽出されます.

この定義では,発音記号の列なども単語として扱われますので,意図しない単語も抽出されるかもしれません.

また,形態素解析のような高度なことをやっている訳ではないので,同じ単語の色々な語尾変化などは別の単語として扱われ,集計回数も別単語扱いになります.

また,日本語,韓国語などアジアの言語も可能ですが,膠着語で,分かち書きしていない場合は長い語句が抽出されます.したがって,日本語ではこのツールはあまり役に立たないかもしれません.一方,韓国語は普通,分かち書きしますので,単語や単語+助詞など,日本語より細かい単位でが抽出されます.

除外単語の設定

単語抽出の時に除外する単語をしていするテキストを入力してください. 次のテキストエリアに現れる単語は抽出されません.