ふいに、都道府県と市区町村、なんの漢字が一番多く使われてるんだろうなあって思いませんか?
思わないですよね、普通。いやでもこの記事にたどり着いたってことは思っちゃったってことですかね。
とりあえず、先に答えをドーンしておきましょう。
都道府県名
→1位『山(6回)』、2位『島(5回)』、3位『福(3回)』、4位『川(3回)』、5位『岡(3回)』
市区町村名
→1位『川(109回)』、2位『田(91回)』、3位『大(78回)』、4位『野(72回)』、5位『山(72回)』
※令和5年4月1日時点のデータで、総務省全国地方公共団体コードを利用しました。
都道府県名、市区町村名の最頻出漢字について、Googleスプレッドシートを用いた処理の仕方に興味ある方は、こちらの記事を最後まで御覧くださいまし。
なお、使った関数は、『LEFT関数』『LEN関数』『SPLIT関数』『REGEXREPLACE関数』『COUNTA関数』『FLATTEN関数』『UNIQUE関数』『SORT関数』です。
こんにちは。当ブログの管理人の『くろん』です。
30代サラリーマン、新規事業推進室に所属。新卒ブラック企業努め時代に身に着けた業務効率化ノウハウをアウトプットしていきます。
読んでくれた方の業務が一秒でも早く終わりますようにの精神で記事書いてます!!
都道府県名の最頻出漢字を調査
A列の都道府県名を元に、最後にくっついてる『都・府・県』を省いたものをB列に表示させます。
北海道だけは、『北海』というのもなんか変なので、『北海道』のままにしておくことにしました。
都道府県名の最後の一文字を削除すればいいので、『文字数から1引いた数だけ、左側から抽出する』という考えで関数を組んでみます。
=left(A3,LEN(A3)-1)
『LEFT関数』は、左から文字を抽出してくれる関数で、『LEN関数』は文字数をカウントしてくれる関数になります。
文字列を分割し、一文字一セルとなるようにします。
文字の分割といえば、『SPLIT関数』ですが、この関数はなんかしらの区切り位置で区切るという関数になるので、『北海道』のような区切り位置がない状態の文字列を分割することができません。
そこで、『REGEXREPLACE関数』を用いて、正規表現により文字と文字の間(正確には先頭と末尾にも)を置換させ、区切り位置を挿入し、それを元に『SPLIT関数』で分割するというコンボをキメます。
=SPLIT(REGEXREPLACE(B2,"","-"),"-")
分割したこの一文字ずつのセル範囲を、一列に並び替えて、次の処理に繋げます。
このくらいの列数であれば、コピペするのもいいですが、どうにかして関数でやってみます。
まず、STEP2で分割したセル範囲がどこまでかを把握するために、1行目にその列の2行目以降のデータ数を調べるための『COUNTA関数』を入力してあります。
=COUNTA(C2:C)
これが『0』であればその行には文字が入っていないということになります。
『C2:C』のような範囲の記載の仕方は使い勝手がよくて、このセルから下の全部という意味になります。ただ、この範囲設定をエクセルで行うと、C2:C2の範囲設定と同じということになり、スプレッドシートと異なる結果となります。注意しておいてください。
さて、複数の列の情報を、一つの列に記載する方法ですが、『FLATTEN関数』を用います。『FLATTEN関数』は、選択した範囲の情報を一つの列にずらずらっとしてくれる関数です。
=flatten(C2:E)
重複削除をしてくれる関数は『UNIQUE関数』です。指定した範囲において、重複の値があった場合については、それを削除し、一意的なデータとしてくれます。
=unique(G2:G)
=sort(I2:J,2,false)
大きい順や小さい順に並び変えることができるのは、『SORT関数』です。
今回は頻出順を知りたいので、出現回数順に大きい順で並びかえました。
その結果、
都道府県名
→1位『山(6回)』、2位『島(5回)』、3位『福(3回)』、4位『川(3回)』、5位『岡(3回)』
ということが分かりました!!!
市区町村名の最頻出漢字を調査
処理の仕方は同じなので、省きます。
市区町村名
→1位『川(109回)』、2位『田(91回)』、3位『大(78回)』、4位『野(72回)』、5位『山(72回)』
ということが分かりました!!!
都道府県名・市区町村名の最頻出漢字まとめ
都道府県名
→1位『山(6回)』、2位『島(5回)』、3位『福(3回)』、4位『川(3回)』、5位『岡(3回)』
市区町村名
→1位『川(109回)』、2位『田(91回)』、3位『大(78回)』、4位『野(72回)』、5位『山(72回)』
やはり、自然豊かな島国日本っていう感じのランキングになりましたね。
川の周りには人が集まり、集落となりやすいんだなあと感じますし、『田』は日本にとって重要なんだなというのも分かります。
数多くの関数が登場しましたが、それぞれデータ整理において、有用なものばかりなので、ぜひマスターしてしまってください!