ここ数週間、パソコンに仕事をさせまくって、日本人の苗字(名字、姓)について調査していました。
約3100万世帯を調査しました。
2015年現在の日本の世帯数は5000万世帯を超えたくらいですので、約62%分のデータということになります。
信憑性はいかほどでしょうかね。
このデータで面白い統計が取れたらいいな。
まず、データを出す前に、日本人の苗字の多様性について考えてみる。
なぜ、日本人の苗字が多様性に富んでいるかと言えば、漢字を使うからである。というのは半分当たっているが、半分外れである。
確かに、文字種の少ないアルファベット文化圏の苗字(Family Name)では、26種類で何文字使うか、つまり26^nという式になるので、アルファベット26種類よりも多くの種類を持つ漢字を使うということで、苗字が多様化するというのは当たっている。
では、漢字文化圏の中国、韓国、北朝鮮、ベトナムでは、日本ほど多様化しているかというと、そうではない。
1) 文字数
日本は二文字姓、中国、韓国、北朝鮮は一文字姓が圧倒的に多い。
2) 読み
漢字の読みの多様性は、日本独自の歴史的背景がある。
それは、日本語の漢字には、音読み、訓読み、慣用読みがあり、音読みに至っては、中国大陸とのやり取りの時代によって、呉音、漢音、唐音、と読みが異なるのを上書きせずに、別の読みとして残したこと。
他の漢字文化圏では、漢字一文字の読みは、一通りである。
3) 一般人が苗字を持つことが許された頃の時代背景
日本人の一般人が苗字を持つとき、かなり自由に名づけ出来たこと。
4) 登録時の混乱
日本人の識字率は極めて高かったのだが、登録する際に手書きであったことで、誤字もそのまま登録されてしまったこと。
などがあげられるだろう。
さて、ネットにはいろいろな切り口で日本人の名字のデータを出しているところがある。
国税調査とか国が出すデータではないので、個々に何らかの方法でデータの算出しており、どれが良い悪いとかそういうのは抜きにします。
例えば、日本のポピュラーな苗字トップ5は、
1 佐藤
2 鈴木
3 高橋
4 田中
5 渡辺
だったりするのだが、これはあくまでもこの漢字表記での順位である。
例えば、5位の渡辺さんですが、わたなべさん、わたべさん、・・・の様に多様な読み方が出来てしまう。
そういうことも踏まえて、順位を付けているところもある。
1 佐藤(さとう)
2 鈴木(すずき)
3 高橋(たかはし)
4 田中(たなか)
5 渡辺(わたなべ)
例えば、佐藤姓においても、マイナーな読みが存在する。
佐藤(さふじ)さんは、おそらくはトップ1000にも現れないだろう。
何を以って、日本人の苗字の種類は何種類、というようなことは、切り口によって変わってしまう。
例えば、印鑑の種類がn種類以上あるから、日本人の苗字はn種類以上としても間違いではないが、読みが異なれば、明らかに別の苗字という考え方も当然出来るということです。
さて、第一回目として、どんなデータを出してみようかな。
日本人の名字は二文字姓が圧倒的に多いことは予想できる。
実際問題どれくらいの比率なんだろうか。
文字数 | 世帯数 | 比率 |
1 | 1050268 | 3.391452% |
2 | 28628194 | 92.444174% |
3 | 1283032 | 4.143045% |
4 | 6595 | 0.021296% |
5 | 10 | 0.000032% |
日本人の名字の92.44%は二文字姓、続いて、4.14%が三文字姓、3.39%が一文字姓、このトップ3で99.9786%と、殆どを占めてしまいます。
なので、四文字姓、ましてや五文字姓に出会うというのは、ちょっとした宝くじなみなの確率ではないだろうか。
では、読みではどうだろうか?
読み毎に世帯数を取れていないので、世帯数ではなくて種類で分けます。
文字数 | 種 | 比率 |
1 | 285 | 0.16851% |
2 | 9852 | 5.82524% |
3 | 56441 | 33.37216% |
4 | 83039 | 49.09889% |
5 | 16318 | 9.64842% |
6 | 2669 | 1.57811% |
7 | 487 | 0.28795% |
8 | 35 | 0.02069% |
四文字読み姓が約半数、続いて三文字読み姓が約3分の1、と大多数を占めている。
他の漢字文化圏との比較の為、トップ10を揃えてみましょう。
順位 | 日本 | 中国 | 韓国 | ベトナム | アメリカ(名字由来net調べ) | |||||
1 | 佐藤 | 1.5324% | 王(王、オウ、wang2) | 7.25% | 金(김、キム) | 21.58% | 阮(Nguyễn、グエン) | 38.41% | Smith(スミス) | 0.8809% |
2 | 鈴木 | 1.3512% | 李(李、リ、li3) | 7.19% | 李(이、イ) | 14.77% | 陳(Trần、チャン) | 11.00% | Johnson(ジョンソン) | 0.6884% |
3 | 高橋 | 1.1257% | 張(张、チョウ、zhang1) | 6.83% | 朴(박、パク) | 8.47% | 黎(Lê、レ) | 9.05% | Williams(ウィリアムズ) | 0.5687% |
4 | 田中 | 1.0578% | 劉(刘、リュウ、liu2) | 5.38% | 崔(최、チェ) | 4.71% | 范(Phạm、ファム) | 7.10% | Brown(ブラウン) | 0.5116% |
5 | 渡辺 | 0.8683% | 陳(陈、チン、chen2) | 4.53% | 鄭(정、チョン) | 4.37% | 黃(Huỳnh/Hoàng、フイン/ホアン) | 5.10% | Jones(ジョーンズ) | 0.5052% |
6 | 伊藤 | 0.8586% | 楊(杨、ヨウ、yang2) | 3.08% | 姜(강、カン) | 2.27% | 潘(Phan、ファン) | 4.50% | Miller(ミラー) | 0.4181% |
7 | 山本 | 0.8543% | 黄(黄、コウ、huang2) | 2.29% | 趙(조、チョ) | 2.14% | 武/禹(Vũ/Võ、ヴー/ヴォー) | 3.90% | Davis(デイビス) | 0.3975% |
8 | 中村 | 0.8295% | 趙(赵、チョウ、zhao4) | 2.23% | 尹(윤、ユン) | 2.06% | 鄧(Đặng、ダン) | 2.10% | Garcia(ガルシア) | 0.3182% |
9 | 小林 | 0.8101% | 呉(吴、ゴ、wu2) | 2.12% | 張(장、チャン) | 1.99% | 裴(Bùi、ブイ) | 2.00% | Rodriguez(ロドリゲス) | 0.2981% |
10 | 加藤 | 0.6829% | 周(周、シュウ、zhou1) | 2.05% | 林(임、イム) | 1.65% | 杜(Đỗ、ドー) | 1.40% | Wilson(ウィルソン) | 0.2903% |
(小計) | 9.9712% | (小計) | 42.95% | (小計) | 64.05% | (小計) | 84.56% | (小計) | 4.8770% |
漢字文化圏においては、日本の苗字の多様性はずば抜けて多いのは判ったが、もしかしたらアメリカはそれ以上かもしれない。
アルファベット文化圏での苗字に一文字姓や二文字姓なんて短いものは、まず考えられないし、ある程度の長さが必要なのは当然のことだろう。
つまり、アルファベット文化圏だからといって、苗字の多様性は日本以上にある可能性は十二分に存在する。
とりあえず、長くなってきたのでこのへんで。