Quantcast
Channel: 円周率近似値の日に生まれて理系じゃないわけないだろ! - knifeのblog
Viewing all articles
Browse latest Browse all 5376

異体字の環境は整ってきているのか?

$
0
0

渡る世間はナベばかりのゲームに触発されて、異体字(いたいじ)について色々調べて、解ってきたので書いてみる。


異体字とは、同じ字と認める範囲で、形の違う字のこと。

ワタナベさんのナベにあたる漢字とか、サイトウさんのサイにあたる漢字とか、…


日本の名字や名前に、異体字がこれほど多くなってしまった要因といえば、戸籍制度がある。

日本に本格的な戸籍制度が発令されたのが、明治4年4月4日(覚えやすいな)。

当然、アナログな時代であり、紙に手書きで書いたものが、そのまま採用されたわけです。

書き間違い、書き損じもあったことでしょう。

本家と分家で漢字をあえて変えたということもあるでしょう。

役所としては、略字を使うことは規定で禁止されてはいたが、字体についての言及はされていなかった。

現在、役所で書類を書くとすると、ボールペンの一択であるが、ボールペンが開発されたのは1943年のハンガリー、日本には1945年(昭和20年)に紹介される。

つまり、それ以前は役所では万年筆か、付けペン、もしかしたら毛筆だったのかもしれませんが、いずれにしてもインクや墨汁が跳ねたり垂れれば、それも文字の一部として認識していたかも、などとも想像出来てしまう。

現在の戸籍は、明治時代から続いた手書きの戸籍を改製原戸籍謄本(かいせいげんこせきとうほん/はらこせき)とし、紙で保持したものとスキャンしてデジタル化したものがあるのだろう。

単に戸籍謄本というと文字はコードとして、データベースに入っているのだろう。

当然、デジタル化されるにあたって、異体字の扱いをどうするのかという議論や、フォントなどの整備はなされてきたはずである。

戸籍以外にも、登記簿や住基ネットなども関係しているのはいうまでもない。

で、ここ数年で少しずつですが、一般的なパソコンやインターネットなどにおいて、異体字を扱える環境が整ってきたということであります。


パソコン創世記のころ、日本において、異体字は別の文字コードとして登録されたりした経緯があります。

実は、このことが後々の、異体字と標準字形との組み合わせを複雑にしてしまったのかもしれません。

Windowsの登場あたりから、ディスプレイやプリンタの印字性能があがり、フォントも多彩になっていきます。

画質がよくなってしまったことで、逆に異体字としての違いが浮き彫りにされてしまったということもあります。

このフォントで出力されるのが、私の名字の漢字といったアイデンティティを主張する人も出てきたことでしょう。

インターネットの時代になり、世界各国でウェブページの閲覧がされるということで、全ての言語間の文字体系を包括することを目的としたUnicodeという文字コードが登場します。

今回、問題視するのは、言語間の違いではなく、日本語という単一言語における、異体字をどう処理するかというところです。

そこで、IVSという仕組みが出てきます。

IVSとは、Ideographic Variation Sequence/Selector、文字符号として同一視される漢字の、細かな字形の差異を使い分けるための仕組みです。

Unicodeコンソシーアム(アメリカの非営利団体)には、日本政府機関やadobeなどからの要望が入るわけですが、所詮アメリカの団体ですから、漢字の異体字についての違いを理解出来るかは怪しいところで、同じ異体字が複数登録されていたりします。


まぁ、こういう諸事情はさておき、己の環境をIVSに対応して行きましょう。

最新のWindows10やMac OS Xは、既にIVS対応になっています。

アプリケーションについては、それぞれのメーカーに問い合わせなければならないでしょうね。

IVS対応フォントで、無料のものを紹介します。

IPAmj明朝フォント
IPAサイト
窓の杜

花園フォント
花園明朝 (hanazono-yyyymmdd.zipがyyyymmddは日付、現時点では20170904が最新)

Noto Fonts
Noto Serif CJK JP
Noto Sans CJK JP


無料ではないが、WindowsおよびMac OSに同梱されていて実質無料なもの。

游明朝/游明朝体
游ゴシック/游ゴシック体

などなど

上記フォントがインストールされているならば、以下の状況を確認出来るかと思います。


異体字の微妙な違いを確認するには、ゴシック体では判りにくいということもあるので、明朝体で比較します。

IPAmj明朝、游明朝、花園明朝、Noto Serif CJK JPで、どう違うのかを見ていきます。

文字コードIPA花園Noto
U+8FBA
標準の字形
U+8FBA U+E0101辺󠄁辺󠄁辺󠄁辺󠄁
U+8FBA U+E0102辺󠄂辺󠄂辺󠄂辺󠄂
U+8FBA U+E0103辺󠄃辺󠄃辺󠄃辺󠄃

文字コード
IPA花園Noto
U+9089
標準の字形
U+9089 U+E0100邉󠄀邉󠄀邉󠄀邉󠄀
U+9089 U+E0101邉󠄁邉󠄁邉󠄁邉󠄁
U+9089 U+E0102邉󠄂邉󠄂邉󠄂邉󠄂
U+9089 U+E0103邉󠄃邉󠄃邉󠄃邉󠄃
U+9089 U+E0104邉󠄄邉󠄄邉󠄄邉󠄄
U+9089 U+E0105邉󠄅邉󠄅邉󠄅邉󠄅
U+9089 U+E0106邉󠄆邉󠄆邉󠄆邉󠄆
U+9089 U+E0107邉󠄇邉󠄇邉󠄇邉󠄇
U+9089 U+E0108邉󠄈邉󠄈邉󠄈邉󠄈
U+9089 U+E0109邉󠄉邉󠄉邉󠄉邉󠄉
U+9089 U+E010A邉󠄊邉󠄊邉󠄊邉󠄊
U+9089 U+E010B邉󠄋邉󠄋邉󠄋邉󠄋
U+9089 U+E010C邉󠄌邉󠄌邉󠄌邉󠄌
U+9089 U+E010D邉󠄍邉󠄍邉󠄍邉󠄍
U+9089 U+E010E邉󠄎邉󠄎邉󠄎邉󠄎
U+9089 U+E010F邉󠄏邉󠄏邉󠄏邉󠄏
U+9089 U+E0110邉󠄐邉󠄐邉󠄐邉󠄐
U+9089 U+E0111邉󠄑邉󠄑邉󠄑邉󠄑
U+9089 U+E0112邉󠄒邉󠄒邉󠄒邉󠄒
U+9089 U+E0113邉󠄓邉󠄓邉󠄓邉󠄓
U+9089 U+E0114邉󠄔邉󠄔邉󠄔邉󠄔
U+9089 U+E0115邉󠄕邉󠄕邉󠄕邉󠄕
U+9089 U+E0116邉󠄖邉󠄖邉󠄖邉󠄖
U+9089 U+E0117邉󠄗邉󠄗邉󠄗邉󠄗
U+9089 U+E0118邉󠄘邉󠄘邉󠄘邉󠄘
U+9089 U+E0119邉󠄙邉󠄙邉󠄙邉󠄙
U+9089 U+E011A邉󠄚邉󠄚邉󠄚邉󠄚
U+9089 U+E011B邉󠄛邉󠄛邉󠄛邉󠄛
U+9089 U+E011C邉󠄜邉󠄜邉󠄜邉󠄜
U+9089 U+E011D邉󠄝邉󠄝邉󠄝邉󠄝
U+9089 U+E011E邉󠄞邉󠄞邉󠄞邉󠄞
U+9089 U+E011F邉󠄟邉󠄟邉󠄟邉󠄟

文字コードIPA花園Noto
U+908A
標準の字形
U+908A U+E0100邊󠄀邊󠄀邊󠄀邊󠄀
U+908A U+E0101邊󠄁邊󠄁邊󠄁邊󠄁
U+908A U+E0102邊󠄂邊󠄂邊󠄂邊󠄂
U+908A U+E0103邊󠄃邊󠄃邊󠄃邊󠄃
U+908A U+E0104邊󠄄邊󠄄邊󠄄邊󠄄
U+908A U+E0105邊󠄅邊󠄅邊󠄅邊󠄅
U+908A U+E0106邊󠄆邊󠄆邊󠄆邊󠄆
U+908A U+E0107邊󠄇邊󠄇邊󠄇邊󠄇
U+908A U+E0108邊󠄈邊󠄈邊󠄈邊󠄈
U+908A U+E0109邊󠄉邊󠄉邊󠄉邊󠄉
U+908A U+E010A邊󠄊邊󠄊邊󠄊邊󠄊
U+908A U+E010B邊󠄋邊󠄋邊󠄋邊󠄋
U+908A U+E010C邊󠄌邊󠄌邊󠄌邊󠄌
U+908A U+E010D邊󠄍邊󠄍邊󠄍邊󠄍
U+908A U+E010E邊󠄎邊󠄎邊󠄎邊󠄎
U+908A U+E010F邊󠄏邊󠄏邊󠄏邊󠄏
U+908A U+E0110邊󠄐邊󠄐邊󠄐邊󠄐
U+908A U+E0111邊󠄑邊󠄑邊󠄑邊󠄑
U+908A U+E0112邊󠄒邊󠄒邊󠄒邊󠄒


文字コードIPA花園Noto
U+2B7EA
標準の字形
𫟪𫟪𫟪𫟪
U+2B7EA U+E0100𫟪󠄀𫟪󠄀𫟪󠄀𫟪󠄀
U+2B7EA U+E0101𫟪󠄁𫟪󠄁𫟪󠄁𫟪󠄁
U+2B7EA U+E0102𫟪󠄂𫟪󠄂𫟪󠄂𫟪󠄂

とりあえず、辺、邉、邊、𫟪の4つに収束されるIVSを表示してあります。

但し、ブラウザによって、表示されるフォント、表示されないフォントがあるようです。


表の見方として、

表の横軸においては、全て同じコードを記述してあり、異なるのはCSSのFont-family設定だけです。

つまり、横に並んだ漢字は見栄えが異なっていても、全て同じコードが書かれています。

縦軸において、標準の字形と同じ字形のものがあった場合、そのコードに異体字が組み込まれておらず、標準の字形で表示されているということになります。

当然、ブラウザによってフォントが使えていなければ、縦軸全てが標準の字形だけになることでしょう。


それぞれの漢字の違いは、

・しんにょうの点が辶(1点)か辶(2点)か
・自か白か
 ・自や白の中の横棒が右に接しているか
 ・自や白の縦棒が下に接しているか
・冖(わかんむり)、宀(うかんむり)、穴(あなかんむり)
 ・八、ハ、儿の入り、払い、跳ね、留め

といったところに着目して確認してみてください。


さて、この表にある漢字をコピーし、IVS対応アプリケーションへペーストして使うことも可能ではあります。


まぁ、この記事はIT関連技術の話しなので、渡ナベのナベにしかスポットを当ててないので、ワタナベさんには良い情報かもしれませんね。

記事も長くなってきたので、もっとプログラマ目線のhtmlの文字参照、cssのfont-family、Javascript、サロゲートペア、HTML5 Canvas、といった詳しい話しは、別記事にします。

また、ワタナベさん、サイトウさん、に特化したデータだけのページを作ってもいいかもしれませんね。


ではでは

Viewing all articles
Browse latest Browse all 5376

Trending Articles