スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

おんなのこの名前でネットワーク!

近年の大規模ネットワークの研究によって、我々が知っている様々なネットワークが、じつはランダムグラフではなく、スケールフリー性、スモールワールド性などを持った別のトポロジーを有していることが明らかになってきました。当サイトでも、アマゾンにおいて類似したえろげーが形成するネットワークという、かなりしょうもないものも、じつはそのような特性を有しているということを見てきました。

さて、先日ネタ探しのためにarxivを見ていたら、こんなものまでネットワークの言葉で分析できるのか!と驚いた論文を見つけました。今回は、その論文の紹介と、例によってアレな対象に対する応用をしていきます。

二字熟語が形成するネットワーク
今回ネタにする論文は、
Ken Yamamoto, Yoshihiro Yamazaki
Network of two-Chinese-character compound words in Japanese language
です。上記のはarxivへのリンク。今調べたらPhysica Aに出ているようですね。
ScienceDirect - Physica A: Statistical Mechanics and its Applications : A network of two-Chinese-character compound words in the Japanese language

彼らが着目したのは、二字熟語が形成するネットワークです。例として、「幼女」という二字熟語を挙げてみます。この熟語を、幼→女と分割し、ノード「幼」からノード「女」へとエッジが伸びているとみなすのです。これを様々な二字熟語について行ってゆくと、漢字をノード、漢字がつくりだす二字熟語の関係がエッジとなるようなネットワークができあがります。次の図をみれば一目瞭然であると思います。(まともな例が欲しければ原論文をごらんください)
nijijukugo_network.png

原論文では、広辞苑などの辞書に収録されている二字熟語を解析の対象としています。もともと有向グラフであったネットワークを無向グラフ化するなどの処理を行ったのち、得られたネットワークに対して、次数分布、平均最短距離、クラスタリング係数などの測定が行われました。すると、(この手の話ではもう驚くことでもありませんが)、次数分布はγ~1のべき乗分布を示し、平均最短距離、クラスタリング係数も、いわゆる複雑ネットワークと呼ばれる特徴を示していました。
なぜ、二字熟語のネットワークがこのような性質を持つのでしょうか。論文では、この理由をfitness modelでのグラフ形成過程に求めています。まあ、要するに、熟語をつくりやすい漢字とつくりにくい漢字があるために、前者にエッジが集中するということでしょう。

続いて、熟語を形成する漢字を常用漢字に限った場合が考察されています。このとき、ネットワークのスケールフリー性は失われ、各ノードがもとのネットワークよりも密に連結するということが示されています。
(この結果を説明するモデルも提案されていますが、今回のネタには全く関係ないので省略します。気になる方は原論文をどうぞ。)

なんにせよ、すべての二字熟語から形成されたような、"自然に"形成されたネットワークと、常用漢字からなるネットワークのような、人為的に制限されたネットワークでは、そのトポロジーに変化が生じるということが示されたのでした。

さて、長い長い前フリはここまで。
今回のネタでは、この"自然な"ネットワークと、その制限について着目します。題材として、リアルワールドと二次元における、漢字二文字からなる女の子の名前を用います。

女の子の名前ネットワーク ーリアルvs二次元ー
エロゲーやギャルゲーには、さまざまな名前のヒロインが登場します。むろん、名前だけ見れば(大抵は)女の子の名前だな、とわかります。しかし、なんか、エロゲっぽい名前だなぁとプレイしながら思うことも少なくありません。

ゲームのヒロインの名前は、そのキャラが魅力的に見えるよう、というか平たく言えば、ゲームの売上が上がるよう工夫されて名づけられているはずでず(実態は全然知らないので完全に妄想ですが!)。ということは、ゲームヒロインの名前は、リアルの女の子の名付けの過程とは違うプロセスで決められているかもしれません。さらに言えば、ゲームヒロインの名前のつけられ方は、リアルのそれを人為的に制限したものになっているかもしれません。となると、上で紹介した論文に示されているように、ネットワークの構造の変化という形で、その違いが見えてくるかもしれません。

ということで、今回は、リアルの女の子の名前と、二次元世界の女の子の名前をネットワークとして捉え、その特徴について見ていきたいと思います。

名前のデータソースは以下のサイトのものを使用しました。
リアルワールドでの名前:
平成名前辞典/平成生まれの名前辞典。同姓同名検索や命名・名付けの参考サイト
このサイトでは、平成生まれの人の名前をデータベースとして公開しています。データは平成1年から平成15年までありますが、どの年をとっても顕著な違いはなかったので、今回は平成1年と15年のみを解析します。また、このデータの信頼性については議論しません。

二次元:
ヒロインデータベース
二次元の女の子の名前のデータベースくらい、だれかが作っているだろうと思っていましたが、意外に見つかりませんでした。いくつか探したうち、ある程度数があり、かつ名前と名字が分けて書いてあるデータベースは積みゲー完全制圧への道程 別館さんのこのコンテンツだけでした。

その他:
女の子の名前辞書用データ(データ / 文書作成)
かつて、「女の子の名前辞書」計画というサイトがあったようで、そこでは12万件もの名前が登録されていたようでした。しかし、今ではすでにサイト自体が消えてしまっています。vectorに、データベースの旧版と思われるデータがありましたので、これも参考までに使ってみようと思います。

解析は、これらのデータから漢字二文字の名前だけを抽出し、gml形式で保存します。可視化にはCytoscape、その他の解析はRとigraphを使いました。解析手法の詳細は、当サイトの過去のエントリをご覧ください。


それでは、結果を見ていきましょう。
まずは、お馴染みの次数分布から。
nimoji_dd.png

リアル世界のデータは、平成1年(左上)、15年(右上)ともに、低次数側はほぼ直線上に乗っており、指数γはほぼ1です。しかし、次数が10を越えるあたりから、分布はばらつきます。ばらつきは、高い次数のノードが減る傾向を示しているようです。このばらつきの意味するところはわかりません。二次元世界(左下)でのデータも、(点数は少ないですが、)同様のべき乗則に従うことがわかります。指数は1.1程度です。名前辞書(右下)のデータは、次数20あたりまで直線上に乗っており、指数は1.2程度となりました。次数分布がべき乗則に従うということは、このネットワークがスケールフリー性を持つことを意味しています。

今回は、(n数が少ないのでなんともいえないのですが、)リアル・二次元双方のネットワークに有意な差があるようには見えません。……元々の目的は、リアルと二次元の名前ネットワークに差異があることを期待しての解析でした。残念ながら、目的は達せられなかったようです。二次元世界の女の子の名前に妙なものがあっても、やはり大多数の名前はお手本であるリアルワールドの名前に準拠しているわけで、グラフの性質を大きく変えるような効果はなかったようです。

とはいうものの、せっかくですので解析を続けましょう。続いては、ネットワークの諸量、(ノード数、エッジ数、平均次数、平均最短距離、クラスタリング係数)を表にまとめたものを示します。ランダムグラフを仮定して得られたl、Cも付け加えてあります。これを見ると、クラスタリング係数はいずれのネットワークもランダムグラフを仮定したものより大きくなっており、クラスター性の高いネットワークであることがわかります。平均最短距離はノード数に比べて十分小さく、スモールワールド性も満たされていそうです。

クラスタリング係数をよく見てみますと、二次元の場合のみ、その値がランダムグラフのものと同じオーダーとなっています。二次元の女の子の名前がつくりだすネットワークは、リアルのそれよりもランダム性が強いのでしょうか。前述した、リアルと二次元の名付け方の違いが、もしかするとこのあたりに表れているのかもしれません。




 nodesedgesCl<k>Crandlrand
real(H1)1159143960.2452.90224.8420.0212.196
real(H15)882130860.3202.83329.6730.0342.000
2d2847270.0273.7065.1200.0183.459
fname1367106770.0862.35615.6210.0112.627

lは平均最短距離、Cはクラスタリング係数、<k>は平均次数。添字randがついたものはそれぞれランダムグラフを想定した場合の値。

可視化したネットワークの画像も置いておきます。
リアル(平成1年)
nimoji_H1.png

リアル(平成15年)
nimoji_H15.png

二次元
nimoji_hdb.png

女の子の名前辞書
nimoji_f_name.png


最後に、指数γの値について考察してみます。今回の解析で得られたγは、リアル二次元問わずに、約1という値になりました。実は、この値は、前フリで引用した二字熟語ネットワークにおけるγの値と等しくなっています。二字熟語と女の子の名前は似て非なるものであり、直感的にはこれらの形成プロセスは異なっているように思えます。にもかかわらず、両者が同じγ値をとるということは、これらの形成プロセスが同一であることを示唆しているように思えます。

……しかし、正直な話、γの値だけでは説得力は皆無です。そもそも、任意の複雑ネットワークが与えられた時に、そのネットワークの形成過程まで逆算できるものなのでしょうか。べき乗分布を与えるような形成過程は、成長を伴うネットワーク以外にも色々と考案されているようですが。逆の研究ってのはされてるのでしょうか。まあ、これ以上続けても意味がなさそうなので、今回のネタはここまで。

続きはこちら↓

コメントの投稿

非公開コメント

プロフィール

null

Author:null
二次元眼鏡少女に蔑まれたいです。

最近の記事
最近のコメント
最近のトラックバック
タグ

考察 統計 ネット 複雑ネットワーク 自然科学 二次元 幼女 エロゲー ネタ アニメ 百合 時事ネタ 計算 igraph R 

月別アーカイブ
カテゴリー
あわせて読みたい
あわせて読みたいブログパーツ
ブログ内検索
カレンダー
10 | 2017/11 | 12
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 - -
RSSフィード
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。