スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

DQNネームの世界

前回のエントリの続きです。

前回は、ゲーム(当然エロゲ)に登場する女の子の名前にしばしば抱く「えろげえろげしい」という漠然とした印象が、名前が構成する空間の構造に表れているのではないかと予想し、複雑ネットワークの手法による解析を試みました。リアルの女の子の名前と、二次元キャラの女の子の名前を比較したところ、後者のクラスタリング係数はランダムグラフに匹敵するほど低く、二次元キャラの命名には、かなり(ランダムに|てきとーに|節操なく)文字を選んでいるのではないかということが垣間見えました。しかしながら、双方ともγ~1のスケールフリーネットワークであることに違いはなく、前回の元ネタ論文にあるようなドラスティックな変化を見るまでには至りませんでした。

それでは、二次元キャラを越えるほどの「変な」名前はないのでしょうか。幸か不幸か、あるようです。それが、今回考察の対象とするDQNネームです。

DQNネームとは、Wikipediaによると、
最近の(特に2000年以降の)子供の名前に見られる、暴走族のような当て字(愛羅=あいら、など)や漫画・アニメ・ゲームなど架空のキャラクターからとった当て字の名前(光宙=ぴかちゅう、など)のように、読みづらい名前や、常識的に考えがたい言葉を戸籍上の名前にすることをDQNネームと呼ぶ場合がある。
というものだそうです。漢字本来の意味を無視してつけられた名前が多いようですので、一般的な名前とは異なる構造を持っている可能性がありそうです。今回は、DQNネームな名前が構成するネットワークの構造を調べていきたいと思います。

DQNネームを収集しているサイトとして、DQNネーム(子供の名前@あー勘違い・子供がカワイソ)があります。このサイトで公開されている名前の中から、2文字の女の子の名前を抽出し、ネットワークを構成します。(例えば、「幼女」という熟語を、ノード「幼」からノード「女」へエッジが伸びているとみなすのです。詳しくは前回のエントリとその参考文献をご覧ください。また、女の子限定なのは野郎の名前なんか見てても面白くないからこれまた前回のエントリとの整合性を持たせるためです。)

ここで、データソースに関する注意をいくつか。
上記のDQNネーム収集サイトは、2chへの投稿からの抜粋で作られているようです。ですので、ネタ・捏造が含まれていても全く不思議ではありません。データソースとしての信頼性は著しく低いと言わざるを得ません。さらに、目を疑いたくなるアレな名前から、ちょっと変わっているけど十分許容範囲の名前まで、すべて一緒くたにDQNネームとして扱われております。DQNネームの定義があやふやです。ですので、ここで扱うデータは、「DQNネーム」というより、「2chのスレ住人がDQNだと思う名前(らしきもの)の集合」くらいに思っておいた方が精神衛生上いい気がします。こういう、いろんな意味で玉石混交なデータを扱っていることを踏まえつつ、解析に移りましょう。

まずは、お馴染みの次数分布から。
下図で、左がDQNネームのネットワーク、右が比較のために用意した、平成15年生まれの子供の名前ネットワークの次数分布です。青線は、べき乗則を示す曲線で、P(k)の値が大きいところで合わせています。P(k)の高いところではべき乗的に振る舞い、P(k)の低いところではばらつきが大きくなっています。これは、DQNネームの場合も、平成15年生まれの場合も同一の傾向となっています。正直、またかという感じではありますが、グラフをよく見てみると、両者の相違が見えてきます。

dqnvsh15.png

DQNネームでは、ばらついた点の多くが、青線よりも上に存在します。包絡線はあたかも下に凸となっているように見えます。それに対して、平成15年生まれの場合には、点の多くが青線よりも下に存在します。こちらは包絡線が上に凸となっています。この傾向は、実は前回調べた2次元の女の子の名前の場合も同一です。点のばらつきが下に凸となる傾向は、DQNネームに特有の傾向であると言えそうです。

さらに、次数分布P(k)~kの指数γについて見てみましょう。
この値は、DQNネームの場合には約1.5、平成15年生まれの場合は約1となっています。前回の調査では、リアルの名前であれ、二次元の名前であれ、γの値は1程度(最大でも1.2くらい)でした。これを見ると、DQNネームのγ=1.5というのは、特殊な大きい値であると言えるのではないでしょうか。

他のパラメータについても見てみましょう。
ノード数(ここで使われている漢字の数)、エッジ数(名前の数)、クラスタリング係数C,平均最短距離l、平均次数<k>、そして指数γについて、次表にまとめました。

 ノード数エッジ数Cl<k>γ
DQNネーム70853330.1923.18215.061.5
平成15年生まれ882130860.3202.83329.671


まず分かるのは、両者ともノード数が同程度であるにもかかわらず、エッジ数はDQNネームのほうが平成15年生まれよりも半分以上少ないということです。これは、使用されている漢字の種類は同程度でも、DQNネームは名前のバリエーションに乏しいということを示しています。逆に、名前の種類が同程度でも、DQNネームに使われる漢字の種類は多いというふうにも言えます。

続いて、DQNネームのほうが、クラスタリング係数が小さく、平均最短距離が大きく、平均次数が小さいことがわかります。これは、DQNネームでは、漢字どうしの相関が低く、グラフとしてはまばらになっていることを示しています。

上で示したグラフの特徴は、DQNネームの特徴として挙げられている、当て字や、漢字本来の意味を無視した名付けと整合性があるように思われます。当て字を用いるということは、従来のオーソドックスな名前のグラフが持つ構造をぶった切って、新しい(おそらくランダムに近い)エッジを入れることに相当するでしょう。漢字の意味を無視した名前も同様の効果があるでしょう。そうなると、各人が従来の名前の構造を無視して思い思いに漢字を選んで名前をつけることになりますから、使われている漢字の数に比べて名前の数が少なくなるというのは納得できなくもないのではないでしょうか。また、上記のような名付けのプロセスでは、よりランダムに近い名前の付け方をしているわけですから、クラスタリング係数が小さくなる傾向と一致します。

というわけで、DQNネームが持つ変わった印象が、ネットワーク分析によって裏付けられたという話でした。
スポンサーサイト

おんなのこの名前でネットワーク!

近年の大規模ネットワークの研究によって、我々が知っている様々なネットワークが、じつはランダムグラフではなく、スケールフリー性、スモールワールド性などを持った別のトポロジーを有していることが明らかになってきました。当サイトでも、アマゾンにおいて類似したえろげーが形成するネットワークという、かなりしょうもないものも、じつはそのような特性を有しているということを見てきました。

さて、先日ネタ探しのためにarxivを見ていたら、こんなものまでネットワークの言葉で分析できるのか!と驚いた論文を見つけました。今回は、その論文の紹介と、例によってアレな対象に対する応用をしていきます。

二字熟語が形成するネットワーク
今回ネタにする論文は、
Ken Yamamoto, Yoshihiro Yamazaki
Network of two-Chinese-character compound words in Japanese language
です。上記のはarxivへのリンク。今調べたらPhysica Aに出ているようですね。
ScienceDirect - Physica A: Statistical Mechanics and its Applications : A network of two-Chinese-character compound words in the Japanese language

彼らが着目したのは、二字熟語が形成するネットワークです。例として、「幼女」という二字熟語を挙げてみます。この熟語を、幼→女と分割し、ノード「幼」からノード「女」へとエッジが伸びているとみなすのです。これを様々な二字熟語について行ってゆくと、漢字をノード、漢字がつくりだす二字熟語の関係がエッジとなるようなネットワークができあがります。次の図をみれば一目瞭然であると思います。(まともな例が欲しければ原論文をごらんください)
nijijukugo_network.png

原論文では、広辞苑などの辞書に収録されている二字熟語を解析の対象としています。もともと有向グラフであったネットワークを無向グラフ化するなどの処理を行ったのち、得られたネットワークに対して、次数分布、平均最短距離、クラスタリング係数などの測定が行われました。すると、(この手の話ではもう驚くことでもありませんが)、次数分布はγ~1のべき乗分布を示し、平均最短距離、クラスタリング係数も、いわゆる複雑ネットワークと呼ばれる特徴を示していました。
なぜ、二字熟語のネットワークがこのような性質を持つのでしょうか。論文では、この理由をfitness modelでのグラフ形成過程に求めています。まあ、要するに、熟語をつくりやすい漢字とつくりにくい漢字があるために、前者にエッジが集中するということでしょう。

続いて、熟語を形成する漢字を常用漢字に限った場合が考察されています。このとき、ネットワークのスケールフリー性は失われ、各ノードがもとのネットワークよりも密に連結するということが示されています。
(この結果を説明するモデルも提案されていますが、今回のネタには全く関係ないので省略します。気になる方は原論文をどうぞ。)

なんにせよ、すべての二字熟語から形成されたような、"自然に"形成されたネットワークと、常用漢字からなるネットワークのような、人為的に制限されたネットワークでは、そのトポロジーに変化が生じるということが示されたのでした。

さて、長い長い前フリはここまで。
今回のネタでは、この"自然な"ネットワークと、その制限について着目します。題材として、リアルワールドと二次元における、漢字二文字からなる女の子の名前を用います。

女の子の名前ネットワーク ーリアルvs二次元ー
エロゲーやギャルゲーには、さまざまな名前のヒロインが登場します。むろん、名前だけ見れば(大抵は)女の子の名前だな、とわかります。しかし、なんか、エロゲっぽい名前だなぁとプレイしながら思うことも少なくありません。

ゲームのヒロインの名前は、そのキャラが魅力的に見えるよう、というか平たく言えば、ゲームの売上が上がるよう工夫されて名づけられているはずでず(実態は全然知らないので完全に妄想ですが!)。ということは、ゲームヒロインの名前は、リアルの女の子の名付けの過程とは違うプロセスで決められているかもしれません。さらに言えば、ゲームヒロインの名前のつけられ方は、リアルのそれを人為的に制限したものになっているかもしれません。となると、上で紹介した論文に示されているように、ネットワークの構造の変化という形で、その違いが見えてくるかもしれません。

ということで、今回は、リアルの女の子の名前と、二次元世界の女の子の名前をネットワークとして捉え、その特徴について見ていきたいと思います。

名前のデータソースは以下のサイトのものを使用しました。
リアルワールドでの名前:
平成名前辞典/平成生まれの名前辞典。同姓同名検索や命名・名付けの参考サイト
このサイトでは、平成生まれの人の名前をデータベースとして公開しています。データは平成1年から平成15年までありますが、どの年をとっても顕著な違いはなかったので、今回は平成1年と15年のみを解析します。また、このデータの信頼性については議論しません。

二次元:
ヒロインデータベース
二次元の女の子の名前のデータベースくらい、だれかが作っているだろうと思っていましたが、意外に見つかりませんでした。いくつか探したうち、ある程度数があり、かつ名前と名字が分けて書いてあるデータベースは積みゲー完全制圧への道程 別館さんのこのコンテンツだけでした。

その他:
女の子の名前辞書用データ(データ / 文書作成)
かつて、「女の子の名前辞書」計画というサイトがあったようで、そこでは12万件もの名前が登録されていたようでした。しかし、今ではすでにサイト自体が消えてしまっています。vectorに、データベースの旧版と思われるデータがありましたので、これも参考までに使ってみようと思います。

解析は、これらのデータから漢字二文字の名前だけを抽出し、gml形式で保存します。可視化にはCytoscape、その他の解析はRとigraphを使いました。解析手法の詳細は、当サイトの過去のエントリをご覧ください。


それでは、結果を見ていきましょう。
まずは、お馴染みの次数分布から。
nimoji_dd.png

リアル世界のデータは、平成1年(左上)、15年(右上)ともに、低次数側はほぼ直線上に乗っており、指数γはほぼ1です。しかし、次数が10を越えるあたりから、分布はばらつきます。ばらつきは、高い次数のノードが減る傾向を示しているようです。このばらつきの意味するところはわかりません。二次元世界(左下)でのデータも、(点数は少ないですが、)同様のべき乗則に従うことがわかります。指数は1.1程度です。名前辞書(右下)のデータは、次数20あたりまで直線上に乗っており、指数は1.2程度となりました。次数分布がべき乗則に従うということは、このネットワークがスケールフリー性を持つことを意味しています。

今回は、(n数が少ないのでなんともいえないのですが、)リアル・二次元双方のネットワークに有意な差があるようには見えません。……元々の目的は、リアルと二次元の名前ネットワークに差異があることを期待しての解析でした。残念ながら、目的は達せられなかったようです。二次元世界の女の子の名前に妙なものがあっても、やはり大多数の名前はお手本であるリアルワールドの名前に準拠しているわけで、グラフの性質を大きく変えるような効果はなかったようです。

とはいうものの、せっかくですので解析を続けましょう。続いては、ネットワークの諸量、(ノード数、エッジ数、平均次数、平均最短距離、クラスタリング係数)を表にまとめたものを示します。ランダムグラフを仮定して得られたl、Cも付け加えてあります。これを見ると、クラスタリング係数はいずれのネットワークもランダムグラフを仮定したものより大きくなっており、クラスター性の高いネットワークであることがわかります。平均最短距離はノード数に比べて十分小さく、スモールワールド性も満たされていそうです。

クラスタリング係数をよく見てみますと、二次元の場合のみ、その値がランダムグラフのものと同じオーダーとなっています。二次元の女の子の名前がつくりだすネットワークは、リアルのそれよりもランダム性が強いのでしょうか。前述した、リアルと二次元の名付け方の違いが、もしかするとこのあたりに表れているのかもしれません。




 nodesedgesCl<k>Crandlrand
real(H1)1159143960.2452.90224.8420.0212.196
real(H15)882130860.3202.83329.6730.0342.000
2d2847270.0273.7065.1200.0183.459
fname1367106770.0862.35615.6210.0112.627

lは平均最短距離、Cはクラスタリング係数、<k>は平均次数。添字randがついたものはそれぞれランダムグラフを想定した場合の値。

可視化したネットワークの画像も置いておきます。
リアル(平成1年)
nimoji_H1.png

リアル(平成15年)
nimoji_H15.png

二次元
nimoji_hdb.png

女の子の名前辞書
nimoji_f_name.png


最後に、指数γの値について考察してみます。今回の解析で得られたγは、リアル二次元問わずに、約1という値になりました。実は、この値は、前フリで引用した二字熟語ネットワークにおけるγの値と等しくなっています。二字熟語と女の子の名前は似て非なるものであり、直感的にはこれらの形成プロセスは異なっているように思えます。にもかかわらず、両者が同じγ値をとるということは、これらの形成プロセスが同一であることを示唆しているように思えます。

……しかし、正直な話、γの値だけでは説得力は皆無です。そもそも、任意の複雑ネットワークが与えられた時に、そのネットワークの形成過程まで逆算できるものなのでしょうか。べき乗分布を与えるような形成過程は、成長を伴うネットワーク以外にも色々と考案されているようですが。逆の研究ってのはされてるのでしょうか。まあ、これ以上続けても意味がなさそうなので、今回のネタはここまで。

続きはこちら↓

DVDの類似性関係を可視化して解析

前回まで、アマゾンを利用してエロゲーの類似性関係を可視化し、ネットワークがスケールフリー性とスモールワールド性を満たすことを確認しました。それでは、別の商品カテゴリの関係はどのようになっているのでしょうか。まずは、アマゾンが取り扱っているDVDの商品群を調べてみましょう。

前回までのあらすじ

DVDカテゴリ以下にある、次の4つのジャンルに関して、前回同様の解析を行ってみます。
  1. アニメDVD:BrowseNodeId=562020
  2. 日本映画DVD:BrowseNodeId=562014
  3. 外国映画DVD:BrowseNodeId=562016
  4. お笑いDVD:BrowseNodeId=12842371

早速、結果を見ていきましょう。まずは、次数分布からです。

DVD_degree_distribution.png

どのジャンルも、高次数側でべき乗則が成り立っています。しかし、指数γは3から5までの異なった値をとるようです。アニメDVDのγが約5と最も高く、続いてお笑いDVDのγ~4、日本映画と外国映画のγ~3と続きます。実は、日本映画と外国映画の次数分布は、高次数側のγが一致するだけでなく、低次数側の挙動も一致します。

γの違いは何を表しているのでしょうか。これを知るためには可視化が役に立ちます。続いて、各ネットワークを可視化したものを見ていきましょう。可視化に用いたソフトウェアは以前と同じくCytoscape、レイアウトはこれも同様にSpring Embeddedを用いました。

外国映画DVD
foreignmoveiDVD_visualize.png

日本映画DVD
jpmovieDVD_visualize.png

お笑いDVD
owaraiDVD_visualize.png

アニメDVD
animeDVD_visualize.png

画像を見れば一目瞭然ですね。外国映画のネットワークでは、大多数のノードが最大の部分グラフ(毛玉みたいなの)に属しています。それに対して、小さな部分グラフの数はあまり多くありません。外国映画→日本映画→お笑い→アニメの順で、最大の部分グラフは次第に疎になり、かわりに細かい部分グラフの数が増加します。実は、この順番で、指数γも増加しています。

小さな部分グラフの数が大きいことと、γが大きい値を取ることには関連があります。部分グラフ内の次数はたかだか部分グラフのノード数にしかなりません。ネットワークが小さい部分グラフに分割されればされるほど、複数のクラスタ間にエッジをもつ次数の高いノードは姿を消し、エッジのやりとりを部分グラフの中だけで完結してしまう次数の低いノードが増えていきます。これはすなわち、ネットワークが分割されるほど、次数分布の曲線が急になり、指数γが増加するということを意味しています。

それでは、なぜアニメDVDやお笑いDVDは小さな部分グラフに分割されているのでしょうか。これも、可視化によりすぐわかります。各ノードのタイトルを見えるようにして、グラフを拡大してみましょう。

お笑いDVD
owaraiDVD_zoom.png
アニメDVD
animeDVD_zoom.png

小さなサブグラフは、同一タイトルのシリーズもので構成されていました。要するにこれは、DVDを買ったら全巻そろえる人が多い、というようなニュアンスを意味しているわけです。1巻完結ではなく、シリーズものだとこういう傾向が出るのでしょうね。実際、シリーズをそろえることに意味のあるジャンル、たとえば少年漫画などでも同様の傾向は確認できました。

エロゲー類似性ネットワークを複雑ネットワークで解析してみた

今回のネタは、前回作成したエロゲーどうしの類似性グラフに対して、複雑ネットワークの手法で解析してみようというもの。まあ、ぶっちゃけよくあるやつです。もしかすると誰かが既に同じことをやってるかもしれませんが、気にしない。

前回はこちら:エロゲーの類似性関係を可視化してみた
前回作ったネットワークの可視化画像はこれ。
eroge_graph090204.png

スケールフリーネットワーク

複雑ネットワークの解析の定石として、次数の分布を調べてみます。横軸に次数k、縦軸に次数分布P(k)(ある次数kを持つノードの数)をとり、両対数プロットしてみます。得られたのが次の図になります。
eroge_graph_digree_dist.png
プロットされた緑色の点は、(大きくばらついていますが)グラフ上で赤線で示した直線上に乗っています。両対数グラフ上で直線に乗るということは、
P(k)~k
のように、べき乗で表されることを意味しています。

このように、次数分布が次数のべき乗に比例するような振る舞いのことを、特徴的な次数の大きさの欠如ということに由来して「スケールフリー性」と呼ぶようです。自然界に存在するいろいろなネットワークではこのスケールフリー性が見つかっているようですが、エロゲーの類似性ネットワークにも(予想通り?)スケールフリー性が見出されました。

ここで、ネットワークを特徴づける量として、指数γに着目してみます。ふたたび上図に戻ると、赤線はk-2に比例した直線であることがわかります。すなわち、今回の結果では、γ~2となります。

参考文献1によれば、BarabasiとAlbertが最初に提案したモデルでは、γ=3という結果になったようです。このモデルは、新たに生まれたノードは、既存のノードと、その次数に比例した確率でエッジを形成するというものです。これをエロゲーの類似性グラフにあてはめると、「人気のあるゲームならどんなジャンルでもいいから構わず買う無節操な購買者」像が見えてきます。

もちろん、エロゲーのように極度に嗜好性の高い商品では、このようなことは無いでしょう。(姪少女とかが大好きな人が、お母さんは俺専用を嬉々として買うというのは、ちょっと考えにくいですよね)このように、エロゲーの嗜好性の高さは、特定のノードへのエッジの集中を緩和する働きがあると考えられます。その結果、次数分布はBarabasi-Albertが予言するものよりもなだらかになり、指数が3ではなく2となるのではないでしょうか。

むろん、参考文献1にはγ=2となるモデルも紹介されていますが、あえてもっとも単純なBarabasi-Albertモデルとの比較という形で議論しました。

スモールワールド
多くの複雑ネットワークが示す特徴の一つに、スモールワールド性というものがあります。これは、文字通り、ノードどうしの世界は小さい、ということです。もうちょっと厳密に言うと、
  • 大きいノード数のわりに短い「平均最短距離」
  • 大きいノード数のわりに大きい「クラスタリング係数」
という二つの要素から構成されています。

平均最短距離とは、あるノードと別のノードの最短距離を、すべてのノードについて平均したものです。このネットワークでは、平均最短距離は11.03でした。つまり、適当に二つのノードを選んだとき、平均11本のエッジを経由すれば、二つのノードを行き来できるということを意味しています。ノードが4000個もあるわりには、意外と短い距離で繋がっているというのが「スモールワールド」という言葉の含むところです。

クラスタリング係数というのは、友人関係のネットワークにおいて「私の友達AさんとBさんが、実は友達同士だった」確率のようなものです。友達と別の友達がこれまた友達同士だということは、それだけ自分のまわりの友人関係ががっちりとクラスターを形成していることを意味しています。今回のネットワークでは、クラスタリング係数の値は0.11でした。もしネットワークがランダムであれば、もっともっと小さい値になるはずです。


エロゲーの類似性関係ネットワークは、スモールワールド性も満たしていることがわかりました。すなわち、このネットワークは、複雑ネットワークと呼ばれる特性を満たしています。これは果たして意外なことでしょうか。いえ、そうではないでしょう。むしろ必然的に複雑ネットワークを形成していると言うべきでしょう。Barabasi-Albertの提唱したモデルは、
  1. 成長するネットワーク
  2. 新たなノードは次数の高いノードに対して優先的にエッジをはる
という二つの要素によって、ネットワークがスケールフリー性を獲得することを示しました。
エロゲー類似性ネットワークに対しては、次のような特徴があるでしょう。エロゲーは毎週発売されるので、その都度ネットワークに新たなノードが追加されます。さらに、次数の高いノードは暗にゲームの人気を示していますので、新たなノードは次数の高い≒人気の高いノードとエッジをつくる可能性が高いでしょう。これらは、BAモデルに類似したネットワークの成長機構と言えます。さらに、エロゲーの嗜好性の高さから、ノード同士のクラスタリング係数も高まるでしょう。

参考文献
  1. Albert, R., and A.-L. Barabási, 2002, Rev. Mod. Phys. 74, 47.
  2. 新ネットワーク思考—世界のしくみを読み解く
……なので、最新の動向は知りません。。

続きはこちら。
DVDの類似性関係を可視化して解析

続きを読む

エロゲーの類似性関係を可視化してみた

eroge_graph090204.png

アマゾンでエロゲーの類似性関係を垣間見る
この商品を買った人はこんな商品も買っています

アマゾンで買い物をしていると、「この商品を買った人はこんな商品も買っています」というメッセージが表示されます。たとえば、名作百合ゲー「カタハネ:注:18禁」のページでは、以下のようになります。

ここで推薦されている作品は、みな百合ジャンルの作品です。ある百合作品を買う人は、他の百合作品も買っている、ということです。ということは、「この商品を~」リストに提示された商品は、もとの商品と類似性が強いということができるのではないでしょうか。

ある商品について、それに類似した商品、にさらに類似した商品、のこれまた類似した商品…というように、似たものどうしのネットワークをどんどん広げていくことができます。このネットワークを広げていくと、全商品の間の類似性の関係を知ることができます。今回のネタは、似た商品どうしのネットワークを俯瞰し、図示してみよう、というものです。

グラフ理論をつかってみる

商品どうしの類似性を記述するために、グラフ理論を使います。グラフ理論は、モノとその間の関係を記述するのに適した手法です。以下、用語についてちょっと説明。グラフ理論では、ノードとエッジという考え方でモノとモノの関係性を記述します。今回の例では、ノードは商品、エッジは商品どうしの関連性に該当します。
graph.png
たとえば、カタハネを買った人が百合姫Sを買った場合、カタハネノードから百合姫Sノードに矢印を引くことで、エッジを表現します。さらに、両者からflower*flowerにエッジが伸びています。
各ノードに入ってくるエッジの数(or 各ノードから出て行くエッジの数 or その両方)をノードの次数と言います。今回の解析では、ノードから出て行くエッジの数に意味は無いので、ノードに入ってくるエッジを次数とします。この例では、カタハネ、百合姫S、flower*flowerの次数はそれぞれ0,1,2です。

可視化してみる

さて、それでは、アマゾンのデータを使って、類似性をグラフ化・可視化します。すべての商品についてグラフ化ができればいいのですが、残念ながら私の技量では不可能です。ですので、ある限定したカテゴリの中での商品どうしの類似性を可視化します。手始めに、アダルトゲーム、要するにエロゲの関連性について見てみましょう。

可視化されたグラフを示します。ノードは青から赤まで色分けされた円で示されています。次数が大きいほど、円の大きさも大きくなるようになっています。エッジは水色の線で表されています。結果は、巨大な一つの大陸(毛玉?)と、細々とした小さな島の形であらわされました。ノード数3999、エッジ数13158でした。

エロゲー類似性グラフ

これだけだと、なんだこの毛玉は、だけで終わってしまうので、大陸のどこにどのようなジャンルが存在しているかを図示していきましょう。

まずは、右上に存在する島。これだけが他の大陸から孤立しているように見えます。これらは女性向けエロゲー(BL・乙女ゲー)が集まる島です。やはりというか、男性向けエロゲーからは距離が遠いようです(非連結になると思ってたのですが、リンクがあるというだけで驚きです)。また、よく見ると、島は二つあるように見えます。左が乙女ゲーの島、右がBLゲーの島のようです。

続いて、大陸の左側に目をやりますと、オレンジ色のノードが集中している箇所があります。ここには純愛ゲー・学園モノが集まっているようです。大陸の右側には、陵辱ゲームの集まる地域があります。この相対する二つのジャンルが大陸の正反対にあるということは、それぞれのジャンルの愛好者の重なりは少ないのでしょうか。

大陸の下側には、いわゆる抜きゲーが集まっているようです。若干驚いたのは、抜きゲー地域の右側には、どうも孕ませゲーが集まっている傾向があることです。孕ませ属性が、エロゲーの中で確固たる地位を獲得しているということでしょうか。

私にとって最大の驚きは、右下に熟女人妻(あと母親)モノが集合しており、なおかつ高い次数を持っているということでした。私はこれらの属性と全く無縁なので、驚きというか、正直、くらくらします。ちなみに、これらの属性と相対するロリえろげーの集まる地域はありませんでした。かの忌まわしき頭身規制に始まるロリゲーの凋落をまざまざと見せつけられたわけで、落ち込むことしきりです。

大陸の辺縁にある緑色の島は、低価格ゲームが集まる島のようです。大陸中央部には、アリスソフトのゲームや、シミュレーション・RPGが集まっているようでしたが、カテゴリ分けするには雑然としすぎていたので特に記入はしませんでした。

エロゲー類似性グラフ(注釈つき)


解析手法

グラフの構築
グラフを構築するためには、まずはAmazonから商品情報を取得しなければなりません。そのために、Amazon Associate Web Serviceを利用します。以下のようなURLにアクセスすると、商品情報を記載したXMLを取得できます。
http://ecs.amazonaws.jp/onca/xml?Service=AWSECommerceService&AWSAccessKeyId=[MY AWS KEY ID]&Operation=ItemSearch&BrowseNode=927712&SearchIndex=VideoGames&ResponseGroup=Large&Version=2008-08-19&ItemPage=1

これを用いて、以下の順で商品のIDとその関連商品のIDのリストを作成します。プログラムはperlを用いて書きました。
  1. エロゲーカテゴリー内で、AWSが許可している最大4000アイテムの商品情報を取得
  2. 商品ID(ASIN形式で指定されている)をノード、商品の類似性をエッジとして、作成されたリストからGML形式で有向グラフを書き出す
  3. 商品IDとその他関連情報(タイトル・ブランド・発売日etc、ノードの次数)をcsv形式で書き出す
ただし、関連商品に別カテゴリの商品が指定されていた場合(上の例で言えば、ゲームの関連商品が書籍だった場合)は、その関連商品を無視します。

可視化
可視化には、Cytoscapeを使用しました。Cytoscapeは、Javaベースのネットワーク可視化ソフトで、WinXPでもUbuntu Linuxでも問題なく動きます。さらに、今回のように高々4000ノード程度のネットワークなら苦もなく美しい画像を描画してくれます。また、開発者が日本人の方らしく、日本語対応も完璧です。もともと、バイオインフォマティクス用途のソフトであるようなので、私に縁のない単語が多用されていましたが、グラフを可視化する上での障害にはなりませんでした。

Cytoscapeの起動後、
  1. Import→Network(mulitple file types)でgmlファイルの読み込み
  2. Import→Attribute from Tableで、各ノードに属性を付加
  3. Layout→Cytoscape Layouts→Spring Embeddedでレイアウト
  4. VizMapperで、ノードのサイズをノードの次数に比例するように設定
の順に行い、可視化いっちょあがりです。Spring Embeddedは計算に時間がかかるので、最初はCircular Layoutとかのほうがいいかもです。

問題
AWSでは、最大4000アイテムしか取得することができません。これでは、全えろげーを網羅することができません。(どうも1万タイトル以上のえろげーがこの世には存在するようです)
また、さらに悲惨なことに、各アイテムに対して、最大5つの関連商品しか取得することができません。これでは、定量的な議論に耐えられるかどうかはなはだ不安です。
改善策はありますが、私のしょぼいプログラミング能力では実装に時間がかかりそうなので、しばらくは泣く泣くデータの取得をAWSのみに頼ろうと思います。

続きはこちら。
エロゲー類似性ネットワークを複雑ネットワークで解析してみた
プロフィール

null

Author:null
二次元眼鏡少女に蔑まれたいです。

最近の記事
最近のコメント
最近のトラックバック
タグ

考察 統計 ネット 複雑ネットワーク 自然科学 二次元 幼女 エロゲー ネタ アニメ 百合 時事ネタ 計算 igraph R 

月別アーカイブ
カテゴリー
あわせて読みたい
あわせて読みたいブログパーツ
ブログ内検索
カレンダー
08 | 2017/09 | 10
- - - - - 1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
RSSフィード
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。