スポンサーサイト

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。

DQNネームの世界

前回のエントリの続きです。

前回は、ゲーム(当然エロゲ)に登場する女の子の名前にしばしば抱く「えろげえろげしい」という漠然とした印象が、名前が構成する空間の構造に表れているのではないかと予想し、複雑ネットワークの手法による解析を試みました。リアルの女の子の名前と、二次元キャラの女の子の名前を比較したところ、後者のクラスタリング係数はランダムグラフに匹敵するほど低く、二次元キャラの命名には、かなり(ランダムに|てきとーに|節操なく)文字を選んでいるのではないかということが垣間見えました。しかしながら、双方ともγ~1のスケールフリーネットワークであることに違いはなく、前回の元ネタ論文にあるようなドラスティックな変化を見るまでには至りませんでした。

それでは、二次元キャラを越えるほどの「変な」名前はないのでしょうか。幸か不幸か、あるようです。それが、今回考察の対象とするDQNネームです。

DQNネームとは、Wikipediaによると、
最近の(特に2000年以降の)子供の名前に見られる、暴走族のような当て字(愛羅=あいら、など)や漫画・アニメ・ゲームなど架空のキャラクターからとった当て字の名前(光宙=ぴかちゅう、など)のように、読みづらい名前や、常識的に考えがたい言葉を戸籍上の名前にすることをDQNネームと呼ぶ場合がある。
というものだそうです。漢字本来の意味を無視してつけられた名前が多いようですので、一般的な名前とは異なる構造を持っている可能性がありそうです。今回は、DQNネームな名前が構成するネットワークの構造を調べていきたいと思います。

DQNネームを収集しているサイトとして、DQNネーム(子供の名前@あー勘違い・子供がカワイソ)があります。このサイトで公開されている名前の中から、2文字の女の子の名前を抽出し、ネットワークを構成します。(例えば、「幼女」という熟語を、ノード「幼」からノード「女」へエッジが伸びているとみなすのです。詳しくは前回のエントリとその参考文献をご覧ください。また、女の子限定なのは野郎の名前なんか見てても面白くないからこれまた前回のエントリとの整合性を持たせるためです。)

ここで、データソースに関する注意をいくつか。
上記のDQNネーム収集サイトは、2chへの投稿からの抜粋で作られているようです。ですので、ネタ・捏造が含まれていても全く不思議ではありません。データソースとしての信頼性は著しく低いと言わざるを得ません。さらに、目を疑いたくなるアレな名前から、ちょっと変わっているけど十分許容範囲の名前まで、すべて一緒くたにDQNネームとして扱われております。DQNネームの定義があやふやです。ですので、ここで扱うデータは、「DQNネーム」というより、「2chのスレ住人がDQNだと思う名前(らしきもの)の集合」くらいに思っておいた方が精神衛生上いい気がします。こういう、いろんな意味で玉石混交なデータを扱っていることを踏まえつつ、解析に移りましょう。

まずは、お馴染みの次数分布から。
下図で、左がDQNネームのネットワーク、右が比較のために用意した、平成15年生まれの子供の名前ネットワークの次数分布です。青線は、べき乗則を示す曲線で、P(k)の値が大きいところで合わせています。P(k)の高いところではべき乗的に振る舞い、P(k)の低いところではばらつきが大きくなっています。これは、DQNネームの場合も、平成15年生まれの場合も同一の傾向となっています。正直、またかという感じではありますが、グラフをよく見てみると、両者の相違が見えてきます。

dqnvsh15.png

DQNネームでは、ばらついた点の多くが、青線よりも上に存在します。包絡線はあたかも下に凸となっているように見えます。それに対して、平成15年生まれの場合には、点の多くが青線よりも下に存在します。こちらは包絡線が上に凸となっています。この傾向は、実は前回調べた2次元の女の子の名前の場合も同一です。点のばらつきが下に凸となる傾向は、DQNネームに特有の傾向であると言えそうです。

さらに、次数分布P(k)~kの指数γについて見てみましょう。
この値は、DQNネームの場合には約1.5、平成15年生まれの場合は約1となっています。前回の調査では、リアルの名前であれ、二次元の名前であれ、γの値は1程度(最大でも1.2くらい)でした。これを見ると、DQNネームのγ=1.5というのは、特殊な大きい値であると言えるのではないでしょうか。

他のパラメータについても見てみましょう。
ノード数(ここで使われている漢字の数)、エッジ数(名前の数)、クラスタリング係数C,平均最短距離l、平均次数<k>、そして指数γについて、次表にまとめました。

 ノード数エッジ数Cl<k>γ
DQNネーム70853330.1923.18215.061.5
平成15年生まれ882130860.3202.83329.671


まず分かるのは、両者ともノード数が同程度であるにもかかわらず、エッジ数はDQNネームのほうが平成15年生まれよりも半分以上少ないということです。これは、使用されている漢字の種類は同程度でも、DQNネームは名前のバリエーションに乏しいということを示しています。逆に、名前の種類が同程度でも、DQNネームに使われる漢字の種類は多いというふうにも言えます。

続いて、DQNネームのほうが、クラスタリング係数が小さく、平均最短距離が大きく、平均次数が小さいことがわかります。これは、DQNネームでは、漢字どうしの相関が低く、グラフとしてはまばらになっていることを示しています。

上で示したグラフの特徴は、DQNネームの特徴として挙げられている、当て字や、漢字本来の意味を無視した名付けと整合性があるように思われます。当て字を用いるということは、従来のオーソドックスな名前のグラフが持つ構造をぶった切って、新しい(おそらくランダムに近い)エッジを入れることに相当するでしょう。漢字の意味を無視した名前も同様の効果があるでしょう。そうなると、各人が従来の名前の構造を無視して思い思いに漢字を選んで名前をつけることになりますから、使われている漢字の数に比べて名前の数が少なくなるというのは納得できなくもないのではないでしょうか。また、上記のような名付けのプロセスでは、よりランダムに近い名前の付け方をしているわけですから、クラスタリング係数が小さくなる傾向と一致します。

というわけで、DQNネームが持つ変わった印象が、ネットワーク分析によって裏付けられたという話でした。

コメントの投稿

非公開コメント

プロフィール

null

Author:null
二次元眼鏡少女に蔑まれたいです。

最近の記事
最近のコメント
最近のトラックバック
タグ

考察 統計 ネット 複雑ネットワーク 自然科学 二次元 幼女 エロゲー ネタ アニメ 百合 時事ネタ 計算 igraph R 

月別アーカイブ
カテゴリー
あわせて読みたい
あわせて読みたいブログパーツ
ブログ内検索
カレンダー
10 | 2017/11 | 12
- - - 1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30 - -
RSSフィード
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。