迷途覚路夢中行

ますます訳の分からない世界になってまいりました

全体表示

[ リスト ]

不正の疑い濃厚

例えば、ある日の朝刊の1面から3面までの全紙面を見て、かたっぱしから数字を抽出する。
年号、内閣支持率、ある容疑者の年齢、など何でもいいから数字だけを集計用紙に書き出す。
そして、それぞれの数字の一桁目(つまり、最高位)の数字について、出現回数をカウントしてみる。

直感的には、数字は1〜9までの9通りあって、その出現回数はほぼ同じ(等確率)と思われるかも知れない。
しかし、実際は違う。明らかに偏りが認められる。
どう違うかというと、まさに1〜9の順番になっているのだ。

これは新聞紙に出てくる数字に限らない。
およそ森羅万象、すべての事象に見られる普遍的な現象である。

これを 「ベンフォードの法則」 という。
(詳しい説明は ウィキペディア を見てネ)


下図は1〜9の理論的な確率分布を表している。



確率密度関数は、数字1〜9を n として次式で表される。




たとえば、物理学の教科書をひもといて、ありとあらゆる物理定数(重力加速度9.8とか光速30万キロとかアボガドロ数6.02かける何とかとかプランク定数4.135云々)を調べてみると、こうなる。
理論と現実のこの合致は見事というほかない。




したがって、もしある事象から得られた数値の集合において、それらがベンフォードの法則に従っていないならば、そこには何らかの人為的な操作・介入・不正が働いたと言うべきである。

このことを、以前行われたAKB48総選挙で検証した人がいる。



この場合は各メンバーの得票数が対象となるが、その分析をつぶさに拝見すると、これはもう極めて不自然な投票結果であると言わざるを得ない。


http://hosohashi.blog59.fc2.com/blog-entry-15.html



このベンフォードの法則は先日行われたロシアの大統領選挙の投票分析にも適用できる。

実際、Ben Goldacre という人が統計ソフト Stata を使って行なっている。
その Stata プログラムを Richie Cotton という御婦人が R に移植されている。


これが彼女の書いた R のスクリプトだ。

russian <- read.csv("Russian observed results - FullData.csv")
library(reshape)
library(stringr)
library(ggplot2)
russian <- melt(
russian[, c("Zhirinovsky", "Zyuganov", "Mironov", "Prokhorov", "Putin")],
variable_name = "candidate"
)
russian <- ddply(
russian,
.(candidate),
transform,
first.digit = str_extract(value, "[123456789]"),
last.digit = str_extract(value, "[[:digit:]]$"))
first_digit_counts <- as.vector(table(russian$first.digit))
first_digit_actual_vs_expected <- data.frame(
digit = 1:9,
actual.count = first_digit_counts,
actual.fraction = first_digit_counts / nrow(russian),
benford.fraction = log10(1 + 1 / (1:9))
)
last_digit_counts <- as.vector(table(russian$last.digit))
last_digit_actual_vs_expected <- data.frame(
digit = 0:9,
count = last_digit_counts,
fraction = last_digit_counts / nrow(russian)
)
last_digit_actual_vs_expected$cumulative.fraction <- cumsum(last_digit_actual_vs_expected$fraction)
a_vs_e <- melt(first_digit_actual_vs_expected[, c("digit", "actual.fraction", "benford.fraction")],
id.var = "digit")
(fig1_lines <- ggplot(a_vs_e, aes(digit, value, colour = variable)) +
geom_line() +
scale_x_continuous(breaks = 1:9) +
scale_y_continuous(formatter = "percent") +
ylab("Counts with this first digit") +
opts(legend.position = "none")
)

第一行目で、投票データの CSV ファイルを読み込んでいる。
これは グーグル Docs に置かれているので、あらかじめそこからローカルPCにダウンロードしておく。


ファイルの内容は、ロシア全土2170ヶ所の投票所における、5人の候補者(Zhirinovsky、Zyuganov、Mironov、Prokhorov、および Putin)の得票数である。

これら全ての数値を対象として、それぞれの一桁目の数字(1〜9)の相対度数分布を求めて、ggplot2 によりベンフォードの理論曲線とともにプロットする。


下図がそのグラフである。




これを見ると、今回の大統領選挙また
組織的な不正がまかり通っていた疑いが極めて濃厚である。


そこで、頬を伝う一筋の涙がいかにもわざとらしい、正統性に欠けるプーチン大統領にお願いでごじゃる。




シリアから即刻手を引け!
日本の固有の領土北方4島を直ちに返還せよ!
大戦終結後のシベリア抑留という非合法・非人道的行ないを謝罪せよ!





この記事に

閉じる コメント(5)

顔アイコン

サンプル数40程度ならそれくらいばらついても不思議じゃないよ。 削除

2013/6/4(火) 午後 3:08 [ 555 ] 返信する

顔アイコン

AKB48の総選挙データはそうかもしれませんね。

2013/6/4(火) 午後 4:47 fusion 返信する

顔アイコン

「すべての事象に見られる普遍的な現象である。」
↑もはやこれが嘘。
捏造体質の人間は尤もらしい嘘をついてでも他人を騙そうとする。
これがその典型。

2014/11/24(月) 午後 11:08 [ samosamo ] 返信する

顔アイコン

いやいや、話を盛り上げるためのレトリック。

マジレスは興ざめ

2014/11/24(月) 午後 11:46 fusion 返信する

顔アイコン

P.S.

(詳しい説明は ウィキペディア を見てネ)と書いてるでしょうが。

で、ウィキペディアには、
”しかしながら、こうした用法には注意を払う必要がある。実社会のデータは、そのデータの種類に応じて数値の分布の仕方が歪められていることがあり、その程度に応じてベンフォードの法則を満たさないことがある。”

これを読んだ上での、
「すべての事象に見られる普遍的な現象である。」(アハハ)

2014/11/25(火) 午後 7:42 fusion 返信する

コメント投稿

顔アイコン

顔アイコン・表示画像の選択

名前パスワードブログ
絵文字
×
  • オリジナル
  • SoftBank1
  • SoftBank2
  • SoftBank3
  • SoftBank4
  • docomo1
  • docomo2
  • au1
  • au2
  • au3
  • au4
投稿

開く トラックバック(1)


.


みんなの更新記事