統計分析

最近、仕事関係や川崎市の委員会の関係で、統計解析を多く行っている。

難しい。

計算は簡単だ。私は、専門ソフトを持っていないが、スプレッドシートでもすぐにできるので、手作業ではない。それに、基本的な計算はソフトに含まれているので、さらに簡単になる。問題は別なところにある。

まず、どういう質問をするべきであるか、と。解析の結果の意味が分からないと、しても意味はない。しかし、意味のある結果を得るために、意味のある質問をしなければならない。統計解析では、基本的二つの結果を比較する。一つの結果ではいわゆる記述統計は計算できるが、解釈は難しい場合は多い。一方、比較で「この方が高い」とか「これとこれが異なる」などの理解出来る結果は出る。例えば、薬を服用した人が、薬を服用しない人より回復したという結果は、医学研究では基本的だが、統計的な比較になる。

ただし、なんでも比較すれば、幻の結果が発生する。確率の問題だから、今回の例で偶然に極端的な結果が出る場合はある。その確率は計算できるが、例えば比較を100行ったら、100回に1回発生する結果が発生する可能性は高い。だから、なんでも比較すれば、結果を信頼できないことは極めて多い。そのため、結果には意味がある比較に事前に絞って、それだけを検討する。結果を見ずに「これは知りたい」という比較には、100回に1回の結果が出れば、事実を反映する結果であると思えるだろう。

この確率を計算する統計的な道具はある。しかし、この道具は数学の道具だから、データについての前提がある。データがその前提を満たないと、結果は危ういので、比較した結果は本当に違うかどうかは、わからなくなる。だから、データの質について考えなければならない。そして、普段使用する道具は不適切であれば、別な使える道具を探さなければならない。これも難しい。

最後に、データは本当に何を表すかを考察しなければならない。例えば、調査で「ユーフォを見たことがあるのか?」と聞いたら、その結果はユーフォの存在とすぐに繋がらない。同じように、「上司からいじめられたことがある?」と聞いたら、その人の感覚を聞いている。客観的な事実ではない。もちろん、上司に「部下をいじめたことがあある?」と聞いても、客観的な答えがでないので、これは避けられない問題だが、対応を慎重に考えなければならない。

そして、解析はこれでできたら、さらに問題が発生する場合もある。結果はある団体などが重視する主張と違ったら、その反発を考えなければならない。統計的なデータにはいつも間違えた可能性があるので、断定的に「これだ」とは到底言えない。表現の問題も重要である。

つまり、最近の作業は大変だった。実りのある結果になるように祈って已まない。