読者です 読者をやめる 読者になる 読者になる

書評「統計学が最強の学問である」

最近、「ビッグデータ」がバズワードなっている関係で「統計学」にも注目が集まっている。そうした中で、話題になっている本書「統計学は最強の学問である、西内 啓、ダイヤモンド社、2013/1/25」を遅ればせながら読んでみた。小生が購入した本は2014年1月16日第13刷版であった。わずか1年で第13刷とはすごい。本の帯には「30万部突破!!」と書かれている。印税が10%として、4,800万円である。統計学の本で家が建つ。すごい!!

統計(学)そのものをテーマにした本を読むのは久しぶりである。統計(学)と、「学」を( )書きで書いたのは、「学」と云うほどの理論をきちんと書いたものではなく、統計(学)のキュレーション的な効能書きといった感がするからである。あるいは、簡便な統計(学)のレビューという感じである。

若い頃に学んだ統計学の世界と現在の統計学との違いを垣間知ることができる。実務で使った統計手法の位置づけを再整理してくれる。少し統計学あるいは統計手法を触った方には、改めて統計(学)の全体をざっと見直すには良い本だと思う。

まず、「統計家」なる職種が存在することを知った。おそらく従前は「統計屋」「統計士」であったと思われるが、統計を扱う職種の地位を高めたい表現なのだろうと推察される。翻って、小生の元々の出自の世界では、いまだ自他とも「土木屋」で、「土木家」とはついど聞いたことがない。

本書のタイトルとなっている「最強の学問」という表現も、肩に力が入っているなあという感じがする。恐らく、これぐらい強く訴えなければ、統計家の社会的存在が上がらないので、そういう表現にしたと推察されるが、その意味では一般社会だけでなく、統計家にとっても啓蒙書なのではと理解できる。

そうした意味とは別に、確かに、訳の分からない理屈(多くは屁理屈)や感情、声の大きさで物事が決まる俗事を、統計処理した有意なデータで事実(関係)をみせて判断を促すことは極めて説得力を持つ、という意味では「最強」なのかもしれない。しかし、現在の日本ではそれでも事実以外のところで物事が決まることが多い。「データ」が「情報」あるいは「インテリジェンス」まで昇華されていない。活用されていない。つまりは、リスペクトされていない。

本書は全体を通じて著者の(啓蒙家としての)思いを強く感じる。全体に平易に書こうとしているが、一方で当然分かっているだろうという書きぶりもある。例えば、いきなり「ランダム化」と言われても、統計手法・データを実際に扱った経験のない方には、それがどういうことか、どうすれば「ランダム化」できるのか、理解するのは難しい。その説明はかなり「ランダム化」に絡んだ話が進んだ後に出てくる。そして、最後に、単に、Excelで RAND() を使えばできますよ、と言われても、悩む読者は少なくないのではと思われる。逆に、「ランダム化」と言われて、その意味・方法が頭に浮かぶ人は、本書のレベルでは物足りないと思われる。

統計学の使われる分野についても、6つに分類して俯瞰的に説明され、それはそれで意義あることであるが、著者の出自の生物統計学に軸足を置いた説明で、他分野の方から見たら、ちょっと違うなと感じる方が多いだろうと思われる。ましてや、理工学分野における統計学(工業統計学等)について全く触れられていないのは、「ものづくり」を標榜する日本という観点からして、そして工学分野の出身者から見て不思議に思う。分類の仕方が少しおかしいし、一般社会の人に誤解を与えかねない。

統計学の6つの分野 1. 実態把握を行なう社会調査法 2. 原因究明のための疫学・生物統計学 3. 抽象的なものを測定する心理統計学 4. 機械的分類のためのデータマイニング 5. 自然言語処理のためのテキストマイニング 6. 演繹に関心をよせる計量経済学

本書を読んだ最大の収穫は、過去に囓ったいろんな統計手法が「一般化線型モデルgeneralized linear model」で体系化されることを図表25(p.170)で知ったことである。感激もした。感激した意味は、「generalized一般化」という用語についてである。小生が院生時代に交通分野の専門用語(generalized cost)を「一般化費用」と論文で表記し、その後、その用語が定着したことを思い出したためである。

さらに、興味深い記述もある。エビデンス(科学的根拠)の4階層のヒエラルキー(図表56、p.283)について言及している箇所で、「一番下層に属するエビデンスは『専門家の意見』と『基礎実験の結果』である。専門家の意見がエビデンスとして最低限の信頼性しかないというのは今更書くまでもないと思う。」とある。これは、統計家という専門家を含めたことなのか、福島第一原発事故時の原子力専門家の意見なのか、STAP細胞論文疑惑を評する専門家の意見なのか、それとも・・・。今更ながらでも具体例をもって書いて欲しかったところである。

そして、最後に、ヒエラルキーの最高のエビデンスは「メタアナリシス」と「系統的レビュー」であると言う。本書自身が冒頭に書いたように、雑ぱくながら統計(学)の系統的レビューである。すばらしいシナリオ展開で本書が構成されている。本書が売れるわけである。

本書を読んで、次は工業統計家、土木(計画)家の書いた統計学のレビュー書を読みたいと思った。