先日の投稿(1月22日「豊かな自治体ほど図書館が利用されている?」)について、コメントを頂いたそうです。「都心部にある図書館は、通勤などで利用する人が多いから、貸出数が多くなるのでは?」ということでした。(反響を頂けるとは思わなかったので感激です。ありがとうございます!)もっと早くに書きたかったのですが、続きのご報告が遅くなって申し訳ありません。以下、少し長くなって恐縮ですが、補足させてください。
ご指摘の件ですが、はい、その可能性はあると思います。貸出密度とは、貸出数/その自治体の人口、なので、厳密に言えば、その自治体の住民が借りているとは限りません。
そこで、東京都公立図書館データをもう一度見て、「(個人利用の)自治体内貸出比率」を出してみました。(貸出冊数内訳うち自治体内貸出数を個人貸出総数で割ってみました。)この「自治体内貸出比率」と「貸出密度」との相関係数を出すとr=-0.670。強い相関関係がみられました。「他自治体からの利用率が高い図書館ほど貸出密度の数字が高くなる」という事実は重要だと思います。貸出密度を指標とした分析の限界が示唆されますね。これも、別解釈をご指摘いただいたおかげです!どうもありがとうございます。
興味深い結果が得られたのですが、1つだけ注意も必要です。「自治体内貸出数」はデータに欠損が多く(=統計を取っていない自治体も多く)、都内自治体総数58のうち、37の自治体しかデータがそろわないのです。つまり、r=-.670という相関係数は、データの一部で見られた関係であって、すべてのデータがそろった時にどうなるのかはわかりません。 なお、こうした「データの欠損」は、データ分析ではよく見られます。たとえば世論調査の回収率は良くて60~70%です。「わからない」という回答もよくあります。利用できるデータが限られるときは、欠損を補うような補正をかけることもありますが、全体を推測するときには注意が必要です。 今回についていえば、利用者アンケートなどを併用するのが望ましいかもしれませんね。
さて、こうして、別解釈の可能性を考えるということは、データ分析において常に重要な課題です。そして一番面白いところです。 こうしたコメントを頂けて光栄です。
今回の分析例でいえば、「一人当たり税額」と「貸出密度」に相関がみられたとしても、別の変数(自治体の図書館予算や産業、利用者の年齢・学歴・職業など)を介した「疑似相関(見せかけの相関)」ではないかということはつねに頭に入れて考察する必要があります。複数の変数の効果を同時に検討する際には、 重回帰分析などの多変量解析を用いるのが1つの対策ですが、それで完了ではありません。データ分析の結果はあくまでも、「なぜそのような関係が出てくるのか」を考える次の出発点になります。(え?それじゃ意味がない?いえいえ、このサイクルが重要なのです。)
もう1つ大事なことがあります。比例や反比例などの共変関係が認められても、因果関係があるとは限りません。(税金をたくさん納めれば本を借りるというわけではありません。)因果の推測は難しいので、厳密にはランダムアサインメントを用いた「実験(対照実験)」が必要になります。(A/Bテストと呼ばれることもあります。)
ちなみに、社会情報学専攻では、隔年ではありますが「実験計画法」の授業も受講できます。簡単な心理学の実験なども体験できる授業です(私の担当ではありませんが、カリキュラムのひそかな自慢です)。ここでご紹介した研究法について 関心のある方は、安藤清志・村田光二・沼崎誠 (編)(2017)『社会心理学研究入門 補訂新版』(東京大学出版会)をぜひご一読ください。 私も第10章を担当しています。
なお、こうしたトレーニングは、学部の授業でも行っています。その一部はまた後日ご紹介させてください。
簡単な分析ができるだけで、他にもいろいろなことが見えてきます。長くなってしまったので、次回に続きます。