読書の1000冊記念に読書記録を分析してみる

前口上

2008年頃から読書記録をつけ始めてはや8年ぐらい。
読書記録が1,000冊を達成したので、読書遍歴の振り返りとお遊びを兼ねて、読書記録の分析を行ってみる。

ソースデータのレイアウト

自分の読書記録。現在はGoogle Spreadsheetで管理している。以前はExcelだったりLibreを使っていたのを移行しているので、ところどころでデータが汚い。
あと、amazonの書誌情報（特に著者）を使っているのもデータが汚れている一因。
本当はNDLに統一したかったんだけど、以前の調査結果では、書誌情報(タイトル)がかなりいけていなかったので、著者名や出版社名よりもタイトルを優先してamazonを使用し続けている。

レイアウトは下表のとおり。あまりマシンに優しくないレイアウト。

列名	説明	例
#	単純な連番	1
タイトル	本のタイトル	構造化分析とシステム仕様―目指すシステムを明確にするモデル化技法
著者	著者名と出版社名かな。amazon API的にはItemAttributes/Publisher	トムデマルコ(日経BP出版センター)
読み終わった日	読み終わった日	2008/07/24
感想・評価	感想。書いたり書かなかったり。	有益な本。基本的にはDFDの説明に終始しているんだけど、社内の研修だけでは得られない観点でDFDを書けるような気がする。是非とは言わないが、可能ならば購入しておきたい一冊
補足	感想のさらにどうでも良い補足。	借りるかも
ISBN	10桁または13桁のISBN.かなり古い本だとない。あと、移行データにはISBN:というプレフィックスが付いていることも...。	4822710041
NDC9	本を分類するために使っている国会図書館の分類(NDC9)。ちょっと古い本だとNDC8しかないのでブランクもままある。	007.63
NDC9グラフ用	NDC9から整数部を導出。NDC9が取れない場合には「不明」	007
NDC9 2次区分	NDC9の2次区分をコード表より導出。	総記
NDC9 3次区分	NDC9の2次区分と3次区分を>で連結した内容。コード表より導出。	総記>情報科学
読了年月	読み終わった日の年月	2008年7月
読了年	読み終わった日の年	2008
読了月	読み終わった日の月	7
著者のみ	著者列の著者名部分のみ。(...)の前の部分	トムデマルコ

分析の方向性

やってるうちに変わるかもしれないけど、分析の方向性としては以下のようなことを考えている。
なお、年月別読了冊数、全体の読書分野については、今の読書記録の中でもグラフ化ぐらいはしているので、あえて今回の分析の対象外。

時系列での読書分野(NDC9)の推移: 読書を習慣にし始めたころは仕事関連(総記)の読書が多かったけど、最近は総記の割合が減ってるんじゃないかなという問題意識
時系列でのお気に入り著者の推移: 最初の頃は図書館で目にした本を矢鱈ととっていたけど、最近はお気に入りの著者がある程度収斂してしまっているのではという問題意識
感想入力している本についてのネガポジ分析: 良いツールが利用可能だった場合限定になると思うけど...。何を使うのかは少し検討してから。

ネガポジはまだ思案中だけど、とりあえずの候補としては以下。

ステップ0：データのクレンジング

まずはここから。改めて見直すと、まぁ汚い。

元データの修正内容

古いエントリの中には、ISBN列の値に「ISBN:」なんてわざわざ書いているレコードがある。不要なので除去
実体参照(&とか)のセミコロンが区切り文字と見なされてしまって、セルの位置がずれてしまっていた。
「読み終わった日」に「だいぶ前」が記録されているので、最小値として2008年7月1日を設定。(データの正しい最小値は2008年7月8日)

分析 Part1 時系列での読書分野

では、さっそく分析にとりかかる。
とっかかりは、シンプルに時系列での読書分野の推移を見てみる。
使うツールはLibreOffice(ホーム | LibreOffice - オフィススイートのルネサンス)でも良いんだけど、折角の機会なので新しいツールを使ってみることに。
で、今回の選択はQlikView。
global.qlik.com
選択の基準とか、ADとかいうほど大げさではなく、単純に以下の理由から。

冒頭にも書いたように、BIツールを使ったことがあまりないくせに仕事では偉そうなことを口走っている自分がダメだから。
個人使用で、フリーで使えるBIツールといえば、QlikViewぐらい*1しか選択肢を見つけられなかった...。Pentahoは試用期限付きだし。Cognos insightに至っては見つけられない...(泣)。Bluemixを使うほどでもないので。

で時系列での読書分野をダッシュボードに表示してみる。
どうやらQlikViewでは、こんな感じでマトリックス状にグラフを並べるのはトレリスというらしい。各象限には第1軸として設定した項目(この場合、読了年)に沿ってアサインされる。
f:id:kazyury:20160426002712p:plain

所見

なんとなく抱いていたイメージのとおり、NDC9 2次区分＝日本文学(要するに小説)の比率が年を追って増えている傾向。
例外は2013年。この年は、「総記」が一寸盛り返しているのと、「その他」に割り振られた分類*2が多い。
総記を見てみると、こんな感じ。どうやら要求管理とかのキーワードに反応していた時期らしい。
f:id:kazyury:20160426003819p:plain
あと、2013年のNDC9 2次区分を全部出してみるとこんな感じ。乱読はなはだしかった様子。
しかし、「ステーキ！」とかジョジョの名言とか、回文とか、ピエール瀧とか、、、。本当に節操がない。呆れたもんだ。
f:id:kazyury:20160426004337p:plain

結論＆考察

時間が経つにつれて読書分野の中で小説が占める割合が増えてきている。
最初のうちは、まじめに仕事関連の本とかビジネス啓蒙書とかの類を一生懸命に読んでたけど、だんだんと通勤時間が小説を読む時間になっているということか...。
思い当たる節はなくもない。
専ら図書館から借りてきた本を読んでいるんだけど、総記の専門書の類ってあんまり旬な本が補充されてこない。
リクエストしてもいいんだけど、読者が少ないから図書館も及び腰だろうし。
amazonのほしいものリストにも、地元の図書館にはないIT関連本がまだ結構積んであるし、少し自腹を切った方が良いのかな。
とはいえ、中古なら安くなっている。例えば、こんなんも中古なら買っても良いかなぁ。

Documenting Software Architectures: Views and Beyond (SEI Series in Software Engineering)

作者: Paul Bachmann, Felix Bass, Len Garlan, David Ivers, James Little, Reed Nord, Robert Stafford, Judith Clements
出版社/メーカー: Addison-Wesley Professional
発売日: 2002/09/26
メディア: ハードカバー
この商品を含むブログ (1件) を見る