読者です 読者をやめる 読者になる 読者になる

『 統計技師への道 』

読書と実践:メモランダム

MLP 深層学習 Deep Learning

読んだ。

深層学習 (機械学習プロフェッショナルシリーズ)

深層学習 (機械学習プロフェッショナルシリーズ)

 

かなり、今更な感じだけど。

 

 この本を読もうと思ったきっかけは最近の記事で、なんちゃっての人工知能が多いように感じたから。(従来からあるIT技術をAIだとか言ってる人がいたり。。。)

 

内容は基本的な事を広く、浅くの網羅的な感じ。

初学者向けだと思うが、もう古い感じもする。この手の分野はスピードが速いので本が出るのを待つより、論文やネット検索のほうが情報が新鮮で良いのかもしれない。

プログラムなどの記載はなく、数式は出てくるが、まあ読めなくはない程度。

自分は門外漢なので、順伝播型、確率的勾配降下法、backpropagation、自己符号化器、CNN、RNN、ボルツマンマシンなどなど、単語が出てくるたびに『へ~』、『ふ~ん』と知識欲が満たされる感じで面白かった。

 

メモ:統計学的精度管理について

ここ数年、測定したデータを集計・統計解析を行い、その解析対象項目の流行予測や県内の分布状況の可視化を試み、販促活動につなげてきた。

その過程で使用していた分析装置の精度管理値の計算方法を目にしてふと気になった係数(1.88と2.66)について調べてみたので知識の整理として残す。

 

用語:管理図法について

管理図法は,測定に関する品質を把握するための手段であり,設定した品質を測定日あるいは測定サイクルごとに管理試料を用いて定量的に把握するものである.このうちXbar-R管理図法は,品質管理の基本的な手法であり,その原理と使い方のルールが理解できる.また,複合管理図としてのXbar-Rs′,Xbar-Rs-R管理図法は,問題点の抽出と改善の手立ても可能な特性があることが理解できる.精度管理図は,作図することにより視覚的な観察が容易となるが,観察から的確な判断をするためには,測定試料の性質と測定方法の特性および測定装置の性能の把握が役に立つ(参考資料から抜粋)

 

用語:3シグマ法

打点した統計量の平均値を中心として、その上下にその統計量の標準偏差の3倍の幅に記入した管理限界を用いる管理図法。

 

◎本題:1.88と2.66について

教本では管理値の計算方法は下記のように記されている。

管理試料を毎日2重測定する場合で計算すると、3シグマ法の管理限界は

Xbar-R管理図法では   Xbar±1.88Rbar

Xbar-Rs-R管理図法では  Xbar±2.66Rsbar  となる。

 

これは、管理限界値=±3倍の標準偏差であるためXbar-R管理図法では

 管理限界=±3×Rbar/(d2√n) となる。この式でnは2重測定のため2となりn=2の場合のd2は1.1284となる。√2は1.4142であるため前述の式に代入すると

管理限界=(3/1.4142×1.1284))×Rbar=±1.8799×Rbar  となる。

 

またXbar-Rs-R管理図法では、Rsの場合はnが常に2であるためd2は1.1284となり

管理限界=±3×Rs bar/d2 = ±(3/1.1284)×Rs bar = ±2.6586Rs bar       となる。

 

大したことのない内容だったが、唐突にこの数式だけ出てくると(?)っとなってしまった。まだまだダメダメだ。

データ分析の力 因果関係に迫る思考法 + 問題集

 読んだ。

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

 

 本書でも説明してるが、データ分析の専門家ではない人へ向けての入門書。

岩波データサイエンスvol3を読んでから因果推論と計量経済方面に走りつつあるのでそろそろ修正せねばと思っていたのに読んでしまった本。

 

事例を挙げながらの分析方法の紹介やそれらの強み・弱みがまとめられており読みやすい。学生時代にこんな本と出会っていたら計量経済学の分野を目指していたかもしれないと感じた。

著者がシカゴ大の先生ということもあり、海外の事例も多く載っておりデータを用いた統計解析はやはり海外のほうが進んでいるなと感じた。日本ももう少しデータを扱いやすい環境になればいろいろ変わってくることもあるのだろうけれど、今のままでは『感・経験・度胸』に重きを置くばかりで根拠のある戦略はないまま、ただ自画自賛しながら沈んでいくのだろう。

 

 

それから、自分はただの凡人なので読んでるだけでは理解したつもりで終わることから、下記の2冊を購入。手を動かしながら理解を深めていきたい。

統計学演習

統計学演習

 
統計学のための数学入門30講 (科学のことばとしての数学)

統計学のための数学入門30講 (科学のことばとしての数学)

 

 暇な時間を見つけ地道に進めていく予定。

統計学:入門5 ベイズ統計学

読んだ。

完全独習 ベイズ統計学入門
 

 前に読んだ『完全独習 統計学入門』の姉妹本。

例題がわかりやすく工夫してあり、微積など使わない内容で初学者向き。

1部と2部に分かれており、1部では面積図を用いてベイズ統計の特徴、性質がしっかり理解でき、2部以降も丁寧な解説でベータ分布などの確率分布を使った推定を学ぶことができる。

 

 

読んだ。

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―

 

 題名にある『はじめての』という言葉で買ってみたが初学者向きじゃない本。

入門書ばかり読んで底辺うろついている人に『喝』を入れるための本と理解した。

 

本の説明に

『統計データ分析に関する予備知識は一切仮定せず、数学的説明には微分積分・シグマ記号・行列・ベクトル演算を使わずに、統計学的推論の世界にご招待します』

とあったので上述の『完全独習 ベイズ統計学入門』とまとめて買ってみた。

が、薄いページ数のわりに濃ゆい内容とベイズ統計的記述のオンパレード、また、上述の『完全独習』のあとに読んだこともあり、『ベイズ推定の山頂』を目指す途中でボコボコにされたような感じ。

 

まだまだ精進せねば。

講義:Rを用いた医療統計学

少し余裕があったので都内で開かれた医療統計学の講義を受けた。

その翌日は最先端データサイエンスの講習会を受ける予定だったが、移動等を考えると少し厳しかったのでそちらはパス。

 

f:id:lynx001:20170313194448j:plain

内容としては基礎の基礎といった感じであまり血肉になった感じはしなかった。

まあ、Rのライブラリ紹介と症例に対してどのような検定を行えばよいかを丁寧に説明してもらった感じ。

ただ、詳しくは専門家に依頼したほうがよいだろう的なノリだったので少し残念な気がした。もう少しゴリゴリの内容を期待していたのに。。。

 

こういった感想を持てるまでには成長しているようなので、まあ良しとしようか。

 

 

統計学:入門4

読んだ。

統計学入門 (基礎統計学)

統計学入門 (基礎統計学)

 

まさに『教科書』といった感じ。

所々に興味深い現実例を載せているので感覚的にも理解しやすかった。

 

ただ、7章の式の意味(特に重積分や2重和あたり)が勉強不足もあり、なんとなくの流し読みのようになってしまった。もう少し、微積分、線形代数多様体などの基礎力をあげておきたいと思う。

 

 こちらも読んだ。

 岩波データサイエンスvol3『因果推論』の著者の一人が出した本。

非常にわかりやすく、あっという間に読めた。

 

内容は因果推論の手法を研究例をあげながら紹介。

昨年のJT国立がん研究センターとの受動喫煙と肺がんに関するやりとりにも触れていて思い出して笑ってしまった。

また、メタアナリシスやランダム化比較試験(RCT)、欠測データの取り扱いについても今後勉強していくつもりだったので良い導入本になったように思う。

理学系の人間としてはやや足らない感じもしたが、実験経済学や因果推論をさらに深く学んでみたいと思わせてくれる一冊だった。

 

それから気になった記事を発見。

research.googleblog.com

岩波データサイエンス vol.3とvol.5

流れで、岩波データサイエンスvol.3とvol.5を購入。

 

岩波データサイエンス Vol.3

岩波データサイエンス Vol.3

 

読んだ。

 因果推論の基礎とその分析例を紹介している。

相関と因果は違うもので因果推論はそれらを切り分けて考察することで因果の有無やその影響を知ることができる。

統計学を勉強していく中でその違いを知りつつも、因果関係をどう導き出すかまでは深く勉強したことがなかったので大変参考になった。

 

岩波データサイエンス Vol.5

岩波データサイエンス Vol.5

 

 ざっと目を通した程度。

読みやすそうだった『医学研究におけるメタアナリシス』をざっと読んだだけでも買って正解だったと感じた。

メタアナリシスの難しさや問題点など挙げられており、昔、大学講師の方から聞いた内容をふと思い出した(腐敗臭)。

 

繁忙期に入りつつあるのでもう少し落ち着いてからじっくり読もうと思う。

なぜだろう、奇数巻だけがそろっていく。。。