『 統計技師への道 』

日々の学びを残すブログ

未来の年表

 読んだ。

日本はお先真っ暗だよ~と不安を煽る本。(一応、統計関連かな?)

 

内容は前半は人口減少の日本でおこると考えられることを年表形式に説明。

部分的に(?)と思うところがあったので調べてみたらややリサーチ不足な感じがした。火葬場が不足するとか輸血血液が不足だとかAIが~とかいろいろアレな感じ。

後半は著者の考える処方箋という名の提案集。『20世紀成功体験との訣別』や外国人労働者やAIへの過度な期待への指摘は同感かな。

あとはなんだかあまりウケないだろうなという感想。

まぁ、『因習まみれの国、日本』で改革的なものができるとは思わないけど。

 

読み終えてから見つけた似たような記事。

www.newsweekjapan.jp

日本のこれまでの発展は人口依存型の『日本人の、日本人による、日本人のための生産&消費』から生じたもの。

自分の周りでも『根性論』や『勘違いの栄光』を語る老人ばかりで本当にう〇こ(^_-)-☆

データ解析のための統計モデリング入門:一般化線形モデル・階層ベイズモデル・MCMC

読んだ&やってみた。

しっかりと土台形成してから取り組みたいと思って後に回していた本。

ようやく時間が作れたので読みながら手を動かしてみたが、すごく丁寧な作りで評判通りの内容だった(^_-)-☆。コードは少なくGLM・GLMM・階層ベイズモデル・MCMCを俯瞰的に楽しめる内容で図解が多いため理解しやすい。著者の講義を受けているような感じがした。各章末に文献紹介もされていて今後の勉強・参考書あさりに役に立ちそう。(本はすでにメモ&ポストイットまみれ)

いくらか図に誤りがあるようだが既にwebサイトで修正されていたので参考になる。

とある雑誌にはみどり本は中級レベルとあったけどなかなかこの『中級』レベルの本というのが少ないように感じるので貴重な本だと思う。

 本書の流れで初めてwinbugsによるMCMCをやってみたけどwinbugsはもう開発もしていない(?)みたいなのでやや古いのかもしれない。今後、岩波DS vol.1にあったstanをかじってみようかと思う。

 

P値やモデル選択についての注意・解釈についてもわかりやすく説明されていたのでメモしておく。どこかでも似た記述があったのでしっかりと理解しておきたい。

『5章:GLMの尤度比検定と検定の非対称性』より

AICによるモデル選択では『良い予測をするモデル』を選ぶという目的を持ち、『予測の良さとは平均対数尤度』と明示したうえで、平均対数尤度を最大対数尤度とパラメータ数から推定する。尤度比検定などネイマンピアソンの枠組みの下での統計学的検定の目的は、帰無仮説の安全な棄却である。帰無仮説棄却のあとに残された対立仮説がどのような意味で『良い』モデルなのかは明確ではない。P値は効果の大きさそのものを表すものではない。推定された統計モデルの解釈は、それぞれの研究ごとに固有なものであり、分野ごとに異なる自然現象のとらえ方に依存しているのでその文脈の中で検討すべき問題。

 

 

岩波データサイエンス Vol.1

岩波データサイエンス Vol.1

 

昔、岩波データサイエンスvol1を読んでいたこともあり、とても理解しやすかった。

見たようなグラフがあったので読み返してみたら『あぁ、これか』と今さら気づいたこともあったりともう少し早めに取り掛かっておきたかった(-_-;)。

(Vol1読み返してみて『MCMC=モテて困るモテて困る 』かぁ、懐かしい)

 

そして、読み終わった後でこんな記事を見つけた。

https://www.nature.com/news/big-names-in-statistics-want-to-shake-up-much-maligned-p-value-1.22375

保健医療分野におけるAI活用推進懇談会pdf:(17/6/27)

ざっくり読んだ。

 

資料:保健医療分野におけるAI活用推進懇談会

http://www.mhlw.go.jp/file/05-Shingikai-10601000-Daijinkanboukouseikagakuka-Kouseikagakuka/0000169230.pdf

 

 昨年、AIの医療応用に対してとある会社の偉い人が『専門家(医療職)でもない人たちが作っていることが問題だ』的なことを言ってる記事を読んだことがある。

当時、『あぁ、こういう人が足を引っ張るのか~』と思ったことがあったが、関係なく突き進んでいるようでなにより(^_-)-☆

 

適当に読んだ感じだと使用する場面としてはやはり画像診断・ダブルチェックといったアシストが主。

以前興味があって載せたgoogleのがん組織のAIによる鑑別の記事を思い出したが、もうできていたりするのだろうか。(使えるレベルになった場合、病理医は解剖、臓器・組織の切り出しと診断に、検査技師は標本作成までの工程をただひたすら専念という形になるのか…さらなる省力化&薄給化にはなりそう)。

上述pdfのなかには他に『バイオインフォマティシャン育成』や『保健医療関係者がデータサイエンティストとしてAIの開発に携われるよう、デ ータサイエンティストの育成プログラムを策定する』など記載されてる。今後は現場の人間もシステムの長所・短所を知るためにも統計学やプログラミングは必要になってくるだろうな。

 

ま、来るときに備え武器は揃えておかないとね(^_-)-☆

 

あと、門外漢のど素人目線で疑問が2つ。

1つ目は責任の所在。見落としちゃった・間違っちゃった的なことになった場合。システム作った業者も責任とってくれるのかな? 

2つ目は『規格』的なもの。あっちの病院のAIは優れているけどこっちの病院のAIはダメとか差があっては意味がない。全施設で完璧で安定した結果を出すにはISOやら腕時計のクロノメーター規格みたいなものも必要になってくるのかな? 

いろいろメンドクサソウ等々、なんとなく思った。

買って後悔:ヤバくてダメでまる裸 etc.

読み物系を一気に消化しようとまとめ読み。

さすがに疲れた。なんというかどれもこれもアレな感じ。

 

ヤバい統計学

ヤバい統計学

  • 作者: カイザー・ファング,Kaiser Fung,矢羽野薫
  • 出版社/メーカー: CCCメディアハウス
  • 発売日: 2011/02/19
  • メディア: 単行本
  • 購入: 11人 クリック: 93回
  • この商品を含むブログ (23件) を見る
 

 『データ・サイエンティストに学ぶ分析力』系のお話物。同じく微妙(^_-)-☆。

 

ダメな統計学: 悲惨なほど完全なる手引書

ダメな統計学: 悲惨なほど完全なる手引書

 

題名を『ダメな和訳書』にでも変えたほうが良い。

一昔前の翻訳ソフトに丸投げしたような文章だったので3~4割は飛ばし読み。

感想として最近の神経科学・心理学・医学論文の問題点を思い出した程度。(^_-)-☆

 

統計学をまる裸にする データはもう怖くない

統計学をまる裸にする データはもう怖くない

 

この中では一番読める。表紙がセクシーなだけ(^_-)-☆

 

 他に

p値とは何か 統計を少しずつ理解する34章

p値とは何か 統計を少しずつ理解する34章

 

 和訳がう〇こ(^_-)-☆

 

統計学の和訳の本はなかなかしんどいなという感想。

岩波データサイエンス vol.6

読んだ。

岩波データサイエンス Vol.6

岩波データサイエンス Vol.6

 

 このシリーズ最後の巻らしい。実践的で面白いシリーズだったので残念。

 

Rコードのある記事は読み流す程度で後で写経予定。 

 

今回の特集は『時系列解析』。状態空間モデル、状態空間モデルのマーケティングへの応用、VARモデルによる因果関係推論。小特集は『シミュレーションとデータサイエンス』として天気予報やタンパク質のシミュレーション・多変量解析、天文学シムシティ、夢と脳と機械学習と「てんこ盛り」な内容。

(書いていて自分が何を読んだのかわからなくなってくる。。。)

 

読んでいて興味を持ったのが『状態空間モデルのマーケティングへの応用』。

数年前、販促プロジェクトに参加した際、統計解析と販促ツールの開発を担当し、予測・推定のモデルづくりを試みたことがあった。ど素人だったので様々な資料を読みあさりながら、意識し始めたものがまさに『時点』だった。

営業サイドから求められるものは『数撃ちゃ当たる』的なものではなく、『確実に射落とせ』的なものだったので需要サイドのより深い理解のためと、顧客を獲得した際に極限まで人員削減された状況下でこなすためには内外それぞれに対しての動的な構造理解が必要だったというのが本音。その時期にこの本が出ていれば最短で要点をつかめ活かせたかもと思った。(その後、がむしゃらに頑張ってある程度形にしたとたん、いわゆる『アレオレ詐欺』っぽいことに巻き込まれ、いろいろな知らない人たちが参加。ぐちゃぐちゃにかき回されて、別の人の総取りって形で終幕)

 

あと、最近読んだバイオインフォつながりで『揺らぐタンパク質と老いる私』。

タンパク質のゆらぎ、ミスフォールディング、分子動力学シミュレーションの分析例などを説明・紹介。文中にある参考文献は目を通しておきたい。(結局シリーズ全巻そろいそう)また、データ分析とは関係ないが文章の中にあった「老いていく私たちの体は(猫のゆりかご)の水のようなものなのかもしれない」という表現が印象に残っている。(多少かじったことのある身としては沁みる表現だったので)

 

他に気になったのは内容より参考文献の佐藤・樋口『ビッグデータ時代のマーケティング』。探していたけど題名忘れていた本。いずれポチると思う。

ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書)

ビッグデータ時代のマーケティング―ベイジアンモデリングの活用 (KS理工学専門書)

 

 

 

あぁ、特集で「強化学習」出してほしかったなぁ(´;ω;`)

バイオインフォマティクス入門 + 医学統計の基礎のキソ(2冊)

読んだ(熟読)。

バイオインフォマティクス入門

バイオインフォマティクス入門

 

数日前に本屋で見つけて立ち読みした程度だったが気になったので購入&読了。

 

じっくり読むと(初版本だったためか)誤植が多くて『ムカッ☆!』っとした。

薄いページ数だったが読了までに思ったより時間がかかってしまった。内容が濃いねッって感想。生命科学関連や計算科学は浅く感じる内容だったが、構造解析や配列解析に関しては知らないことも多く新鮮で勉強になった。

機械学習や多重検定についてはさらに詳しく知りたいので『MLPシリーズ 生命情報処理における機械学習』も読んでみようか考え中。

 

 

こちらも読んだ。

 と

論文や文献あさりをしていて見つけた本。

統計学の『使い方』というよりは『読み方』のための入門書(教科書でなく雑誌感覚かも)といった感じ。全3巻シリーズのようだが2巻が見つからず1巻と3巻のみ(^_-)-☆

 

内容は1巻は統計アレルギー克服を目的にP値や信頼区間について簡単なもの。

3巻は研究の質を評価する方法という副題でサンプル数が適切か『有意差あり・なし』の解釈、統計学のごまかしを見破る方法など論文書き手側にはちょっと怖い本かもといった感想。数式もほとんど出ないので『完全独習 統計学入門』や『マンガでわかる統計学』に近い内容で自分にとってはあまり血肉にならないレベルだった。

 

基礎の復習としていいと思う。

まぁ、2巻は見つけても時間ないのでたぶん読まないと思う(^_-)-☆

バイオサイエンスの統計学 + 医療関連

読んだ。(そしてこれからも読む)

バイオサイエンスの統計学―正しく活用するための実践理論

バイオサイエンスの統計学―正しく活用するための実践理論

職場の書棚にずっとあったもの。(新品同様だった(-_-))
とても良い本。検定ごと説明に図を多用し、症例を多く載せているためイメージしやすい。
論文の読解や作成時にそばに置いておくと良いかも。ただ高い本(そして重い本)なので個人では買わないと思う(買えない)。



記事
かくしてプログラミングは生物学者の必修科目となった。
wired.jp
読んだ。
ちょうどPythonをググってて見つけた。
やはりプログラミングはスキルとして必要だと感じた。
ただ追求するあまり『視野狭窄』にならない程度のスキルとして身に着けておきたいと思う。


鉄欠乏性貧血に迫る。
scienceportal.jst.go.jp
読んだ。
まぁ、なんとなく知ってる内容でわかりやすかったので。



論文など
学会資料
【発作性夜間ヘモグロビン尿症(PNH)診療の最前線】
【遺伝子変異からみた骨髄増殖性腫瘍】
【骨髄異形成症候群の遺伝学的基盤について】
【アンチトロンビンレジスタンス:新しい遺伝性血栓性素因】
血友病治療の進歩と展望】
知人から借りて読んだ。最新の血液疾患の研究内容。
そろそろ、『WHO2016分類』の訳書が出てきそうなので期待してる。



雑誌
次世代データ解析:ビッグデータ解析を視野に入れて
【臨床検査領域におけるビッグデータの活用と課題】
【健康医療データを用いた大規模データマイニングに向けて】
【臨床検査領域におけるビッグデータの意味とその活用に必要な統計学視点】
【医療・健康分野で求められるデータベース構築と効率的検索システム】
【DPCなどの医療ビッグデータ分析の現状と課題】
職場の書棚にあった。
医療ビッグデータの活用についての紹介。臨床検査に関連する『うす~く、ざっくり』といった内容。たぶん、ビッグデータという『バズワード』の流行りの影響を受けたために書かれた特集だったんだろうと思う。
そもそも、医療は【サイエンス】+【統計学】の世界なので奇跡(偶然)を極力取っ払った分野。『奇跡的な回復』なんてものはないだろうし、健康診断の結果表にある基準範囲なども今までのデータの蓄積からなるもの。いまさら何を?といった感じだった。