『 統計技師への道 』

日々の学びを残すブログ

バイオサイエンスの統計学 + 医療関連

読んだ。(そしてこれからも読む)

バイオサイエンスの統計学―正しく活用するための実践理論

バイオサイエンスの統計学―正しく活用するための実践理論

職場の書棚にずっとあったもの。(新品同様だった(-_-))
とても良い本。検定ごと説明に図を多用し、症例を多く載せているためイメージしやすい。
論文の読解や作成時にそばに置いておくと良いかも。ただ高い本(そして重い本)なので個人では買わないと思う(買えない)。



記事
かくしてプログラミングは生物学者の必修科目となった。
wired.jp
読んだ。
ちょうどPythonをググってて見つけた。
やはりプログラミングはスキルとして必要だと感じた。
ただ追求するあまり『視野狭窄』にならない程度のスキルとして身に着けておきたいと思う。


鉄欠乏性貧血に迫る。
scienceportal.jst.go.jp
読んだ。
まぁ、なんとなく知ってる内容でわかりやすかったので。



論文など
学会資料
【発作性夜間ヘモグロビン尿症(PNH)診療の最前線】
【遺伝子変異からみた骨髄増殖性腫瘍】
【骨髄異形成症候群の遺伝学的基盤について】
【アンチトロンビンレジスタンス:新しい遺伝性血栓性素因】
血友病治療の進歩と展望】
知人から借りて読んだ。最新の血液疾患の研究内容。
そろそろ、『WHO2016分類』の訳書が出てきそうなので期待してる。



雑誌
次世代データ解析:ビッグデータ解析を視野に入れて
【臨床検査領域におけるビッグデータの活用と課題】
【健康医療データを用いた大規模データマイニングに向けて】
【臨床検査領域におけるビッグデータの意味とその活用に必要な統計学視点】
【医療・健康分野で求められるデータベース構築と効率的検索システム】
【DPCなどの医療ビッグデータ分析の現状と課題】
職場の書棚にあった。
医療ビッグデータの活用についての紹介。臨床検査に関連する『うす~く、ざっくり』といった内容。たぶん、ビッグデータという『バズワード』の流行りの影響を受けたために書かれた特集だったんだろうと思う。
そもそも、医療は【サイエンス】+【統計学】の世界なので奇跡(偶然)を極力取っ払った分野。『奇跡的な回復』なんてものはないだろうし、健康診断の結果表にある基準範囲なども今までのデータの蓄積からなるもの。いまさら何を?といった感じだった。

ちょっと休憩:雑学本(17/06/10)

本日は散歩のついでに『とある会』に参加。

黒酢やらニンニクの成分やら相変わらずのマニアックな研究内容が多くて面白かった。 

以前と比べて統計解析を見ても苦にならない程度まで読み取れるようになってきた(気がする)ので創薬や基礎研究の話の中で出てくるRCT、メタアナリシスは割と楽しめた。

 

 

そのあと、会場から程近い県内最大級の本屋へ買い物。

 医学系。

誰も教えてくれなかった 血算の読み方・考え方

誰も教えてくれなかった 血算の読み方・考え方

 

 たまに、立ち読みしてたけど「やっぱりいい」と思い購入。

 

スタンダード フローサイトメトリー 第2版

スタンダード フローサイトメトリー 第2版

  • 作者: 池本敏行,伊藤秀明,井野礼子,小賀厚徳,小川惠津子,川合陽子,河本圭司,小池由佳子,近藤智子,菅原ゆうこ,?野邦彦,林田雅彦,日野和義,松村耕治,結城啓介,日本サイトメトリー技術者認定協議会,野村昌作,村上知之,米山彰子,東克巳
  • 出版社/メーカー: 医歯薬出版
  • 発売日: 2017/06/06
  • メディア: 単行本(ソフトカバー)
  • この商品を含むブログを見る
 

 第1版を持っていたけど表紙が破れたりしていてボロボロなので購入。

内容は以前のものよりカラーで内容増えて見やすくなった。

 上記2冊はたまに確認したくなった時に重宝しそう。

 

 

生物情報学系。

データサイエンス的思考法やR操作の勉強に使えそうだったので。

 

その近くに『バイオインフォマティクス事典』があったが出版年の2006年以降改定など行われていないようで古く感じたので下を購入。

先日読了した入門書『バイオインフォマティクス入門』の知識に肉付けできれば良いかなと思っている。

バイオインフォマティクス

バイオインフォマティクス

 

 

 

マーケティング・データサイエンス系。

ビジネス活用事例で学ぶ データサイエンス入門

ビジネス活用事例で学ぶ データサイエンス入門

 

仕事でデータサイエンティストをされてる方のブログを見て好評だったので買ってみた。内容をチラ見したけど技術書ではなく割と軽めの読み物(?)的な感じがしてる。

血肉になれば良いけど、試しに練習も兼ねサンプル事例をR、python3でやってみる。

基礎Python + ゼロから作るDeep Learning + bioinfo

読んだ&やってみた。

基礎Python 基礎シリーズ

基礎Python 基礎シリーズ

 

 python3を基礎から理解しようと購入。

 

本書に沿ってatomエディタを入れてみたが使い勝手がよく気に入った。

リストやタプルといった固有のデータ操作、制御、関数などをわかりやすいサンプルコードで説明してくれている。入門書としては最良だと思う。

 Rも勉強途中だがpythonとのメリット・デメリット比較記事をネット上で読んでも実感できるほど深く理解・実践できてないので精進したい。

(仕事では一切使わないので遠い道程だが…)

最後まで読んで著者がミュージシャンということに驚愕した…多彩な人もいるものだ。

 

続けて、

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

ゼロから作るDeep Learning ―Pythonで学ぶディープラーニングの理論と実装

 

 読んだ&やってみた。

先日MLPの深層学習を読んだのでその流れで。

上述のpythonの復習も兼ねた形になり理解もしやすかった。

やってみると割とシンプルなものだと感じた。

ただ、自分はSEでもなければPGでもないので最初、githubが何なのかわからず途中まで全部写経してた(タイピングは苦ではなかったが、大幅に時間ロス…)。

 

pythonの基礎から始まり、パーセプトロンニューラルネットワークの基礎・学習、誤差逆伝播法、学習に関するテクニック、畳み込みニューラルネットワークディープラーニング、といった流れでライブラリやフレームワークなどのツールに頼らず理解するという面白い内容だった。特に学習に関するテクニック(momentum、AdaGrad、adamなど)はわかりやすい説明で勉強になった。

生業としてる人達からしたら『なんちゃって深層学習』なのかもしれないがが素人・凡人の自分には十分楽しめる書物だった。

 

 

さらにもう一冊。

バイオインフォマティクス入門

バイオインフォマティクス入門

 

 読んだ(流し読み程度)。

血液学の本を探していた時たまたま発見。jsbiの公式本らしい。

 

 読んでて思ったことはバイオインフォとデータサイエンスはよく似ている

統計学、計算科学、データベーススキル、プログラミングスキル、機械学習データマイニングなどは重なる領域。

異なるのは分子生物学計量経済学くらいか(素人目線です)。

両分野ともに「人材不足が~」とか言われているみたいだけど、探せば割と使える人材いるんじゃないだろうか?

 

 本書はバイオインフォマティクス技術者認定試験というものの教本らしい。

時間があったら受けてみたい。

『統計的優位性とP値に関するASA声明』

去年の声明の和訳が出てた。

http://biometrics.gr.jp/news/all/ASA.pdf

ありがとう、計量生物学会! 

 

まとめると

P値だけでは情報量が少なく、それ以外(信頼区間ベイズなど)のアプローチで補足、置き換えを推奨。だそうです。

 

去年出た時は様々な方面から注目を浴びた声明だったので、英語苦手だけど徹夜して頑張って読んだ記憶がある。

解釈にズレがないか心配してたけど、無問題。

 

声明が出た時は医学分野だけでなく社会調査、科学・実験系分野においても影響のある内容だったので『どうなるの?』と思っていたが、これまでちまちまと機械学習や統計解析など勉強してきて今思うことは、データに対する多角的視点からの深い理解とそこから具象化する『モデリング』の時代に移りましょうってことなのかなと思っている。

 

『理解・分解・再構築』ってやつか?

 

少ない情報量から、全体を知るために発展してきたのがこれまでの統計学

その時代が終わり、より大きな情報を収集し捌くことのできる環境や道具がそろったことで、それをどう生かしていくかを改めて問われる時代になってきたんだなと今更ながらに思った。

MLP 深層学習 Deep Learning

読んだ。

深層学習 (機械学習プロフェッショナルシリーズ)

深層学習 (機械学習プロフェッショナルシリーズ)

 

かなり、今更な感じだけど。

 

 この本を読もうと思ったきっかけは最近の記事で、なんちゃっての人工知能が多いように感じたから。(従来からあるIT技術をAIだとか言ってる人がいたり。。。)

 

内容は基本的な事を広く、浅くの網羅的な感じ。

初学者向けだと思うが、もう古い感じもする。この手の分野はスピードが速いので本が出るのを待つより、論文やネット検索のほうが情報が新鮮で良いのかもしれない。

プログラムなどの記載はなく、数式は出てくるが、まあ読めなくはない程度。

自分は門外漢なので、順伝播型、確率的勾配降下法、backpropagation、自己符号化器、CNN、RNN、ボルツマンマシンなどなど、単語が出てくるたびに『へ~』、『ふ~ん』と知識欲が満たされる感じで面白かった。

 

メモ:統計学的精度管理について

ここ数年、測定したデータを集計・統計解析を行い、その解析対象項目の流行予測や県内の分布状況の可視化を試み、販促活動につなげてきた。

その過程で使用していた分析装置の精度管理値の計算方法を目にしてふと気になった係数(1.88と2.66)について調べてみたので知識の整理として残す。

 

用語:管理図法について

管理図法は,測定に関する品質を把握するための手段であり,設定した品質を測定日あるいは測定サイクルごとに管理試料を用いて定量的に把握するものである.このうちXbar-R管理図法は,品質管理の基本的な手法であり,その原理と使い方のルールが理解できる.また,複合管理図としてのXbar-Rs′,Xbar-Rs-R管理図法は,問題点の抽出と改善の手立ても可能な特性があることが理解できる.精度管理図は,作図することにより視覚的な観察が容易となるが,観察から的確な判断をするためには,測定試料の性質と測定方法の特性および測定装置の性能の把握が役に立つ(参考資料から抜粋)

 

用語:3シグマ法

打点した統計量の平均値を中心として、その上下にその統計量の標準偏差の3倍の幅に記入した管理限界を用いる管理図法。

 

◎本題:1.88と2.66について

教本では管理値の計算方法は下記のように記されている。

管理試料を毎日2重測定する場合で計算すると、3シグマ法の管理限界は

Xbar-R管理図法では   Xbar±1.88Rbar

Xbar-Rs-R管理図法では  Xbar±2.66Rsbar  となる。

 

これは、管理限界値=±3倍の標準偏差であるためXbar-R管理図法では

 管理限界=±3×Rbar/(d2√n) となる。この式でnは2重測定のため2となりn=2の場合のd2は1.1284となる。√2は1.4142であるため前述の式に代入すると

管理限界=(3/1.4142×1.1284))×Rbar=±1.8799×Rbar  となる。

 

またXbar-Rs-R管理図法では、Rsの場合はnが常に2であるためd2は1.1284となり

管理限界=±3×Rs bar/d2 = ±(3/1.1284)×Rs bar = ±2.6586Rs bar       となる。

 

大したことのない内容だったが、唐突にこの数式だけ出てくると(?)っとなってしまった。まだまだダメダメだ。

データ分析の力 因果関係に迫る思考法 + 問題集

 読んだ。

データ分析の力 因果関係に迫る思考法 (光文社新書)

データ分析の力 因果関係に迫る思考法 (光文社新書)

 

 本書でも説明してるが、データ分析の専門家ではない人へ向けての入門書。

岩波データサイエンスvol3を読んでから因果推論と計量経済方面に走りつつあるのでそろそろ修正せねばと思っていたのに読んでしまった本。

 

事例を挙げながらの分析方法の紹介やそれらの強み・弱みがまとめられており読みやすい。学生時代にこんな本と出会っていたら計量経済学の分野を目指していたかもしれないと感じた。

著者がシカゴ大の先生ということもあり、海外の事例も多く載っておりデータを用いた統計解析はやはり海外のほうが進んでいるなと感じた。日本ももう少しデータを扱いやすい環境になればいろいろ変わってくることもあるのだろうけれど、今のままでは『感・経験・度胸』に重きを置くばかりで根拠のある戦略はないまま、ただ自画自賛しながら沈んでいくのだろう。

 

 

それから、自分はただの凡人なので読んでるだけでは理解したつもりで終わることから、下記の2冊を購入。手を動かしながら理解を深めていきたい。

統計学演習

統計学演習

 
統計学のための数学入門30講 (科学のことばとしての数学)

統計学のための数学入門30講 (科学のことばとしての数学)

 

 暇な時間を見つけ地道に進めていく予定。