統計学は、物理・宇宙系の学部では、それ一つの単元として扱うところは少なく、統計力学や実験物理学といった科目の中で学習することが多いようです。
大学ではRやPythonを使って解析することもあります。
入試で必要な科目というよりは、研究で必要な科目であると言えます。
院試ではでてくることはほとんどないかと思いますが、希望先の研究室で必要であるならば、RやPythonを使って統計処理ができたほうがいいでしょう。
また、理論系でも統計的に議論することもあり、概念としてして知っている必要がある場合もあります。
ここでは統計学の入門書から、RやPythonを使った解説書までを紹介いたします。
物理・宇宙系で出てくる統計
物理・宇宙系で統計というと、統計力学のことが出てきます。
統計力学は、量子力学や量子統計力学につながる大切なステップの一つであり、物理系の学生であれば、講義で必須科目になっているくらいです。
統計力学で出てくるのは、統計集団と呼ばれるものです。
「小正準集団(ミクロカノニカル集団)」や「正準集団(カノニカル集団)」などといった言葉がでてきますが、これらが統計集団を意味します。
このとき使われるのが、物理量\(A\)のマクロな観測値が今考えている集団についての平均\(<A>\)と等しいという考え方です。
ここで統計が出てきます。
統計力学は量子力学や量子統計力学につながる大切な単元ですので、統計という言葉を聞くと「統計力学」がでてくるのもうなづけます。
しかし、もうひとつ大切なのが「統計学」の統計です。
こちらは、平均・相関・回帰と予測といった言葉がでてきます。
統計学は、起こっている問題をそれなりに正しくとらえることなのです。
正しくとらえるために、必要な手続きが平均・相関・回帰と予測といったものを使うのです。
こちらは、実験でデータを取り、そのデータを整理するときに使います。
そのため、実験物理学などの実験の講義で実際に使う時に学習します。
単元として学習する機会が少ないのですが、シミュレーションや実験などでは必須の項目です。
院試で出題されているところはあまり見かけませんが、研究する上では欠かすことのできない単元なのです。
しかし、講義がないため、独学で学習する必要のあるのが「統計学」です。
次におすすめの書籍を紹介しますね。
統計学おすすめの書籍
統計学の基礎を学習する書籍
最初に標準偏差によるデータ解析、正規分布とガウス関数について解説した後、統計学に出てくる基本的な分布\(t\)分布、カイ二乗分布、\(\textit{F}\)分布について、推測統計、統計的検定、確率密度関数についてメインで解説しています。
最後に、2項分布、ポワソン分布、ワイブル分布、2変数の確率分布について解説している書籍です。
最小自乗法といった実験で使うような項目はありませんが、「なるほど統計学」では統計的手法について解説しているだけでなく、数学的になぜそういった手法が用いられているのがしっかりと解説してあります。
Pythonを使うときに参照する書籍
Pythonで理解する統計解析の基礎 (PYTHON×MATH SERIES)
データ解析を行う上で大きな助けになるのが、 コンピューター解析です。
統計解析で有名な言語はRですが、統計解析に特化しているため、他の言語とデータのやりとりが必要になってしまいます。
Pythonは、統計解析以外にも幅広い分野で使うことのできる汎用プログラミング言語です。
そのため、Pythonを使っている研究室もあるくらいです。
そんな汎用的なPythonで統計解析もできるのであれば、Pythonを利用しないわけにはいきません。
しかし、統計解析で使われているのは長らくRだけでしたので、Pythonに関する統計解析の書籍はほとんど見受けられませんでした。
近年、Pythonの汎用性と豊富なライブラリのおかげで、Pythonを使った統計解析も盛んになり、書籍も出版されるようになりました。
そこで紹介するのが、「Pythonで理解する統計解析の基礎 (PYTHON×MATH SERIES)」です。
基本的な統計量の説明から始まり、推測統計や確率変数、独立同一分布、統計的推定や統計的仮説検定、回帰分析までを解説しています。
サポートページからサンプルコードをダウンロードすることができ、実際に動かしながら確認することができるようになっています。
書籍では書面の都合上、Pythonの説明までは詳しく解説されていませんが、サポートページにPythonを動かすのに必要な知識の簡単な解説があります。
Pythonがあまりよく分からない状態でも、サポートページの例を見ながら学習していくことができます。
プログラミング言語は座学で学ぶ部分もありますが、実際に動かしながら学んでいくと、覚えやすいです。
Pythonのことは少ししか知らない状態でも、始めやすい書籍と言えます。
Rを使ったベイズ統計
ベイズ統計が注目されています。
MCMCというアルゴリズムのおかげで、プログラムを動かせばかんたんに答えがでるといった点が注目されているからです。
ブラックボックス化されているもので、原理を知らなくても答えを求めることができてしまいます。
しかし原理を知っていると、十分納得して使うことができます。
「Rで楽しむベイズ統計入門[しくみから理解するベイズ推定の基礎] (Data Science Library)」では、計算のステップを丁寧に解説されています。
ベイズ統計の考え方の基本を学びながら、Rでの学習もできる仕組みになっています。
また、実際に手を動かして結果を確認することができますので(なお、サンプルはサポートページからでもダウンロード可能です。)、自分で入力して学習することができます(めんどうなデータファイルの読み込みなしで動かすことができます)。
MCMCを使わなくても、Rの一般的な関数を使って解く問題も収録されていますので、ベイズ統計のみならず、Rの一般関数についてもある程度学べるようになっています。
天文学で用いる統計の解説
天体観測のデータによる具体的な例を用いて、統計学の基本を学ぶことを目的として作られた書籍です。
以下の6章立てになっていて、
第1章 統計と誤差の基本
第2章 確率変数と確率分布
第3章 推定と検定
第4章 パラメータの最尤推定
第5章 パラメータのベイズ統計
第6章 天体画像の誤差
メインは第6章の天体画像の誤差です。
天文学での観測では、光や赤外線で画像として得られる情報とノイズ、画像から抽出される天体情報の統計的処理が必要になってきます。
しかし、天文学で使われるような統計的処理の方法はこれまで出版されてきませんでした。
「天体画像の誤差と統計解析 (クロスセクショナル統計シリーズ 7)」が初となります。
さらに天文学ではRやPythonを用いた解析も盛んです。
RやPythonを用いた解析方法については、付録で解説しています。
光や赤外線での天体画像を取り扱う学生にとっては必読書です。
ただし、統計学そのものの解説はあまり詳しくありませんので、不安な方は、「なるほど統計学」で基本を学習してから本書を読んだ方がいいかもしれません。