統計分析入門(SI) Pythonを用いたデータ分析基礎
講座の趣旨
- 統計的処理によってどのようなことができるのかを学び、学んだ統計処理を実際に使ってみます。
- 統計学について、できるだけ数式を使わないで平易に、かつ体系的・段階的に学びます。
- プログラミング言語「Python」を用いて、実際のデータに統計処理を行う演習も行います。
到達目標
- 平均、分散、相関などの統計の基本について正しく理解し、実際のデータを処理できる。
- 限られた数のサンプルから、母集団全体のありかたを推測する方法について理解し、実際のデータを処理できる。
- 初歩的な予測モデルを用いて、過去のデータから将来を予測できる。(回帰・判別)
数学レベル
- 高校までの文系数学について、あらかじめある程度知っていることが望ましいです。
カリキュラム
-
記述統計「データの傾向や性質を把握したり可視化したりする」
- 図表・可視化による整理(度数分布表、ヒストグラム)
- 特性量による整理1)(代表値:平均値、中央値、最頻値)
- 特性量による整理2)(データの広がり:分散、標準偏差)
- 相関(散布図、相関係数、相関と因果)
- データの散らばり(確率変数、さまざまなデータの分布)
-
推測統計「限られたデータから全体の様子をできるだけ正確に推測する」
- 母集団と標本、標本の適切な抽出方法
- 点推定(母集団の平均の推定、母集団の分散の推定)
- 区間推定(信頼区間の考え方、信頼区間の算出方法)
- 仮説検定
-
回帰分析「未知の値について、データをもとに予測したり、傾向を説明したりする」
- 単回帰分析(単回帰分析の考え方、単回帰分析の適用法)
- 重回帰分析(重回帰分析の考え方、重回帰分析の適用法)
- あてはまり具合を評価する方法(決定係数)
- モデル選択(過学習、モデルの検証方法、赤池情報量基準)
-
判別分析「どちらのグループに入るのかを予測したり説明したりする」
- 判別分析の適用例
- 線形判別分析(判別分析の考え方、線形判別分析の適用法)
- k近傍法(k近傍法の考え方、k近傍法の適用法)
- ロジスティック回帰(ロジスティック回帰の考え方、適用法)
- さまざまな判別手法の特徴