商品説明
内容紹介
【Kaggleで勝つための暗黙知が明かされる!】
データサイエンスの認知の高まりとともに、データ分析に関するコンペティションが多数開催されるようになってきました。最も有名なコンペティションプラットフォームであるKaggleにおけるプレイヤー数は10万人を超え、多くのエンジニアが自分の腕を試すためにコンペティションに参加しています。分析コンペでは、実際のデータを扱うため、機械学習の解説書にはあまり載っていないような手法やテクニックが数多く活用されています。これらを理解し自身で使えるようにしておくことはコンペだけでなく、実務でのモデル構築において非常に役に立ちます。
そこでこれらのテクニックや事例を多くの人に知っていただくために、現時点で最新のものを整理して本書にまとめました。特徴量の作り方、バリデーション、パラメータチューニングなどについて、一般的な書籍ではあまり言及されない暗黙知やポイントについて記述しています。分析コンペにこれから参加してみたい方、あるいはもっと上を目指したい方だけでなく、実務で予測モデルの精度を上げたいという方にも参考になる情報が多いでしょう。
■この書籍に関連する記事があります!
■こんな方におすすめ
Kaggleをはじめたい方、データ分析者、データサイエンティスト
■目次
第1章 分析コンペとは?
1.1 分析コンペって何?
1.2 分析コンペのプラットフォーム
1.3 分析コンペに参加してから終わるまで
1.4 分析コンペに参加する意義
1.5 上位を目指すためのポイント
Column 計算リソース
第2章 タスクと評価指標
2.1 分析コンペにおけるタスクの種類
2.2 分析コンペのデータセット
2.3 評価指標
2.4 評価指標と目的関数
2.5 評価指標の最適化
Column out-of-foldとは?
2.6 評価指標の最適化の例
2.7 リーク(data leakage) 107
第3章 特徴量の作成
3.1 本章の構成
3.2 モデルと特徴量
3.3 欠損値の扱い
3.4 数値変数の変換
Column データ全体の数値を利用して変換を行うときに、学習データのみを使うか、テストデータも使うか
3.5 カテゴリ変数の変換
3.6 日付・時刻を表す変数の変換
3.7 変数の組み合わせ
3.8 他のテーブルの結合
3.9 集約して統計量をとる
3.10 時系列データの扱い
3.11 次元削減・教師なし学習による特徴量
3.12 その他のテクニック
3.13 分析コンペにおける特徴量の作成の例
第4章 モデルの作成
4.1 モデルとは何か?
4.2 分析コンペで使われるモデル
4.3 GBDT(勾配ブースティング木)
Column xgboostのアルゴリズムの解説
4.4 ニューラルネット
4.5 線形モデル
4.6 その他のモデル
4.7 モデルのその他のポイントとテクニック
Column 分析コンペ用のクラスやフォルダの構成
第5章 モデルの評価
5.1 モデルの評価とは?
5.2 バリデーションの手法
5.3 時系列データのバリデーション手法
5.4 バリデーションのポイントとテクニック
第6章 モデルのチューニング
6.1 パラメータチューニング
Column xgboostの具体的なパラメータチューニングの方法
Column 多層パーセプトロンの具体的なパラメータチューニングの方法
6.2 特徴選択および特徴量の重要度
6.3 クラスの分布が偏っている場合
Column ベイズ最適化およびTPEのアルゴリズム
第7章 アンサンブル
7.1 アンサンブルとは?
7.2 シンプルなアンサンブル手法
7.3 スタッキング
7.4 どんなモデルをアンサンブルすると良いか?
7.5 分析コンペにおけるアンサンブルの例
付録
A.1 分析コンペの参考資料
A.2 参考文献
A.3 本書で参照した分析コンペ
■著者プロフィール
門脇大輔(かどわきだいすけ):4章、6章、7章および1章、2章、3章、5章の一部を執筆。
京都大学総合人間学部卒業後、生命保険会社でアクチュアリーとして10年ほど商品開発・リスク管理などに従事した後、Kaggleに出会ったことをきっかけにキャリアを放り出してKaggleや競技プログラミングで学んだ技術でお仕事をするようになった。Kaggle Competitions Master(Walmart Recruiting II: Sales in Stormy Weather 優勝、Coupon Purchase Prediction 3位)、日本アクチュアリー会正会員。
阪田隆司(さかたりゅうじ):3章、5章を執筆。
2012年に京都大学大学院修了後、国内電機メーカーに入社。以来、データサイエンティストおよび研究員として従事。仕事柄、データサイエンス・機械学習に興味を持ち、2014年よりKaggleを始め、2019年にKaggle Competitions Grandmasterとなる。
保坂桂佑(ほさかけいすけ):1章、および6章の一部を執筆。
東京大学大学院総合文化研究科広域科学専攻で天体シミュレーションの研究で修士号を取得。データ分析のコンサルティング企業で10年近く企業のデータ分析支援に携わった。その後大手Webサービス企業でデータ活用の推進に携わり、現在はデータサイエンティストや機械学習エンジニアの育成、マネジメントに従事。プライベートでは子育てに専念中。Kaggle Competitions Expert。
平松雄司(ひらまつゆうじ):2章、および7章の一部を執筆。
東京大学理学部物理学科卒業、同大学大学院理学研究科物理学専攻修了後、国内電機大手に就職した後、金融システム会社にてデリバティブクオンツ、国内大手損保グループにてリスクアクチュアリー業務に携わった。現在は、アクサ生命保険株式会社にてシニアデータサイエンティストとして社内のデータ分析の促進に従事。また、東京大学へ研究員としても出向中で、医療データの分析・研究を行っている。日本アクチュアリー会準会員。Kaggleを本格的に始めたのは2016年頃からであり、2018年にKaggle CompetitionsMasterとなっている。くまのぬいぐるみが好きでたまらない。
商品レビュー(12件)
- 総合評価
- 4.83
楽天Koboのレビュー
まだレビューがありません。 レビューを書く