例えば、バスケットボールのシュートの精度とシュートする距離の関係を調べたいとします。 具体的には、「バスケットからの距離」をフィートで取り込み、私がシュートを決める確率を出力するモデルが必要です。

まず、いくつかのデータが必要です。 そこで、私は外に出て、さまざまな距離からバスケットボールを撃ち、それぞれの結果を記録しました(成功した場合は 1、失敗した場合は 0)。 散布図にするとこのようになります。

一般的に、バスケットから離れるほど、シュートの精度は落ちます。 つまり、小さな距離が与えられると、高い確率を予測し、大きな距離が与えられると、低い確率を予測します。

高いレベルでは、ロジスティック回帰は古き良き線形回帰とよく似た働きをします。

Y = B0 + B1*X

線形回帰では、出力 Y はターゲット変数(予測しようとしているもの)と同じ単位になります。 しかし、ロジスティック回帰では、出力Yは対数オッズになります。 スポーツベッティングやカジノに長時間行かない限り、オッズはあまりなじみがないと思います。 7310>

オッズ = P(Event) /

バスケットボールのテーマを続け、私が100本のフリースローを打ち、70本成功したとします。 このサンプルに基づいて、私のフリースローを行う確率は70%です。 フリースローを行う私の確率は次のように計算できます:

Odds = 0.70 / (1-0.70) = 2.333

それで、基本的に同じことを教えてくれるなら、なぜ悩むのでしょうか。 確率は0と1の間にあるため、回帰分析で問題になります。

そして、確率の自然対数をとれば、log odds が得られ、それは非限定(負の無限から正の無限まで)でほとんどの確率でほぼ直線です!

そして、その確率の対数をとれば、その確率の自然対数は無限大になり、ほとんどの確率でほぼ直線になります!

プロットの中央部分が線形であることに注目しましょう

私たちはロジスティック回帰方程式を書くことができるのです。

Z = B0 + B1*distance_from_basket

ここでZ = log(odds_of_making_shot)

そして対数確率であるZから確率を得るために、シグモイド関数を適用します。 シグモイド関数の適用とは、次のような変換を表現する空想的な方法です:

Probability of making shot = 1 /

さて、log oddsの線形推定から確率になる方法を理解したので、実際にZの計算に使用するロジスティック回帰式で係数B0とB1がどう推定されるかを検証してみましょう。 この裏にはいくつかの計算がありますが、できるだけ平易な言葉で説明し、皆さんも私もこのモデルを直感的に理解できるようにしたいと思います