ガウス判別分析(GDA)とは何ですか? GDAがどのように機能し、どこから来たのかを理解するには、どのような資料を読む必要がありますか?高校レベルの人にこれを説明してみてください。
コメント
- によるとたとえば、imada.sdu.dk / 〜marco / DM825 / Slides / dm825-lec7.pdf は、Linear DA + QuadraticDAの汎用ラベルです。したがって、"判別分析"だけを安全に検索/読み取り(このサイトを含む)できます。 GDAに対応します。 GDAは、正規分布の母集団を想定したDAです。
回答
GDAは、次の場合に一般的に使用されるデータ分類の方法です。データは正規分布で近似できます。最初のステップとして、トレーニングセット、つまりまだ分類されている一連のデータが必要になります。これらのデータは、分類器をトレーニングし、データが属する可能性が高いクラスを示す識別関数を取得するために使用されます。
トレーニングセットがある場合は、平均 $ \ mu $ と標準偏差
各クラスの正規分布を計算したら、データを分類するために、それぞれの確率を計算する必要があります。そのデータがそれに属していること。確率が最も高いクラスがアフィニティクラスとして選択されます。
正規密度の判別関数の詳細については、教科書のパターン分類DUDA、HART、SOTRK を参照してください。またはパターン認識と機械学習BISHOP 。
GDAのチュートリアルは、 Part1 および Part2 aにもあります。 >
コメント
- 最初の本は" Stork "、" Sotrk "ではありません。
- チュートリアルのリンクが壊れています。一度確認してください。もう一度
- リンクが修正されました。
回答
AndrewNgだと思います ” s GDAに関するメモ( https://web.archive.org/web/20200103035702/http://cs229.stanford.edu/notes/cs229-notes2.pdf )は、私がこの概念について見た中で最も良い説明ですが、"要求に応じて、高校レベルの誰かにこれを説明してみてください"(そして、Andrewのメモに関連付けてください。数学を気にするあなた)。
2つのクラスがあると想像してください。 1つのクラスを
これらのうちの1つの観測を説明するデータポイント
AndrewのメモからのGDAのモデルは次のとおりです。
平易な英語では、次のようになります。
$ p(y)$ は、不公平なコイントスとして説明できます。たとえば、 $ p(y = 0)= 0.4 $ および
$ y = 0 $ が与えられた場合(つまり、可能であれば)物がリンゴであると仮定します)、xのすべての測定値は、通常、いくつかのパラメーターのセット $ \ mu_0 $ および
$ y = 1 $ (オレンジ色)の場合、その測定値も正常に動作すると想定しています。それらの平均が異なることを除いて、 $ \ mu_1 $ で説明します。ただし、同じ $ \ Sigma $ を使用します。 1
わかりました…セットアップがすべて終わったら、思考実験を行います。
何かがリンゴかオレンジかを判断する不公平なコインを裏返します。次に、その結果に基づいて、正規分布0または正規分布1に移動し、データポイントをサンプリングします。これを何度も繰り返すと、 $ d $ 次元空間に大量のデータポイントが取得されます。十分なデータがあれば、このデータの分布は次のようになります。生成元の特定のモデルの"典型的な"である。
(したがって、彼のメモが呼ばれる理由"ジェネレーティブラーニングアルゴリズム")
しかし、これを逆方向に実行するとどうなりますか?大量のデータを提供します代わりに、そのような方法で生成されたと言います。逆に、戻ってコインの確率と $$ mu $ を教えてください。このデータに可能な限り適合する、2つの正規分布のspan>と
1 Andrewのモデルは同じ共分散行列 $ \ Sigma $ 。これは、一方のクラスの正規分布がどのように見えるかを意味します-どんなに背が高く/太く/鈍い場合でも-私は他のクラスを想定していますclass “共分散行列もまったく同じように見えます。
この仮定は確かに間違っている可能性があり、GDAは、 $の場合、最も一般的なケースでこの演習を説明します。 \ Sigma $ は、クラス間で異なる場合があります。
回答
GDAは、線形分布分析の形式です。既知の$ P(x | y)$から、$$ P(y | x)= \ frac {P(x | y)P_ {prior}(y)} {\ Sigma_ {g \ in Y} P(x | g)P_ {prior}(g)} $$
ベイズを適用して導出されます。
基本的に、@ ttnphnsが指摘したように、通常はジェネリックとして使用されます。ガウス分布を示す母集団を想定する判別分析のラベル。より詳細な説明については、Annals of Eugenics の Fisherの1936年の論文をお読みください(そうです、それは実際にはそれが呼ばれていたものです)。 「読みづらくてやりがいのない読み物ですが、 アイデアの源です(少し警告:ワインとは異なり、紙は良くなりません。これを考えると、読むのが非常に混乱します。 「生成的分布分析モデル」のようなアイデアを使用しない数学用語で書かれたので、ここではある程度の用語の混乱があります。私はここに恥ずかしそうに私がほとんど独学であり、GDAに関する私の教育は主にスタンフォード大学のAndrewNgによる素晴らしい講演(それがあなたの楽しみのアイデアである場合)からのものであり、見る価値があります(そして現代の主題について話します) lingo)。