ヒストグラムは、変数の分布をよく理解しています。箱ひげ図は同じことをしようとしますが、この変数の分布の全体像をよく示していません。

人々が箱ひげ図を使用する理由がわかりません。ヒストグラムはあらゆる点で優れています。両方を使用する理由はありますか?

箱ひげ図が提供すると思うのは、外れ値だけです。どの観測値が外れ値である可能性があるかを示します。

コメント

  • ヒストグラムは、分布全体の表現よりもあらゆる点で悪いですか?
  • 必要なものに応じて、箱ひげ図では、ヒストグラムでは得られない正確な値(中央値、P75など)を得ることができます。表示される情報は少なくなりますが、より総合的です。私のポイントは、ヒストグラムでさえ、分布全体と比較して単純化され、情報の無駄であるということです。しかし、使いやすい場合があります
  • ヒストグラムの有用性についての反対の見方は、 statsの非常に賛成の投稿で、説得力のある表現とよく説明されています。 .stackexchange.com / a / 51753 ("ヒストグラム"をサイトで検索すると見つかります)。
  • 興味深い考えですが、ビンサイズを大きくすると、カットポイントの選択への不幸な依存性を維持しながら、ヒストグラムが箱ひげ図のような図に縮小されます。 IMHO、箱ひげ図の真のメリットは、多変量データの探索的分析のためのN文字の要約のTukey 'の使用を研究し、彼が鉛筆と紙で計算していたことを思い出すことで最もよく理解できます。当時の。 "さまよう回路図トレース"のような視覚化の場合、ヒストグラムやバイオリン図など、条件付き応答の他の単変量要約は単純に機能しません。
  • ヒストグラムの2つの失敗(imo)は、サンプルが少ない場合、またはボックスのサイズが間違っている場合に発生します。優れた箱ひげ図の弱点(そして私が言うとJMPの変動性を考えている')は、マルチモダリティと細部にあります。箱ひげ図が光る場所の1つは、サンプルが少ない場合です。また、さまざまなレベルで相互作用する変数が多数ある場合、つまりJMP変動プロットがある場合にも気に入っています。

回答

箱ひげ図が分布の要約をより多く提供するという事実は、特定の場合に利点と見なすこともできます。 「分布を比較するとき」は、全体的な形状ではなく、分布が相互にどこにあるかを気にすることがあります。分位数を並べてプロットすると、気にしない他の詳細に気を取られることなく、これを行うのに便利な方法になります。

コメント

  • これが最良の答えです。箱ひげ図は、ヒストグラムよりも分布の比較に適しています!

回答

単変量の場合、箱ひげ図はヒストグラムにはない情報(少なくとも、明示的にではない)。つまり、通常、外れ値ではない中央値、25パーセンタイルおよび75パーセンタイル、最小/最大を提供し、外れ値と見なされるポイントを明示的に分離します。これはすべてヒストグラムから「目で確認」できます(外れ値の場合は目で確認する方がよい場合があります)。

ただし、はるかに大きな利点は、多くの異なるグループ間の分布を一度に比較できることです。 10以上のグループの場合、これはヒストグラムを並べて表示するのは面倒な作業ですが、箱ひげ図を使用すると非常に簡単です。

あなたが言ったように、バイオリン図(または豆図)はやや有益な選択肢です。ただし、箱ひげ図よりもわずかに多くの統計知識が必要であり(つまり、統計的でない聴衆に提示する場合は、少し威圧的かもしれません)、箱ひげ図はカーネル密度推定器よりもはるかに長いため、人気が高くなっています。

コメント

  • +1。ただし、箱ひげ図は平均ではなく中央値を提供します。
  • 誰もが正しい可能性があります。通常プロットされる箱ひげ図は中央値を示します('これは拒否されましたが、例を見たことを思い出せません)。ただし、一部の実装では、平均を表示することもできます。 'はよくあるアイデアです。
  • ご指摘いただきありがとうございます。私は(誤って)それを'通常は平均値だと考え続けています。これは、極端な場合に非常に奇妙なプロットにつながる可能性があります。
  • 画像があればいいでしょうこれに合わせて、箱ひげ図とヒストグラムを並べて比較した場合の値を示します。

回答

  1. ヒストグラムを表示して中央値がどこにあるかを尋ねると、かなり時間がかかる可能性があります…そうすると、近似値しか得られません。私が箱ひげ図で同じことをすると、すぐにそれが得られます。 それがあなたの興味の対象である場合、箱ひげ図は明らかに勝ちます。

  2. 箱ひげ図は分布の説明ほど効果的ではないことに同意します単一のサンプルの場合、数ポイントに減り、多くのことはわかりません。

    ただし、数十の分布を比較している場合は、それぞれの詳細をすべて把握しているとよいでしょう。簡単に比較できるよりも多くの情報-比較する情報の数を減らしたい場合があります。

  3. より多くの情報が優れている場合は、より多くのより良い選択肢があります。ヒストグラム;たとえば、幹葉図、またはecdf /箱ひげ図。

    または、ヒストグラムに情報を追加することもできます。

限界箱ひげ図のあるヒストグラム ヒストグラムジッタのあるラグプロット ストリップチャートのあるヒストグラム

この回答

からのプロット最初のプロット(マージンに狭い箱ひげ図を追加する)は、得られる利点を提供しますどちらの表示からでも。

回答

棒グラフは観測の頻度の範囲のみを提供しますが、箱ひげ図は複数の場所をより適切に示します。分布のパラメーターは、棒グラフでは不可能な平均と分散の例です。したがって、箱ひげ図は、複数の分布がある場合に効果的な比較ツールとして使用されます。

コメント

  • 箱ひげ図が平均を表示することはまれです- -ほとんどの場合、中央値を使用します-分散を直接決して表しません。また、これらの量は通常、分布の"パラメータ"とは見なされないことに注意してください。これらは記述統計 データのバッチ用。
  • 正確には、あまり計算を行わずに分布を記述するための優れたツールです。また、中央値がより多く表示され、多くの場合、両方の測定値が一致するため、箱ひげ図も平均を概算するための優れたツールです。
  • あなたのコメントはデータを混乱させ続けているようです。 基礎となる分布を使用します。平均がデータのバッチの中央値と等しくなることは非常にまれです。さらに、箱ひげ図のより適切で最も一般的な使用法の1つは、非対称性を特定することです。これは通常、平均と中央値の重要な違いを意味します。箱ひげ図の元の概念の背後にある基本原則の1つは、箱ひげ図が堅牢な探索ツールであるということです。つまり、平均や分散などの機密性の高い統計に基づいていない方がよいことを意味します。

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です