単純なデータに適用した際に最小二乗法フィットがバイアスを持つように見える理由

102日前原文(stats.stackexchange.com)

概要

グラフにおけるオーバープロットの指摘
点の大きさや塗りつぶしの工夫を提案
問題の本質ではないが可視化のベストプラクティスとして推奨
コメント投稿者はPeter Flom
コメントの投稿日時や経過時間の記載

グラフのオーバープロットについての指摘

グラフに多くのデータ点が重なって表示されているオーバープロットの発生
各データ点をより小さい点や塗りつぶしなしの円で表示することを提案
オーバープロット自体が本質的な問題ではないとの見解
可視化における**良い実践例（ベストプラクティス）**として推奨
コメント投稿者：Peter Flom
コメント日時：2026-01-02 12:21:00 +00:00
コメント投稿からの経過時間：2日前

Hackerたちの意見

yをxに対してプロットすると回帰直線ができて、逆にxをyに対してプロットすると別の直線ができるんだよね。統計の授業を教えてる途中で気づいて、ちょっと恥ずかしかった。バイアスを取り除く方法の一つが正規化かな。

こう考えるといいかも：線形回帰モデルはyのノイズだけを考慮して、xのノイズは無視する。一方、PCAの楕円や固有ベクトルはxとyの両方のノイズをモデル化するんだ。

└

これで面白い問題が出てくるんだけど、多くのシステムではyの方がxよりもノイズが多いことがあるんだ。例えば、アナログ-デジタルコンバータからの時系列データで、時間は水晶振動子に基づいてる場合とかね。

└

もしyがxのn倍ノイズがあるとわかっている場合、フィットを改善する方法はある？それとも、各自由変数の（おおよその）ノイズ分布がわかっている場合はどう？

└

トレンドを当てはめるとき、データ分析のためにPCAの固有ベクトルを使うべきなの？それとも線形回帰の方がいいの？

最小二乗法とPCAは異なる損失関数を最小化するんだよね。一つは縦（y）距離の二乗和、もう一つは直線への最短距離の和。これが違いを生むんだ。

└

最小二乗法をノイズをガウス分布にフィットさせる視点で見ると、結構役立つと思う。

└

なるほどね。でも、最小二乗法がどうして下に傾くのか、他の方向じゃダメなの？なんか恣意的に感じるんだけど。

線形回帰、つまり普通の最小二乗法はYだけにノイズがあってXは正しいと仮定してるんだ。君の「視覚的検査」はXとYの両方にノイズがあると仮定してる。それをトータル最小二乗法って呼ぶんだよ。

└

そうそう、デモするために傾けて（xとyを入れ替えて）もう一度やってみて。これがTLSのやってることかもね？

└

ここにイラストがあるよ: https://en.wikipedia.org/wiki/Total_least_squares

量子科学の教授が「xデータに誤差がないデータ収集シナリオを挙げられる人は？」ってよく聞いてた。そして、デミング回帰を一般的に好まれる分析として教えてたんだ。

└

あのウィキペディアの記事から、デルタはyの分散とxの分散の比率です。もしxの分散がyの分散に比べて小さい場合（実際にはよくあることですが）、大きなデルタのせいで不安定なモデルにならないでしょうか？

└

大抵の場合、例えば1 KHzでサンプリングするセンサーがあって、信頼できるMCUとクロックを使っているなら、センサーのノイズ項がサンプリングのジッターを大きく上回ります。だから、多くのセンサーデータではY座標の誤差がX座標の誤差よりも桁違いに大きくて、Xの誤差はほとんど無視できるんだよね。

このスレッドでのネガティブなコメントについてごめんね。投稿されたスタックエクスチェンジの議論が、すでに関連するポイントを全部提供してるみたいだから。最小二乗法の非対称性は、たぶんちょっとした新鮮さや驚きになるかもしれないけど、ここに投稿されてるものはほぼスタックエクスチェンジのコメントのコピーみたいなものだよ。[挑戦：このテーマについて本当に新しい視点を提供してみて。]

└

この回答はフォーラムにはちょっと大人すぎるね。

└

Stack Exchangeのディスカッションにはもう良い答えが出てるよ。あまり言うことはないと思う。解くべきパズルではなく、ちょっとした数学的な観察に過ぎないから。

└

それを話題にすることで、情報提供だけじゃなくて、スタックエクスチェンジで許可されている多様な会話ができるからいいよね。代替モデルのアプローチを探ることもできるし。実際に起こったわけじゃないけど、チャンスがあれば可能性はあるよね。

用語についてのメモ：最小二乗法モデルは、xが与えられたときにyの偏りのない予測を生成します。つまり、平均誤差がゼロになる予測です。これは統計学における偏りのないという技術的な定義ですが、一般的な使い方とは一致しないかもしれません。xがノイズの多い測定かどうかは、実はあまり関係ないです。持っている情報で予測を立てるだけですから。

この問題は通常、回帰希薄化として知られていて、ここで議論されています： https://en.wikipedia.org/wiki/Regression_dilution

└

そうなの？ウィキペディアの記事によると、回帰の希薄化はxデータの誤差が計算された回帰直線をバイアスする時に起こるって。だけど、スタックエクスチェンジの質問は、なぜバイアスのない回帰直線が3σ信頼楕円の主軸上にないのかを聞いてるんだよね。この一致の欠如はxデータに誤差がなくても成り立つはず。https://stats.stackexchange.com/a/674135 では、xデータの誤差が定義上ゼロの構成された例が示されてる。何か勘違いしてるのかな？

統計学にはしばらく触れてないけど、なんで特に二乗なのかがわからない。1乗や3乗、4乗でもいいじゃん？統計学では二乗がよく出てくるけど、あまり好きじゃない説明があって、絶対値を使わなくていいから扱いやすいっていうの。まあ、そうだけど、なんで4のような他の偶数乗じゃダメなの？異なる乗数は異なる結果をもたらすはずだし、統計学は重要なことを説明したり、私たちの生活に影響を与えたりするために使われるから、その点は大事だよね。なんで二乗が一番なの？統計の勉強の記憶がかなり曖昧だから、他に二乗が使われてた場面を思い出せないけど、統計学では結構よく見かける気がする。

└

二乗が好まれるのは、ユークリッド距離を最小化するのと同じだからだよ。ユークリッド距離はsqrt((x2-x1)^2)で定義されてる。

└

しばらくやってないけど、立方体（もっと高次のものも）もできるよ。立方体はL3ノルムで、3次元空間の円（球？）間の距離に関する何かだよね？それを選ぶ理由やタイミングを説明するためにノルムについて再度読まないといけないけど、「ベクトルノルム」って調べれば出てくる用語があるのは覚えてる。マンハッタン距離、次に直線距離、次は地面を飛んでるカラスが水中でも直線で泳げる場合の距離、みたいな感じ。

└

最小二乗法は凸であることが保証されてるんだよね[0]。少なくとも線形フィット関数の場合、最小値は一つだけで、勾配降下法でそこに到達できるし、単純な行列の逆行列で解けるから反復も必要ない。直感的には、多次元の放物線はボウルのように見えるから、底を見つけるのが簡単なんだ。高次の乗数になると形が複雑になって、複数の最小値を持つこともあるけど。こういう議論は問題を解きやすくするためのものだと思う。高次の乗数が追加の難しさに見合う場合もあるかもしれないし、最適化しようとしているものを考えないといけないね。[0] https://math.stackexchange.com/questions/483339/proof-of-con...

└

データの各ポイントはモデルに従っているけど、ガウスの独立同分布ノイズによってずれていると考えることができるよ。尤度は、平均がシフトして分散でスケールされたガウスの積になるんだ。対数尤度を最小化するってことは、各ポイントについて(x-μ)²の合計を減らすことになるから、要するに最小二乗法だね。

└

ウィキペディアには、最小二乗法の理由や、他の仮定からどうやってそこにたどり着くかについてのメモがあるよ: https://en.wikipedia.org/wiki/Least_squares#Statistical_test... 。それに、2次関数は高次のものよりも扱いやすいことが多いんだ。君が言ったように、偶数次の方が奇数次よりも絶対値を必要としないという利点があるけど、4次方程式は2次よりも扱いづらいよ。4次の局所最適解が必ずしもグローバル最適解とは限らないし、線形微分の解決可能性の利点を失うからね。

└

超シンプルに言うと、主に実用的な観点から見るとね：絶対値は0の周りで微分できないし、複数の最小値がある。誤差空間には鋭い尾根がある。4次のパワーはノイズに対して敏感すぎるし、3次のパワーではvar(x+y) != var(x) + var(y)になるよ。

└

線形モデルの場合、最小二乗法はBLUE推定量（最良線形不偏推定量）につながるんだ。この略語は、各単語が特定の技術的な意味を持っていて、すごく重要なんだよ。モデルをフィットさせるのも数学的に「いい」んだ。これは凸最適化問題で、実際にはかなり単純な線形代数だよ。推定された係数はyに対して線形で、これによって係数の標準誤差を簡単に出せるんだ！それに、これはyにガウス分布のノイズがあると仮定した場合の最大尤度法を使うときにやることでもあるから、理にかなった仮定だよ（でも最小二乗法を使うための厳密な仮定ではない）。幾何学的に見ると、これはユクリッド距離の観点からyに最も近い予測をするモデルを見つけることを意味するんだ。だから、何が起こっているのかを図に描くと、最小二乗法は合理的な選択に見えるよ。幾何学も「自由度」みたいなことを理解するのに役立つしね。だから、重なる理由があるかも。

└

それは扱いやすいこととは関係ないよ（少なくとも今の時代ではね）。最大の理由は、残差の二乗和を最小化すると、誤差が独立同分布の正規分布だと仮定した場合に最大尤度推定量が得られるからなんだ。もしモデルが違う（y = Ax + b + e で、誤差eが正規分布でない場合）なら、別のペナルティ関数がより適切かもしれない。実世界では、誤差がロングテールであることが多いから、これは非常に一般的なことなんだ。パワー1が使われることもあるし、ハーバー損失関数も一般的で、これは小さな値のeに対してはe²（残差の二乗）と一致するけど、大きな値のときは線形になるんだ。これによって外れ値に対する重みが軽くなるから、「ロバスト」なんだ。原則として、ノイズや誤差の分布がわかっていれば、最大尤度推定を得るための正しいペナルティ関数を計算できるんだ。詳しい公式については、ボイドとバンデンバーグの「凸最適化」（彼らのウェブサイトで無料で入手可能）を見てね、352-353ページに載ってるよ。編集：もう一つ理由を思い出した。最小二乗法のフィットが人気なのは、ANOVAに必要だからでもあるんだ。ANOVAは分散を成分に分解するための非常に古くて今でも人気のある手法で、みんなが「分散の75%は〜によるものだ」とか言うときに指しているものだよ。ANOVAはピタゴラスの定理に基づいていて、ユクリッド幾何学に存在していて、二乗を必要とするんだ。だから、私の理解では、ANOVAは状況に本当に適していなくても、最小二乗法のフィットを要求するんだ。

みんなメンタルで回転させたいと思うけど、それは正しくないよ。これは「幾何学的」な座標系に依存しない操作じゃないからね。個人的には、これはグラフに対する基本的なリスクだと思う。イメージを使って脳の空間的推論部分を引き出すのは素晴らしいけど、時にはそれが誤解を招くこともある — このケースみたいに — なぜなら、視覚化されている数学的構造についての幾何学的構造を仮定してしまうからなんだ。

ハクソク

単純なデータに適用した際に最小二乗法フィットがバイアスを持つように見える理由

概要

グラフのオーバープロットについての指摘

Hackerたちの意見