Minitab社のブログ紹介のコーナーです。
▼ Minitab社ブログ
http://blog.minitab.com/
8月22日に掲載された記事で、原題は「Curve Fitting with Linear and Nonlinear Regression」です。少々難しいトピックのようです。普段、回帰分析を行って、予測値などをつくることが多い方にはためになる情報です。お時間の許す時にご覧ください。
--------------------------------------------------------------------
私たちは、2つの変数の間の線形関係について考えることがあります。予測変数が単位増加すると、応答は常にX単位増加します。しかし、すべてのデータにおいて線形関係が成立するわけではありません。モデルは、そのデータをよく表す曲線にフィットしなければなりません。

この適合線プロットは、曲線関係にフィットさせる際に直線を使うことの愚かさを示しています。あなたはどうやって曲線をフィットさせますか?幸いにも、統計解析ソフト Minitab は、線形と非線形の両方において様々な曲線フィッティングの方法を実装しています。
これらの方法を比較するため、私はモデルをいくつかのトリッキーな曲線にフィットさせようと思います。この目的のために、ノイズの小さい物理的なプロセスから得られたデータが曲線的な関数をもつと仮定します。所与のインプットによる出力を精確に予想したいと思います。このページの最後にあるサンプルデータ(mt201308_Curvature.MTW)を操作してみましょう。
■線形回帰における多項式曲線フィッティング
フィッティングの際によく行われる手法として、2次や3次の予測変数を加えて、多項式とする方法があります。一般的に、線の曲げの数でモデルの次数を選びます。各べき指数を増やすごとに、フィットさせた曲線に1つの曲げを生みます。3次以上の項を使う場合というのは非常に稀です。

サンプルデータのグラフには1つの曲げが表れていますので、2次のモデルを使ってフィッティングを行いましょう。Minitabでは、[統計] > [回帰] >[適合線プロット]を選択してください。

R二乗が高い一方、この適合線プロットは、回帰線が系統的に上方予測する、もしくは、下方予測することを示します。このことは、R二乗が高くとも、常に信用していいわけではないことを表しています。
より良いフィッティングを行いたい方は、以下をご覧ください。
■線形回帰における逆数項による曲線フィッティング
Inputが増加するにしたがって応答データが床に向かって下がっていく、もしくは、天井に向かって上がっていくようであれば、1つ以上の予測変数の逆数(1/X)をモデルに含むことで、このタイプの曲線をフィットさせることができます。より一般的には、予測変数への効果の大きさが、応答の値が増加するにつれて減少するときにこの形式を使います。
傾きが1/Xの関数になるため、傾きはXが増加するにつれて平らになります。このタイプのモデルは、Xが0と等しくなることはありません。なぜなら、0で割ることはできないからです。
Minitabの[計算] > [計算機]を使い、1/Inputの列(InvInput)を作成します。どうなるか見てみてください。1次(上図)と2次(下図)のモデルでフィットします。


この例では、2次の逆数項によるモデルがより良くデータにフィットしています。この適合線プロットではX軸を1/Inputに変えているため、データの自然な曲がり具合を見ることは難しいでしょう。
個別値プロットを以下に示します。自然なスケールで両方のモデルの適合値をプロットしました。緑色のデータ点は、明らかに2次の線に近い値を取っています。

先の2次の多項モデルと比較すると、2次の逆数項によるモデルは、Sが低く(Good)、R二乗が高く(Good)、予測に偏りもありません。ここまでで、これが最も良いモデルということになります。
--------------------------------------------------------------------
本コラムは、回帰線と式との関係を知るいい勉強材料になります。しかし、ボリューム満点によりもう半分は来月のコラムで紹介したいと思います。
続きが気になる方はこちら(英文)。
[ 2013.8.22 from Jim Frost in Regression Analysis team ]
[Translated by T.Hirose ]
コメント
0件のコメント
サインインしてコメントを残してください。