MDSのことはじめ

多変量データの可視化に興味があります。多変量解析というキーワードで統計手法を調べると、たくさんありすぎて目が回る!というような経験を一度はされたことのある方も多いはず。データの種類や目的、思想や仮定(assumption)、分野によって呼び方が違ったりもするので、ますます混乱を招きます。

ここでは多次元尺度構成法、Multidimensional scaling(MDS)の情報を集めました。多変量データを距離や非類似度(dissimilarity)を用いてなるべく低次元(1、2〜3次元)の空間配置として可視化する方法です。用いるアルゴリズムや次元を落とすときの基準などにより手法がいくつかあります。配置と似たような意味で使われている布置という用語はconfigurationの訳のようです。

  1. 古典的(Classical)MDS: 別名、主座標分析(Principal Coordinate Analysis, PCoA, PCO)、Torgerson Scaling、Torgerson & Gower scaling。数学的にはEckart & Young (1936)、およびYoung & Householder (1938)の定理に基づき、非類似度行列を二重中心化したものの固有値固有ベクトルを求め、スペクトル分解することに対応する(Torgerson, 1952, 1958; Gower, 1966)。Strainと呼ばれる損失関数を最小化する布置を求める。PCoAは距離としてユークリッド距離を用いた場合は、主成分分析(PCA)と数学的に同等となる。
  2. 計量(Metric)MDS: 古典的MDSの上位集合(superset)。最適化を一般化し、重み付きの距離やさまざまなstressと呼ばれる損失関数を用いる。この最小化をstress majorizationと呼び、反復により求めるアルゴリズムにSMACOF(Scaling by majorizing a convex function)がある。(http://en.wikipedia.org/wiki/Stress_majorization
  3. 非計量(Non-metric)MDS: NMDS、nMDS、またはNMSなどと略される。非類似度の順序関係と低次元空間上でのユークリッド距離の順序関係が一致するような布置を探すノンパラメトリックなMDS。単調性を保つような操作の典型はIsotonic回帰であり、Louis Guttmanの最小空間解析(smallest space analysis, SSA)などがある。
  4. 一般化(Generalized)MDS: GMDS。ユークリッド空間から一般化し、任意のなめらかな非ユークリッド空間上での布置を求める。

計量(metric)/非計量(non-metric)の区別は、非類似度を変換するときにパラメトリック/ノンパラメトリックな方法のどちらを用いるかの違いを表しており、布置を求める空間の性質ではないことに注意する。

今回参照した教科書は、

  1. Cox, TF. & Cox, MAA. (2000) Multidimensional Scaling, 2nd ed. Chapman and Hall/CRC. http://www.crcpress.com/product/isbn/9781584880943
  2. Borg, I. & Groenen, PJF. (2005) Modern multidimensional scaling. 2nd ed. New York: Springer. http://people.few.eur.nl/groenen/mmds/
  3. Borg, I, Groenen, PJF., & Mair P. (2013) Applied Multidimensional Scaling. New York: Springer. http://www.springer.com/statistics/computational+statistics/book/978-3-642-31847-4

[1]はレビュー形式で様々な手法を解説。最初から数式をごりごり展開だが、歴史的な経緯も正確にふまえつつ研究の動向を追った確かな説明であると感じる。(328ページ)
[2]は心理学系の著者の手になる。コンパスと定規で手で配置を求める実験をしてみるところから導入し、歴史的な心理物理実験のデータなど具体例をふんだんに使って説明を進めて行くスタイル。求まった配置の意味についても深く考察する。上記リンク先にデータがすべて公開されている。(613ページ)
[3]は[2]と同じ著者によるより簡潔な解説。特に8章のMDSを使用する上でよく見られる典型的な間違い方を説明した章がユニーク。9.2章でRの{smacof}パッケージの利用法が詳説されており、これも参考になります。(113ページ)
[2]と[3]で紹介されている、確証的(confirmatory)MDSという考え方は、これまでの探索的(exploratory)MDSと対照的で、今後のさらなる発展が期待されます。

この後、途中に広告がはさまれるようですが、記事自体はずっとずっと下の方まで続いています。また、文字の下線にリンクが貼られているものは、はてなさんが勝手にリンクを貼ったものであることが多いです。こちらが貼ったリンクは明示的に見えるようにそのままリンクを載せました。htmlなのかpdfなのか適宜見分けてみてください。