最近接法 (Nearest Neighbor Classification)

データから分類を学習する問題において,ある点 $\textbf{x}$ の分類を,学習データの中でその点に最も近い $k$ 個の点を選び,それらの中で一番多いクラスに分類するアルゴリズムである. $k$-nearest neighbor classificationあるいは$k$最近接法などと,$k$を付けて記されることが多い. 端的になぞらえると「各自が自分に最も近い$k$人の意見を集めて,その中の多数決で物事を決めるアルゴリズム」である.

分類のための学習機械(入力が属性ベクトル,出力が分類結果のクラスであり,データからパラメータを学習することによって挙動を調整できるような関数)としてのパラメータは,各点のクラスを決める際に参考にする点の数 $k$,および点$\bf x$と点$\bf x'$の間の距離を決める関数 $d({\bf x}, {\bf x'})$ の2つのみである.

Rでは class というパッケージの中に knn() という関数が実装されていて,利用できる.