K-ближайших соседей

Хорошо, давайте применим эту формулу к примеру. Допустим, у нас есть набор данных с пятью объектами:

  1. Объект 1: \(x = (1, 2)\), класс \(y = \text{"красный"}\)
  2. Объект 2: \(x = (2, 3)\), класс \(y = \text{"синий"}\)
  3. Объект 3: \(x = (3, 4)\), класс \(y = \text{"красный"}\)
  4. Объект 4: \(x = (4, 5)\), класс \(y = \text{"красный"}\)
  5. Объект 5: \(x = (5, 6)\), класс \(y = \text{"синий"}\)

Предположим, у нас есть новый объект \(u\), который мы хотим классифицировать, например, \(u = (3, 3)\).

1. Найдем расстояния между \(u\) и каждым объектом:

2. Выберем три ближайших соседа для \(u\):

Ближайшие соседи: объект 2, объект 3, объект 4

3. Теперь мы смотрим на классы этих ближайших соседей:

4. Теперь мы считаем сумму индикаторов для каждого класса:

5. Теперь мы выбираем класс \( y \), который максимизирует сумму:

\[\underset{y \in \{\text{"красный"}, \text{"синий"}\}}{\operatorname{argmax}} \sum_{i=1}^3 \mathbb{I}[y_u^{(i)} = y]\]

Таким образом, предсказанный класс для объекта \(u = (3, 3)\) с использованием метода k-ближайших соседей и \(k = 3\) будет "красный", так как "красный" класс представлен большинством ближайших соседей.