K-ближайших соседей

Хорошо, давайте применим эту формулу к примеру. Допустим, у нас есть набор данных с пятью объектами:

Объект 1: \(x = (1, 2)\), класс \(y = \text{"красный"}\)
Объект 2: \(x = (2, 3)\), класс \(y = \text{"синий"}\)
Объект 3: \(x = (3, 4)\), класс \(y = \text{"красный"}\)
Объект 4: \(x = (4, 5)\), класс \(y = \text{"красный"}\)
Объект 5: \(x = (5, 6)\), класс \(y = \text{"синий"}\)

Предположим, у нас есть новый объект \(u\), который мы хотим классифицировать, например, \(u = (3, 3)\).

1. Найдем расстояния между \(u\) и каждым объектом:

Расстояние между \(u\) и объектом 1: \(d(u, \text{объект 1}) = \sqrt{(3-1)^2 + (3-2)^2} = \sqrt{2^2 + 1^2} = \sqrt{5} \approx 2.24\)
Расстояние между \(u\) и объектом 2: \(d(u, \text{объект 2}) = \sqrt{(3-2)^2 + (3-3)^2} = \sqrt{1^2 + 0^2} = 1\)
Расстояние между \(u\) и объектом 3: \(d(u, \text{объект 3}) = \sqrt{(3-3)^2 + (3-4)^2} = \sqrt{0^2 + 1^2} = 1\)
Расстояние между \(u\) и объектом 4: \(d(u, \text{объект 4}) = \sqrt{(3-4)^2 + (3-5)^2} = \sqrt{1^2 + 2^2} = \sqrt{5} \approx 2.24\)
Расстояние между \(u\) и объектом 5: \(d(u, \text{объект 5}) = \sqrt{(3-5)^2 + (3-6)^2} = \sqrt{2^2 + 3^2} = \sqrt{13} \approx 3.61\)

2. Выберем три ближайших соседа для \(u\):

Ближайшие соседи: объект 2, объект 3, объект 4

3. Теперь мы смотрим на классы этих ближайших соседей:

Объект 2: класс "синий"
Объект 3: класс "красный"
Объект 4: класс "красный"

4. Теперь мы считаем сумму индикаторов для каждого класса:

Количество "синих" соседей: \(\mathbb{I}[y_u^{(1)} = \text{"синий"}] = 1\)
Количество "красных" соседей: \(\mathbb{I}[y_u^{(2)} = \text{"красный"}] + \mathbb{I}[y_u^{(3)} = \text{"красный"}] = 2\)

5. Теперь мы выбираем класс \( y \), который максимизирует сумму:

\[\underset{y \in \{\text{"красный"}, \text{"синий"}\}}{\operatorname{argmax}} \sum_{i=1}^3 \mathbb{I}[y_u^{(i)} = y]\]

Для "красного": \(\sum_{i=1}^3 \mathbb{I}[y_u^{(i)} = \text{"красный"}] = 2\)
Для "синего": \(\sum_{i=1}^3 \mathbb{I}[y_u^{(i)} = \text{"синий"}] = 1\)

Таким образом, предсказанный класс для объекта \(u = (3, 3)\) с использованием метода k-ближайших соседей и \(k = 3\) будет "красный", так как "красный" класс представлен большинством ближайших соседей.