Кроме проблемы корректного ранжирования создателям поисковых систем в интернете пришлось решать задачу обновления и синхронизации колоссальной по размеру коллекции с гетерогенными форматами, способами доставки, языками, кодировками, массой бессодержательных и дублирующихся текстов. Необходимо поддерживать базу в состоянии максимальной свежести (на самом деле достаточно создавать иллюзию свежести — но это тема отдельного разговора), может быть, учитывать индивидуальные и коллективные предпочтения пользователей. Многие из этих задач никогда прежде не рассматривались в традиционной науке информационного поиска.
Анализ соответствия гипертекста: поисковая система Google, как и другие системы, также анализирует содержание страницы. Однако вместо простого сканирования текста страницы (который может выполнить веб-издатель с помощью метатегов) технология Google анализирует все содержание страницы, особенности шрифтов, разбивки текста и точное расположение каждого слова. Google также анализирует содержание соседних веб-страниц, чтобы убедиться в том, что полученные результаты наиболее точно соответствуют запросу пользователя.
Скульптурирование PageRank (англ. PageRank sculpting) — манипулирование количеством PageRank, передаваемого через конкретные ссылки страницей N другим страницам с помощью присвоения одной или нескольким ссылкам, идущим с этой страницы, атрибута nofollow, что приводит к удержанию большего PageRank («веса») на странице N с целью дальнейшей его передачи нужным страницам. В 2009 году Мэтт Каттс заявил, что скульптурирование PageRank больше не работает, так как теперь постановка любых ссылок (как с атрибутом nofollow, так и без него) приводит к равномерному распределению передаваемого PageRank («веса») между исходящими ссылками.[11]
Для примера опишу лишь одну, пожалуй, самую популярную модель, работающую по смыслу. В теории информационного поиска данную модель принято называть латентно-семантическим индексированием (иными словами, выявлением скрытых смыслов). Эта алгебраическая модель основана на сингулярном разложении прямоугольной матрицы, ассоциирующей слова с документами. Элементом матрицы является частотная характеристика, отражающая степень связи слова и документа, например, TF*IDF. Вместо исходной миллионноразмерной матрицы авторы метода  Фурнас и Дирвестер предложили использовать 50—150 «скрытых смыслов» [3], соответствующих первым главным компонентам ее сингулярного разложения.
Решающее значение приобретает продумывание архитектуры всего комплекса с самого начала, так как любые изменения — например, добавление необычного фактора при ранжировании или сложного источника данных — становятся исключительно болезненной и сложной процедурой. Очевидно, системы, стартующие позже, имеют в этой ситуации преимущество. Но инертность пользователей весьма высока: так, например, требуется два-четыре года, чтобы сформированная многомиллионная аудитория сама, пусть и медленно, перешла на непривычную поисковую систему, даже при наличии у нее неоспоримых преимуществ. В условиях жесткой конкуренции это порой неосуществимо.
Для сообщников, которые будут читать это в 2100 году, скажу: когда-то давным-давно, в 2018 году, Рэнд Фишкин был самой выдающейся фигурой в мире SEO-технологий. После почти 20 лет в SEO — он видел все, побывал везде, и вот он здесь, чтобы рассказать нам немного больше о его удивительном пути, который он проделал до настоящего времени и о следующих вехах этого знаменательного путешествия, — выходе его книги Потерявшийся стартапер и основатель и новом стартапе — проекте SparkToro.
×