Ранжирование в этой модели основано на естественном статистическом наблюдении, что чем больше локальная частота термина в документе (TF) и больше «редкость» (т.е. обратная встречаемость в документах) термина в коллекции (IDF), тем выше вес данного документа по отношению к термину. Обозначение IDF ввела Карен Спарк-Джоунз в 1972 г. в статье про различительную силу (term specificity). С этого момента обозначение TF*IDF широко используется как синоним векторной модели.
Сегодня поиск любой информации практически всегда начинается с поисковой системы. Несмотря на то, что мы привыкли «проверять себя по Google», сегодня вряд ли можно быть уверенными в том, что поисковые системы в целом и Google в частности предоставляют нам абсолютно беспристрастный и точный результат. Далеко не всегда то, что предлагают нам поисковые системы, является наиболее точным и правдивым срезом информации. В сегодняшнем материале рубрики «Инструменты» мы поговорим о том, как получить действительно независимую информацию при онлайн-поиске.
С тех пор алгоритмы и математические модели, применяемые при ранжировании в Google, значительно улучшились. В интервью в 2007 году Амит Сингхал, представитель отдела качества поиска Google, заявил, что их поисковая система использует более 200 ранжирующих сигналов, лишь одним из которых является PageRank,[5] но он до сих пор играет существенную роль в поисковых продуктах Google.[6] Стоит отметить, что алгоритм PageRank, в том виде, в каком он был изложен Пейджем в статье 1998 года[3], может быть улучшен в некоторых практических аспектах (например, ссылкам могут назначаться разные веса), и алгоритмы, применяемые в современных поисковых системах, являются скорее лишь его вариантами.
Сингулярным разложением действительной матрицы A размеров m*n называется всякое ее разложение вида A = USV, где U — ортогональная матрица размеров m*m, V — ортогональная матрица размеров n*n, S — диагональная матрица размеров m*n, элементы которой sij = 0, если i не равно j, и sii = si >= 0. Величины si называются сингулярными числами матрицы и равны арифметическим значениям квадратных корней из соответствующих собственных значений матрицы AAT. В англоязычной литературе сингулярное разложение принято называть SVD-разложением.

Для сообщников, которые будут читать это в 2100 году, скажу: когда-то давным-давно, в 2018 году, Рэнд Фишкин был самой выдающейся фигурой в мире SEO-технологий. После почти 20 лет в SEO — он видел все, побывал везде, и вот он здесь, чтобы рассказать нам немного больше о его удивительном пути, который он проделал до настоящего времени и о следующих вехах этого знаменательного путешествия, — выходе его книги Потерявшийся стартапер и основатель и новом стартапе — проекте SparkToro.
×