Введение в информационный поиск
Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце
Введение в информационный поиск - это первый учебник, в котором наряду с классическим поиском рассматриваются веб-поиск, а также классификация и кластеризация текстов. Учебник написан с точки зрения информатики и содержит современное изложение всех аспектов проектирования и реализации систем сбора, индексирования и поиска документов, методов оценки таких систем, а также введение в методы машинного обучения на базе коллекций текстов.
Несмотря на то что учебник задуман как вводный курс по информационному поиску, он будет интересен исследователям и профессионалам. Полный набор слайдов для лекций и упражнений, сопровождающих книгу, доступен в сети веб.
Издательство: Вильямс, 2011 г.
ISBN 978-5-8459-1623-5, 978-0-5218-6571-5
Количество страниц: 528.
Содержание книги «Введение в информационный поиск»:
- 10 Таблица обозначений
- 17 Предисловие
- 21 Благодарности
- 23 Глава 1. Булев поиск
- 24 1.1. Пример информационного поиска
- 28 1.2. Первая попытка создать инвертированный индекс
- 31 1.3. Обработка булевых запросов
- 35 1.4. Сравнение расширенной булевой модели и ранжированного поиска
- 38 1.5. Библиография и рекомендации для дальнейшего чтения
- 41 Глава 2. Лексикон и списки словопозиций
- 41 2.1. Схематизация документа и декодирование последовательности символов
- 44 2.2. Определение лексикона терминов
- 57 2.3. Быстрое пересечение инвертированных списков с помощью указателей пропусков
- 60 2.4. Словопозиции с координатами и фразовые запросы
- 66 2.5. Библиография и рекомендации для дальнейшего чтения
- 69 Глава 3. Словари и нечеткий поиск
- 69 3.1. Поисковые структуры для словарей
- 72 3.2. Запросы с джокером
- 76 3.3. Исправление опечаток
- 82 3.4. Фонетические исправления
- 84 3.5. Библиография и рекомендации для дальнейшего чтения
- 85 Глава 4. Построение индекса
- 85 4.1. Основы аппаратного обеспечения
- 87 4.2. Блочное индексирование, основанное на сортировке
- 91 4.3. Однопроходное индексирование в оперативной памяти
- 93 4.4. Распределенное индексирование
- 96 4.5. Динамическое индексирование
- 99 4.6. Другие типы индексов
- 101 4.7. Библиография и рекомендации для дальнейшего чтения
- 103 Глава 5. Сжатие индекса
- 104 5.1. Статистические характеристики терминов в информационном поиске
- 108 5.2. Сжатие словаря
- 113 5.3. Сжатие инвертированного файла
- 123 5.4. Библиография и рекомендации для дальнейшего чтения
- 127 Глава 6. Ранжирование, взвешивание терминов и модель векторного пространства
- 128 6.1. Параметрические и зонные индексы
- 134 6.2. Частота термина и взвешивание
- 137 6.3. Модель векторного пространства для ранжирования
- 143 6.4. Варианты функций tf–idf
- 149 6.5. Библиография и рекомендации для дальнейшего чтения
- 151 Глава 7. Ранжирование в полнофункциональной поисковой системе
- 151 7.1. Эффективное ранжирование
- 159 7.2. Компоненты информационно-поисковой системы
- 162 7.3. Влияние операторов языка запросов на ранжирование в векторном пространстве
- 164 7.4. Библиография и рекомендации для дальнейшего чтения
- 165 Глава 8. Оценка информационного поиска
- 165 8.1. Оценка информационно-поисковой системы
- 167 8.2. Стандартные тестовые коллекции
- 168 8.3. Оценка неранжированных результатов поиска
- 171 8.4. Оценка ранжированных результатов поиска
- 177 8.5. Оценка релевантности
- 181 8.6. Более широкая точка зрения: качество системы и ее полезность для пользователя
- 183 8.7. Сниппеты
- 185 8.8. Библиография и рекомендации для дальнейшего чтения
- 189 Глава 9. Обратная связь по релевантности и расширение запроса
- 189 9.1. Обратная связь по релевантности и псевдорелевантности
- 200 9.2. Глобальные методы для переформулирования запроса
- 204 9.3. Библиография и рекомендации для дальнейшего чтения
- 207 Глава 10. XML-поиск
- 209 10.1. Основные концепции языка XML
- 213 10.2. Проблемы, связанные с XML-поиском
- 217 10.3. Модель векторного пространства для XML-поиска
- 221 10.4. Оценка XML-поиска
- 225 10.5. Методы XML-поиска, ориентированные на текст и на данные
- 227 10.6. Библиография и рекомендации для дальнейшего чтения
- 231 Глава 11. Вероятностная модель информационного поиска
- 232 11.1. Основы теории вероятностей
- 233 11.2. Принцип вероятностного ранжирования
- 234 11.3. Бинарная модель независимости
- 241 11.4. Вероятностные модели и некоторые модификации
- 245 11.5. Библиография и рекомендации для дальнейшего чтения
- 247 Глава 12. Языковые модели для информационного поиска
- 247 12.1. Языковые модели
- 252 12.2. Модель правдоподобия запроса
- 258 12.3. Сравнение языкового моделирования с другими подходами к информационному поиску
- 259 12.4. Расширения языковых моделей
- 260 12.5. Библиография и рекомендации для дальнейшего чтения
- 263 Глава 13. Классификация текстов и наивный байесовский подход
- 266 13.1. Классификация текстов
- 267 13.2. Наивная байесовская классификация текстов
- 272 13.3. Модель Бернулли
- 274 13.4. Свойства наивной байесовской модели
- 279 13.5. Выбор признаков
- 287 13.6. Оценка классификации текстов
- 293 13.7. Библиография и рекомендации для дальнейшего чтения
- 295 Глава 14. Классификация в векторном пространстве
- 297 14.1. Представление документов и меры близости в векторном пространстве
- 298 14.2. Метод Роккио
- 302 14.3. Метод k ближайших соседей
- 307 14.4. Линейные и нелинейные классификаторы
- 311 14.5. Классификация с несколькими классами
- 314 14.6. Компромисс между смещением и дисперсией
- 321 14.7. Библиография и рекомендации для дальнейшего чтения
- 323 Глава 15. Метод опорных векторов и машинное обучение на документах
- 323 15.1. Метод опорных векторов: случай линейно разделимых классов
- 330 15.2. Расширения модели опорных векторов
- 338 15.3. Проблемы, связанные с классификацией текстовых документов
- 344 15.4. Методы машинного обучения для поиска по запросу
- 349 15.5. Библиография и рекомендации для дальнейшего чтения
- 353 Глава 16. Плоская кластеризация
- 354 16.1. Кластеризация в информационном поиске
- 358 16.2. Формулировка задачи
- 359 16.3. Оценивание кластеризации
- 363 16.4. Метод К-средних
- 370 16.5. Кластеризация, основанная на моделях
- 376 16.6. Библиография и рекомендации для дальнейшего чтения
- 379 Глава 17. Иерархическая кластеризация
- 380 17.1. Агломеративная иерархическая кластеризация
- 383 17.2. Кластеризация методами одиночной и полной связи
- 390 17.3. Агломеративная кластеризация на основе усреднения по группе
- 392 17.4. Кластеризация методом центроидов
- 393 17.5. Оптимальность агломеративной иерархической кластеризации
- 396 17.6. Нисходящая кластеризация
- 397 17.7. Именование кластеров
- 399 17.8. Вопросы реализации
- 401 17.9. Библиография и рекомендации для дальнейшего чтения
- 403 Глава 18. Разложение матриц и латентно-семантическое индексирование
- 403 18.1. Обзор сведений из линейной алгебры
- 407 18.2. Матрицы «термин–документ» и сингулярные разложения
- 409 18.3. Малоранговые аппроксимации
- 411 18.4. Латентно-семантическое индексирование
- 417 18.5. Библиография и рекомендации для дальнейшего чтения
- 419 Глава 19. Основы поиска в вебе
- 419 19.1. Основы и история
- 421 19.2. Характеристики веба
- 426 19.3. Реклама как экономическая модель
- 428 19.4. Опыт пользователей поисковых систем
- 430 19.5. Размер индекса и оценка его размера
- 434 19.6. Нечеткие дубликаты и алгоритм шинглов
- 438 19.7. Библиография и рекомендации для дальнейшего чтения
- 439 Глава 20. Обход и индексирование веба
- 439 20.1. Обзор
- 440 20.2. Обход веба
- 449 20.3. Распределение индексов
- 450 20.4. Серверы проверки ссылочной связности
- 453 20.5. Библиография и рекомендации для дальнейшего чтения
- 455 Глава 21. Анализ ссылок
- 455 21.1. Веб как граф
- 457 21.2. Метод PageRank
- 466 21.3. Порталы и авторитетные источники
- 472 21.4. Библиография и рекомендации для дальнейшего чтения
- 473 Библиография
- 506 Предметный указатель
Инструкция как скачать книгу Кристофер Д. Маннинг, Прабхакар Рагхаван, Хайнрих Шютце: Введение в информационный поиск в форматах DjVu, PDF, DOC или fb2 совершенно бесплатно.