Ольга Пескова - Введение в информационный поиск

С чего начать студенту, заинтересовавшемуся вопросами информационного поиска

Введение

Постановка задачи информационного поиска

Информационный поиск (Information Retrieval) - это процесс поиска в большой коллекции некоторого неструктурированного материала (документа), удовлетворяющего информационные потребности.

Маннинг К. Д., Рагхаван П., Шютце Х.
Введение в информационный поиск.

Поисковая система в общем виде представлена на рис. 1. В зависимости от типа задачи пользователь формирует различные запросы и обращается к различным поисковым механизмам. Однако общим для всех задач является то, что:

пользователь формирует запрос (A) естественным для него (человека) способом;
пользователь желает искать среди объектов (C), представленных в традиционном для него виде;
машина получая запрос пользователя, преобразовывает его к формальному описанию (B), затем ищет среди коллекции документов, заранее преобразованных к формальному виду (D), наиболее близкие к запросу пользователя (релевантные) документы.

Рис. 1. Поисковая система в общем виде

Под формальным описанием исходных объектов поиска, или образами объектов, будем понимать представление объекта (документа, запроса) в виде списка его признаков, например, слов или словосочетаний, снабжённого информацией о значимости (весе) каждого признака для содержания (тематики) конкретного документа. Процесс предварительной обработки документов, нацеленный на формирование образов документов, часто называют индексацией коллекции документов.

Представим, что имеется множество документов D размерностью N_D. После выделения признаков из каждого документа получаем множество признаков P размерностью N_P. Множество признаков содержит все признаки, встречающиеся хотя бы в одном из документов. Тогда получаем разреженную матрицу «документ-признак»:

строками которой являются образы документов —d_i, для каждого из которых известен вес каждого признака (вес равен нулю в случае отсутствия некоторого признака в некотором документе). Далее поисковая задача сводится к применению некоторого математического метода для анализа матрицы «документ-признак» и принятия решения о релевантность того или иного образа документа, а следовательно и самого документа. Это одна из поисковых моделей – векторная модель. Существуют и другие модели (подробнее - в основной литературе о методах и проблемах информационного поиска).

Важной проблемой является оценка результатов работы поисковой машины (IR Evaluation). В настоящее время известен ряд метрик, позволяющих получить количественную оценку качества поиска. Их можно разделить на две группы: внешние (а) и внутренние (б) метрики.

Внешние метрики – требуется сравнить результат поиска, выполненный автоматически, с результатом выполненным экспертами, т. е. необходимо наличие «эталонного» поискового результата, составленного человеком. Ярким примером таких метрик являются всем известные полнота (recall) и точность (precision). Интерпретация этих метрик меняется в зависимости от типа решаемой задачи, однако, общий смысл остаётся неизменным. Его проще всего раскрыть на примере задачи классического поиска. Так, полнота – это количество релевантных (соответствующих запросу) документов в ответе поисковой машины по отношению к общему количеству релевантных документов в коллекции документов, а точность – это количество релевантных документов в ответе поисковой системы по отношению к общему количеству документов в ответе системы.

Внутренние метрики – анализируют результат работы поисковой системы без привлечения внешней информации, т. е. не требуется «эталонный» результат поиска. Например, анализ средних межкластерного и внутрикластерного расстояний в задаче кластеризации документов.

Таким образом получаем, что основными направлениями исследований являются следующие:

как и какие выявить признаки исходных объектов (а также и объектов-запросов), чтобы они наилучшим образом отображали смысл объектов, который видит в них человек (пользователь);
как эффективно сравнить формальные описания заданных объектов и объектов, среди которых осуществляется поиск;
как оценить, хорошо или плохо был выполнен поиск: удовлетворён ли пользователь результатами поиска, т. е. какие формальные критерии использовать, чтобы вычислить формальные характеристики качества поиска, совпадающие с мнением большинства людей (пользователей системы);
как эффективно организовать хранение поисковой информации и обеспечить быстрый и надежный доступ поисковым машинам к данной информации (Структуры данных для поисковых систем).

Корректность внешних ссылок проверена 31.03.2009. Надеюсь, вам не составит труда обнаружить новое местоположение указанных ресурсов, если с тех пор некоторые веб-сайты изменили свою структуру =)

Литература

Выборка изданий о проблемах и методах информационного поиска

Основная литература

van Rijsbergen C. J. Information retrieval. – 1979. [HTML, там же PDF]
Manning C. D., Schutze H. Introduction to Information Retrieval. – 2008. [HTML, там же PDF]
Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval [HTML]
Grossman D. A., Frieder O. Information Retrieval: Algorithms and Heuristics (2nd Edition). – Springer, 2004. – 332 p.
Видеозаписи и слайды лекций, прочитанных во время 2-ой Российской летней школе по информационному поиску, 2008. [Видео]
Manning C. D., Schutze H. Foundations of statistical natural language processing. – Cambridge: MIT Press, 1999. – 620 p.
Белоногов Г. Г. Компьютерная лингвистика и перспективные информационные технологии. – М.: Русский мир, 2004. – 248 с. [HTML]
Солтон Дж. Динамические библиотечно-информационные системы. – Пер. с англ. – М.: Мир, 1979. – 558 с.
Lewandowski D. Web Information Retrieval: Technologien zur Informationssuche im Internet. Frankfurt am Main: DGI, 2005. [PDF]

Периодические издания

Материалы Ассоциации по вычислительной технике (Association for Computing Machinery)*
Журналы издательства научной, технической и медицинской литературы Elsevier*, например, Information Processing & Management
Электронная библиотека в сфере информатики и вычислительной техники CiteSeer
Статьи и др. публикации из научной электронной библиотеки eLIBRARY.RU*
Труды конференции "Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции", RCDL
Труды международной конференции по компьютерной лингвистике "Диалог"

*см. возможности бесплатного доступа к публикациям отечественных и иностранных издательств из локальной сети МГТУ на сайте библиотеки МГТУ.

Также информацию о новых публикациях на вашу тему можно получать, периодически пролистывая РЖ ВИНИТИ (реферативный журнал, выпускаемый Всероссийским институтом научно-технической информации). РЖ ВИНИТИ доступен в библиотеке МГТУ.

Формирование образов документов

Индексация документов

Губин М. В. Модели и методы представления текстового документа в системах информационного поиска / М. В. Губин // Научно-техническая информация. Сер. 1. – 2004. – №12. – С. 12-24.
Браславский П. И. Автоматические операции с запросами к машинам поиска интернета на основе тезауруса: подходы и оценки. [HTML]
Гусев В.Д. Алгоритм выявления устойчивых словосочетаний с учетом их вариативности (морфологической и комбинаторной) / В.Д. Гусев, Н.В. Саломатина // Труды международной конференции Диалог’2004. – М.: Наука, 2004. – С. 530-535.
Добрынин В. Ю. Оценка тематического подобия текстовых документов / В. Ю. Добрынин, В.В. Клюев, И. С. Некрестьянов // Электронные библиотеки: перспективные методы и технологии: Труды второй всероссийской научной конференции. – Санкт-Петербург, 2000. – С. 54-62.
Прикладная статистика: Исследование зависимостей: Справ. изд. / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин; Под. ред. С. А. Айвазяна. – М.: Финансы и статистика, 1985. – 487с.: ил. [HTML]
Прикладная статистика: Классификация и снижение размерности: Справ. изд. / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин; Под. ред. С. А. Айвазяна. – М.: Финансы и статистика, 1989. – 607с.: ил. [HTML]
Salton G., Buckley C. Term-weighting approaches in automatic text retrieval: Technical Report . – New York: Cornell University, 1987. – 11 p.
Salton G., Buckley C. Weighting approaches in automatic text retrieval // Information Processing and Management. – 1988. – Vol. 24(5). – P. 513-523.
Luhn H.P. A statistical approach to mechanized encoding and search of library information // IBM Journal of Research and Development. – 1957. – №1. – P. 309-317.
Jones K. S. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. – 1972. – № 2(34). – P. 87-93.
Mladenić D., Grobelnik M. Word sequences as features in text learning // Proceedings of the 17th Electrotechnical and Computer Science Conference. – Ljubljana, 1998. – P. 145-148.

Yang Y., Pedersen J. O. A Comparative Study on Feature Selection in Text Categorization // The Fourteenth International Conference on Machine Learning: Proceedings of ICML'97. – San Francisco, 1997. – P. 412-420.
Guo D., Berry M. W. Knowledge-Enhanced Latent Semantic Indexing // Information Retrieval. – 2003.– Vol. 6. – P. 225-250.
Kelledy F., Smeaton A.F. Automatic Phrase Recognition and Extraction from Text // Proceedings of the 19th Annual BCS-IRSG Colloquium on IR Research. – Aberdeen, 1997. – P. 493-496.
Tan Ch.-M. The Use of Bigrams to Enhance Text Categorization / Ch.-M. Tan, Y.-F. Wang, Ch.-D. Lee // Information Processing and Management. – 2002. – Vol. 38 (4). – P. 529-546.
Berger A. L. A Maximum Entropy Approach to Natural Language Processing / A. L. Berger, S. A.Della Pietra, V. J. Della Pietra // Computational Linguistics. – 1996. – Vol. 22, Num. 1 – P. 39-71.
Landauer T. K. Introduction to Latent Semantic Analysis / T. K. Landauer, P. W. Foltz, D. Laham // Discourse Processes. – 1998. – Vol. 25. – P. 259-284.
Wall M. E. Singular value decomposition and principal component analysis / M. E. Wall, A.Rechtsteiner, L. M. Rocha // A Practical Approach to Microarray Data Analysis. – Kluwer, 2003. – P. 91-109.
Cristianini N. Latent Semantic Kernels / N. Cristianini, J. Shawe-Taylor, H. Lodhi // Journal of Intelligent Information Systems. – 2002. – Vol. 18(2-3). – P. 127-152.
Dias G. Combining linguistics with statistics for multiword term extraction: A fruitful association? / G. Dias, S. Guillore, J.-C Bassano., J. G. Pereira Lopes// Proc. Of Recherche d’Informations Assistee par Ordinateur 2000 (RIAO’2000) [Electronic resource]. – 2000. – Electronic text and graphic data. – Аccess mode: //www.di.ubi.pt/~ddg/publications/riao2000.pdf.
Ko Y. Improving text categorization using the importance of sentences / Y. Ko, J. Park, J. Seo // Information Processing and Management. – 2004. – Vol. 40. – P. 65-79.
Готовая семантическая сеть для английского языка WordNet.

IR Evaluation

Оценка качества поисковой системы

Агеев М.С. Официальные метрики РОМИП’2004 / М.С. Агеев, И.Е Кураленок // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) – Пущино, 2004.
Гусарова Л. Проверка обоснованности кластерного решения / Л. Гусарова, И. Яцкив // Reliability and statistics in transportation and communication (RelStat’03). – Рига, 2004. – Т. 5, №2. – С.49-56.
Halkidi M. On Clustering Validation Techniques / M. Halkidi, V. Batistakis, M. Vazirgiannis // Journal of Intelligent Information Systems, Kluwer Academic Publishers. Manufactured in The Netherlands. – 2001. – 17:2/3. – P. 107-145.

Bezdek J. C., Pal N. R. Some New Indexes of Cluster Validity // IEEE Transactions On Systems, Man And Cybernetics. – 1998. – Vol. 28, No. 3. – P. 301-315.
Kuo-Lung W., Miin-Shen Y. A cluster validity index for fuzzy clustering // Pattern Recognition Letters. – 2005. – Vol. 26. – P. 1275–1291.
Lam B. S. Y., Yan H. A new cluster validity index for data with merged clusters and different densities // Systems, Man and Cybernetics: IEEE International Conference. – 2005. – Vol. 1. – P. 798-803.

Query Search

Поиск по запросу

Вход: запрос на естественном языке, например, список ключевых слов.

Выход: ранжированный список найденных документов.

Объекты для поиска: множество текстовых документов.

Признаки объектов: численные характеристики вхождения в документ слов, словосочетаний и т. п., а также различные эвристические данные, примеры которых см. в необязательные дополнительные данные.

Обязательные дополнительные данные: нет.

Необязательные дополнительные данные (по выбору авторов системы): дополнительные признаки объектов, например, индекс цитирования и т. п. для сортировки выдачи; сбор и анализ обратной связи для корректировки запросов и др.

Литература:

Сегалович И. Как работают поисковые системы — . «Мир Интернет», №10. - 2002. [PDF или HTML]
см. основную литературу;
см. о структурах данных для поисковых систем.

Text Categorization

Классификация текстов с учителем

Вход: текстовый документ, подлежащий классификации.

Выход: величины, характеризующие степень принадлежности входного документа каждой категории (рубрики).

Объекты для поиска: множество текстовых документов (и/или множество рубрик).

Признаки объектов: численные характеристики вхождения в документ слов, словосочетаний и т. п.

Обязательные дополнительные данные: множество категорий, или рубрик, (а) и обучающее множество документов (б).

Методы:

Рис. 2. Методы категоризации текстовых документов

Литература:

Некрестьянов И. С. Тематико-ориентированные методы информационного поиска: Дис. ... канд. физ.-мат. наук: 05.13.11. – СПб. – 2000 [HTML]
Пескова О. В. Методы автоматической классификации текстовых электронных документов [категоризация текстов] / О. В. Пескова // Научно-техническая информация. Сер. 2. – 2006. – №3. – С. 13-20. [PDF]
Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. - 2002. - Vol. 34, No. 1. [PDF]
Yang Y., Liu X. A re-examination of text categorization methods, School of Computer Science Carnegie Mellon University Pittsburgh, PA 15213-3702, USA, 1999 – p. 8.
Dumais S.T. Inductive learning algorithms and representations for text categorization / S.T. Dumais, J. Platt, D. Heckerman, M. Sahami // Proceedings of CIKM-98: 7th ACM International Conference on Information and Knowledge Management. – Kansas City, 1998. – P. 148-155.
Lewis D. Naïve (Bayes) at Forty: The Independence Assumption in Information Retrieval. – 1998.
Lewis D.D. Training algorithms for linear text classifiers / D.D. Lewis, R. E. Schapire, J.P. Callan, R. Papka // Proceedings of SIGIR-96, 19th ACM International Conference on Research and Development in Information Retrieval. – Zurich,1996. – P. 298-306.
Joachims T. Text categorization with support vector machines: learning with many relevant features. In Proceedings of ECML-98, 10th European Conference on Machine Learning. - 1998. - P. 137–142.
Lewis D.D., Schapire R. E., Callan J.P., Papka R. Training algorithms for linear text classifiers // In Proceedings of SIGIR-96, 19th ACM International Conference on Research and Development in Information Retrieval. - 1996. - P. 298–306.
Apte C., Weiss S.M. Data Mining with Decision Trees and Decision Rules. - 1997.
Wiener E. D., Pedersen J. O., Weigend A. S. A neural network approach to topic spotting // Proceedings of SDAIR-95, 4th Annual Symposium on Document Analysis and Information Retrieval. – 1995. – P. 317–332.

Schapire R. E., Singer Y., Singhal A. Boosting and Rocchio applied to text filtering. In Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval. – 1998. – P. 215–223.
Nigam K., Lafferty J., McCallum A. Using Maximum Entropy for Text Classification. - 1999.
Aizawa A. Linguistic Techniques to Improve the Performance of Automatic Text Categorization [Electronic resource]. – 2001. [PDF]
Dagan I. Mistakedriven learning in text categorization / I. Dagan, Y. Karov, D. Roth // Proceedings of EMNLP-97, 2nd Conference on Empirical Methods in Natural Language Processing. – Providence , 1997. – P. 55–63.
Schutze H. A comparison of classifiers and document representations for the routing problem / H. Schutze, D. A. Hull, J. O. Pedersen // 18th ACM International Conference on Research and Development in Information Retrieval: Proceedings of SIGIR-95. – Seattle, 1995. – P. 229–237.
Siolas G., d’Alché Buc F. Support vector machines based on semantic kernel for text categorization // International Joint Conference on Neural Networks: Proceedings of IEEE. – Istanbul, 2000. – Vol.5. – P. 205-209.
Dempster A. P. Maximum likelihood from incomplete data via the EM algorithm / A. P. Dempster, N. M. Laird, D. B. Rubin // Journal of the Royal Statistical Society. Series B (Methodological). – 1977. – Vol. 39, No. 1. – P. 1-38.
Ker S. J., Chen J.-N. A Text Categorization Based on Summarization Technique // Proceedings of the ACL-2000 workshop on Recent advances in natural language processing and information retrieval: the 38th Annual Meeting of the Association for Computational Linguistics. – Hong Kong , 2000. – Vol. 11. – P.79-83.
Liu J., Chua T.-S. Building Semantic Perceptron Net for Topic Spotting // Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics. – Toulouse, 2001. – P. 434-441.
Moyotl-Hernández E., Jiménez-Salazar H. Some Tests in Text Categorization using Term Selection by DTP // Proceedings of the Fifth Mexican International Conference on Computer Science ENC'04. – Colima, 2004. – P. 161-167.

Text Clusterization

Классификация текстов без учителя

Вход: множество текстовых документов.

Выход: разбиение входного множества на группы (кластеры), содержащие сходных по содержанию документы.

Объекты для поиска: см. Вход.

Признаки объектов: численные характеристики вхождения в документ слов, словосочетаний и т. п.

Обязательные дополнительные данные: нет.

Методы:

Рис. 3. Методы кластеризации текстовых документов

Литература:

Кириченко К. М. Обзор методов кластеризации текстовой информации / К. М. Кириченко, М. Б. Герасимов. – 2001. [HTML]
Киселев М. В. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики / М. В. Киселев, В. С. Пивоваров, М. М. Шмулевич. [PDF]
Пескова О. В. Методы автоматической классификации электронных текстовых документов без обучения [кластеризация текстов] // Научно-техническая информация. Сер. 2. – 2006. – № 12. – С. 21-32. [PDF]
Jain A. K. Data Clustering: A Review / A. K. Jain, M. N. Murty, P. J. Flynn // ACM Computing Surveys. – 1999. – Vol. 31, No. 3. – P. 264-323. [PDF]
Zamir O. E. Clustering Web Documents: A Phrase-Based Method for Grouping Search Engine Results. – 1999. [PDF]
MacQueen J. B. Some Methods for classification and Analysis of Multivariate Observations // Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability. – Berkeley, 1967. – Vol. 1. – P. 281-297.
Kohonen T. Self organization of a massive document collection / T. Kohonen, S. Kaski, K. Lagus, J. Salojärvi, J. Honkela, V. Paatero, A. Saarela // IEEE Transactions on neural networks. – 2000. – Vol. 11, No. 3. – P. 574 – 585.
Ester M. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise / M. Ester, H.-P .Kriegel, J. Sander, X. Xu // Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96). – Portland, 1996. – P. 226-231.
Zheng Xiao-Shen Algorithm of documents clustering based on minimum spanning tree / Zheng Xiao-Shen, He Pi-Lian, Tian Mei, Yuan Fu-Yong // International Conference on Machine Learning and Cybernetics. – Xi-an, 2003. – Vol. 1. – P. 199-203.
Maulik U., Bandyopadhyay S. Performance Evaluation of Some Clustering Algorithms and Validity Indices // IEEE Transactions On Pattern Analysis And Machine Intelligence. – 2002. – Vol. 24, No. 12. – P. 1650 - 1654.
Mendes M.E.S., Sacks L. Dynamic Knowledge Representation for e-Learning Applications // Proc. of the 2001 BISC International Workshop on Fuzzy Logic and the Internet, FLINT'2001. – Berkeley, 2001. – P. 176-181.
Kanade P.M., Hall L. O. Fuzzy Ants as a Clustering Concept // 22nd international conference of the North American fuzzy information processing society NAFIPS. – Chicago, 2003. – P. 227-232.
Kaski S. Data exploration using self-organizing maps // Acta Polytechnica Scandinavica, Mathematics, Computing and Management in Engineering Series. – 1997. – No.82. – P. 57.
Dittenbach M. Uncovering hierarchical structure in data using the growing hierarchical self-organizing map / M. Dittenbach, A. Rauber, D. Merkl // Neurocomputing. – 2002. – Vol. 48. – P. 199-216.

Massey L. Evaluating quality of text clustering with ART1 // Proceedings of the International Joint Conference on Neural Networks. – Portland, 2003. – Vol. 2. – P. 1402-1407.
Nurminen M. ExtMiner: combining multiple ranking and clustering algorithms for structured document retrieval / M. Nurminen, A. Honkaranta, T. Karkkainen // Proceedings of Database and Expert Systems Applications, 2005. Sixteenth International Workshop on. – Copenhagen, 2005. – P. 1036-1040.
Ontrup J., Ritter H. Large-scale data exploration with the hierarchically growing hyperbolic SOM // Neural Networks. – 2006. – Vol. 19. –P. 751–761.
Pakhira M. K., Bandyopadhyay S., Maulik U. A study of some fuzzy cluster validity indices, genetic clustering and application to pixel classification / M. K. Pakhira, S. Bandyopadhyay, U. Maulik // Fuzzy Sets and Systems. – 2005. Vol. 155. – P. 191–214.
Freeman R. T., Yin H. Adaptive topological tree structure for document organisation and visualisation // Neural Networks. Elsevier Science Ltd. – Vol. 17. – 1255–1271. – 2004.
Khan M. S., Khor S. W. Web document clustering using a hybrid neural network // Applied Soft Computing. – 2004. – Vol. 4. – P. 423-432.
Kuo-Lung W., Miin-Shen Y. A cluster validity index for fuzzy clustering // Pattern Recognition Letters. – 2005. – Vol. 26. – P. 1275–1291.
Kural Y. Deciphering clusters representations / Y. Kural, S. Robertson, S. Jones // Information Processing and Management. – 2001. – Vol. 37. – P. 593-601.
Lam B. S. Y., Yan H. A new cluster validity index for data with merged clusters and different densities // Systems, Man and Cybernetics: IEEE International Conference. – 2005. – Vol. 1. – P. 798-803.
Lampos C. Archiving the Greek Web / C. Lampos, M. Eirinaki, D. Jevtuchova, M. Vazirgianni // Proccedings of 4th International Web Archiving Workshop (IWAW04). – Bath, UK, 2004. – P.
Stein B. On Cluster Validity and the Information Need of Users / B. Stein, S. M. zu Eissen, F. Wißbrock // 3rd IASTED Int. Conference on Artificial Intelligence and Applications: Proceedings of AIA 03. – Benalmadena, 2003. – P. 216-221.
Torra V. Exploration of textual document archives using a fuzzy hierarchical clustering algorithm in the GAMBAL system / V. Torra, S. Miyamoto, S. Lanau // Information Processing and Management. – 2005. – Vol. 41. – P.587-598.
Tsekouras G. E. On the use of the weighted fuzzy c-means in fuzzy modeling // Advances in Engineering Software. – 2005. – Vol. 36. – P. 287–300.

Эксперименты

Семинары по тестированию поисковых систем на больших коллекциях документов

Российский семинар по оценке методов информационного поиска (РОМИП)
Aмериканский семинар Text Retrieval Conference (TREC)
Европейский семинар Cross-Language Evaluation Forum (CLEF)
Японский семинар NII Test Collection for IR Systems (NTCIR)

Общедоступные тестовые коллекци

Коллекции текстовых документов и изображений: коллекции РОМИП
Коллекции текстовых документов: Medline, OHSUMED, Reuters-21578 и др., блоги, коллекции для машинного перевода и др.
Коллекции изображений: CVonline: Databases

Поисковые системы с открытым кодом

Middleton Ch., Baeza-Yates R. A Comparison of Open Source Search Engines [PDF]
Поисковый движок Apache Lucene

		Задачи информационного поиска (Information Retrieval Tasks)
		Классификация	Поиск по запросу	Извлечение фактов	Автоматическое реферирование	Ответы на вопросы
Объекты поиска	Плоские тексты	Text Categorization Text Clusterization	Query Search	Fact Extraction	Automatic Text Summarization	Question Answering
	Структурированные тексты
	Изображения		CBIR DBIR
	Аудио-ресурсы
	Видео-ресурсы
	Веб-сайты	Web-site classification	Web-site search

С чего начать студенту, заинтересовавшемуся вопросами информационного поиска

Введение

Постановка задачи информационного поиска

Литература

Выборка изданий о проблемах и методах информационного поиска

Основная литература

Периодические издания

Формирование образов документов

Индексация документов

IR Evaluation

Оценка качества поисковой системы

Структуры данных для поисковых систем

Задачи

Основные классы задач информационного поиска

Query Search

Поиск по запросу

Text Categorization

Классификация текстов с учителем

Text Clusterization

Классификация текстов без учителя

Content Based Image Retrieval, CBIR

Поиск изображений по содержанию

Description Based Image Retrieval, DBIR

Поиск изображений по текстовым аннотациям

Эксперименты

Семинары по тестированию поисковых систем на больших коллекциях документов

Общедоступные тестовые коллекци

Поисковые системы с открытым кодом