Информационный поиск (Information Retrieval) - это процесс поиска в большой коллекции некоторого неструктурированного материала (документа), удовлетворяющего информационные потребности.
Маннинг К. Д., Рагхаван П., Шютце Х.
Введение в информационный поиск.
Поисковая система в общем виде представлена на рис. 1. В зависимости от типа задачи пользователь формирует различные запросы и обращается к различным поисковым механизмам. Однако общим для всех задач является то, что:
Под формальным описанием исходных объектов поиска, или образами объектов, будем понимать представление объекта (документа, запроса) в виде списка его признаков, например, слов или словосочетаний, снабжённого информацией о значимости (весе) каждого признака для содержания (тематики) конкретного документа. Процесс предварительной обработки документов, нацеленный на формирование образов документов, часто называют индексацией коллекции документов.
Представим, что имеется множество документов D размерностью ND. После выделения признаков из каждого документа получаем множество признаков P размерностью NP. Множество признаков содержит все признаки, встречающиеся хотя бы в одном из документов. Тогда получаем разреженную матрицу «документ-признак»:
строками которой являются образы документов di, для каждого из которых известен вес каждого признака (вес равен нулю в случае отсутствия некоторого признака в некотором документе). Далее поисковая задача сводится к применению некоторого математического метода для анализа матрицы «документ-признак» и принятия решения о релевантность того или иного образа документа, а следовательно и самого документа. Это одна из поисковых моделей – векторная модель. Существуют и другие модели (подробнее - в основной литературе о методах и проблемах информационного поиска).
Важной проблемой является оценка результатов работы поисковой машины (IR Evaluation). В настоящее время известен ряд метрик, позволяющих получить количественную оценку качества поиска. Их можно разделить на две группы: внешние (а) и внутренние (б) метрики.
Внешние метрики – требуется сравнить результат поиска, выполненный автоматически, с результатом выполненным экспертами, т. е. необходимо наличие «эталонного» поискового результата, составленного человеком. Ярким примером таких метрик являются всем известные полнота (recall) и точность (precision). Интерпретация этих метрик меняется в зависимости от типа решаемой задачи, однако, общий смысл остаётся неизменным. Его проще всего раскрыть на примере задачи классического поиска. Так, полнота – это количество релевантных (соответствующих запросу) документов в ответе поисковой машины по отношению к общему количеству релевантных документов в коллекции документов, а точность – это количество релевантных документов в ответе поисковой системы по отношению к общему количеству документов в ответе системы.
Внутренние метрики – анализируют результат работы поисковой системы без привлечения внешней информации, т. е. не требуется «эталонный» результат поиска. Например, анализ средних межкластерного и внутрикластерного расстояний в задаче кластеризации документов.
Таким образом получаем, что основными направлениями исследований являются следующие:
van Rijsbergen C. J. Information retrieval. – 1979. [HTML, там же PDF]
Manning C. D., Schutze H. Introduction to Information Retrieval. – 2008. [HTML, там же PDF]
Baeza-Yates R., Ribeiro-Neto B. Modern Information Retrieval [HTML]
Grossman D. A., Frieder O. Information Retrieval: Algorithms and Heuristics (2nd Edition). – Springer, 2004. – 332 p.
Видеозаписи и слайды лекций, прочитанных во время 2-ой Российской летней школе по информационному поиску, 2008. [Видео]
Manning C. D., Schutze H. Foundations of statistical natural language processing. – Cambridge: MIT Press, 1999. – 620 p.
Белоногов Г. Г. Компьютерная лингвистика и перспективные информационные технологии. – М.: Русский мир, 2004. – 248 с. [HTML]
Солтон Дж. Динамические библиотечно-информационные системы. – Пер. с англ. – М.: Мир, 1979. – 558 с.
Lewandowski D. Web Information Retrieval: Technologien zur Informationssuche im Internet. Frankfurt am Main: DGI, 2005. [PDF]
Материалы Ассоциации по вычислительной технике (Association for Computing Machinery)*
Журналы издательства научной, технической и медицинской литературы Elsevier*, например, Information Processing & Management
Электронная библиотека в сфере информатики и вычислительной техники CiteSeer
Статьи и др. публикации из научной электронной библиотеки eLIBRARY.RU*
Труды конференции "Электронные библиотеки: Перспективные Методы и Технологии, Электронные коллекции", RCDL
Труды международной конференции по компьютерной лингвистике "Диалог"
Губин М. В. Модели и методы представления текстового документа в системах информационного поиска / М. В. Губин // Научно-техническая информация. Сер. 1. – 2004. – №12. – С. 12-24.
Браславский П. И. Автоматические операции с запросами к машинам поиска интернета на основе тезауруса: подходы и оценки. [HTML]
Гусев В.Д. Алгоритм выявления устойчивых словосочетаний с учетом их вариативности (морфологической и комбинаторной) / В.Д. Гусев, Н.В. Саломатина // Труды международной конференции Диалог’2004. – М.: Наука, 2004. – С. 530-535.
Добрынин В. Ю. Оценка тематического подобия текстовых документов / В. Ю. Добрынин, В.В. Клюев, И. С. Некрестьянов // Электронные библиотеки: перспективные методы и технологии: Труды второй всероссийской научной конференции. – Санкт-Петербург, 2000. – С. 54-62.
Прикладная статистика: Исследование зависимостей: Справ. изд. / С. А. Айвазян, И. С. Енюков, Л. Д. Мешалкин; Под. ред. С. А. Айвазяна. – М.: Финансы и статистика, 1985. – 487с.: ил. [HTML]
Прикладная статистика: Классификация и снижение размерности: Справ. изд. / С. А. Айвазян, В. М. Бухштабер, И. С. Енюков, Л. Д. Мешалкин; Под. ред. С. А. Айвазяна. – М.: Финансы и статистика, 1989. – 607с.: ил. [HTML]
Salton G., Buckley C. Term-weighting approaches in automatic text retrieval: Technical Report . – New York: Cornell University, 1987. – 11 p.
Salton G., Buckley C. Weighting approaches in automatic text retrieval // Information Processing and Management. – 1988. – Vol. 24(5). – P. 513-523.
Luhn H.P. A statistical approach to mechanized encoding and search of library information // IBM Journal of Research and Development. – 1957. – №1. – P. 309-317.
Jones K. S. A Statistical Interpretation of Term Specificity and Its Application in Retrieval // Journal of Documentation. – 1972. – № 2(34). – P. 87-93.
Mladenić D., Grobelnik M. Word sequences as features in text learning // Proceedings of the 17th Electrotechnical and Computer Science Conference. – Ljubljana, 1998. – P. 145-148.
Yang Y., Pedersen J. O. A Comparative Study on Feature Selection in Text Categorization // The Fourteenth International Conference on Machine Learning: Proceedings of ICML'97. – San Francisco, 1997. – P. 412-420.
Guo D., Berry M. W. Knowledge-Enhanced Latent Semantic Indexing // Information Retrieval. – 2003.– Vol. 6. – P. 225-250.
Kelledy F., Smeaton A.F. Automatic Phrase Recognition and Extraction from Text // Proceedings of the 19th Annual BCS-IRSG Colloquium on IR Research. – Aberdeen, 1997. – P. 493-496.
Tan Ch.-M. The Use of Bigrams to Enhance Text Categorization / Ch.-M. Tan, Y.-F. Wang, Ch.-D. Lee // Information Processing and Management. – 2002. – Vol. 38 (4). – P. 529-546.
Berger A. L. A Maximum Entropy Approach to Natural Language Processing / A. L. Berger, S. A.Della Pietra, V. J. Della Pietra // Computational Linguistics. – 1996. – Vol. 22, Num. 1 – P. 39-71.
Landauer T. K. Introduction to Latent Semantic Analysis / T. K. Landauer, P. W. Foltz, D. Laham // Discourse Processes. – 1998. – Vol. 25. – P. 259-284.
Wall M. E. Singular value decomposition and principal component analysis / M. E. Wall, A.Rechtsteiner, L. M. Rocha // A Practical Approach to Microarray Data Analysis. – Kluwer, 2003. – P. 91-109.
Cristianini N. Latent Semantic Kernels / N. Cristianini, J. Shawe-Taylor, H. Lodhi // Journal of Intelligent Information Systems. – 2002. – Vol. 18(2-3). – P. 127-152.
Dias G. Combining linguistics with statistics for multiword term extraction: A fruitful association? / G. Dias, S. Guillore, J.-C Bassano., J. G. Pereira Lopes// Proc. Of Recherche d’Informations Assistee par Ordinateur 2000 (RIAO’2000) [Electronic resource]. – 2000. – Electronic text and graphic data. – Аccess mode: //www.di.ubi.pt/~ddg/publications/riao2000.pdf.
Ko Y. Improving text categorization using the importance of sentences / Y. Ko, J. Park, J. Seo // Information Processing and Management. – 2004. – Vol. 40. – P. 65-79.
Готовая семантическая сеть для английского языка WordNet.
Агеев М.С. Официальные метрики РОМИП’2004 / М.С. Агеев, И.Е Кураленок // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) – Пущино, 2004.
Гусарова Л. Проверка обоснованности кластерного решения / Л. Гусарова, И. Яцкив // Reliability and statistics in transportation and communication (RelStat’03). – Рига, 2004. – Т. 5, №2. – С.49-56.
Halkidi M. On Clustering Validation Techniques / M. Halkidi, V. Batistakis, M. Vazirgiannis // Journal of Intelligent Information Systems, Kluwer Academic Publishers. Manufactured in The Netherlands. – 2001. – 17:2/3. – P. 107-145.
Bezdek J. C., Pal N. R. Some New Indexes of Cluster Validity // IEEE Transactions On Systems, Man And Cybernetics. – 1998. – Vol. 28, No. 3. – P. 301-315.
Kuo-Lung W., Miin-Shen Y. A cluster validity index for fuzzy clustering // Pattern Recognition Letters. – 2005. – Vol. 26. – P. 1275–1291.
Lam B. S. Y., Yan H. A new cluster validity index for data with merged clusters and different densities // Systems, Man and Cybernetics: IEEE International Conference. – 2005. – Vol. 1. – P. 798-803.
Губин М. В. Модели и методы представления текстового документа в системах информационного поиска: Дис. ... канд. физ.-мат. наук: 05.13.11. – СПб. – 2005. [PDF]
Кнут Д. Э. Искусство программирования. Том 3. Сортировка и поиск. - М.: Вильямс. - 2008.
Justin Zobel, Alistair Moffat Inverted files for text search engines. - ACM Computing Surveys, Vol. 38, Issue 2. - 2006. [аннотация]
Witten I. H., Moffat A., Bell T. C. Managing Gigabytes: Compressing and Indexing Documents and Images, 2nd edition. - 1999. [HTML]
Eckard E., Chappelier J.-C. Free Software for research in Information Retrieval and Textual Clustering [PDF]
Altingovde I. S., Demir E., CAN F., Ulusoy O. Incremental Cluster-Based Retrieval Using Compressed Cluster-Skipping Inverted Files. - ACM Transactions on Information Systems. - Vol. 26, No. 3. - 2008.
Задачи информационного поиска (Information Retrieval Tasks) | ||||||
Классификация | Поиск по запросу | Извлечение фактов | Автоматическое реферирование | Ответы на вопросы | ||
Объекты поиска | Плоские тексты | Query Search | Fact Extraction | Automatic Text Summarization | Question Answering | |
Структурированные тексты | ||||||
Изображения | ||||||
Аудио-ресурсы | ||||||
Видео-ресурсы | ||||||
Веб-сайты | Web-site classification | Web-site search |
Примечание. Пустые ячейки данной таблицы совсем не означают, что в соответствующей области отсутствуют работы. Они пустые либо потому, что я ещё не дописала эту страницу, либо потому, что данная область не входила в список моих активных интересов.
Вход: запрос на естественном языке, например, список ключевых слов.
Выход: ранжированный список найденных документов.
Объекты для поиска: множество текстовых документов.
Признаки объектов: численные характеристики вхождения в документ слов, словосочетаний и т. п., а также различные эвристические данные, примеры которых см. в необязательные дополнительные данные.
Обязательные дополнительные данные: нет.
Необязательные дополнительные данные (по выбору авторов системы): дополнительные признаки объектов, например, индекс цитирования и т. п. для сортировки выдачи; сбор и анализ обратной связи для корректировки запросов и др.
Литература:
Сегалович И. Как работают поисковые системы — . «Мир Интернет», №10. - 2002. [PDF или HTML]
см. основную литературу;
Вход: текстовый документ, подлежащий классификации.
Выход: величины, характеризующие степень принадлежности входного документа каждой категории (рубрики).
Объекты для поиска: множество текстовых документов (и/или множество рубрик).
Признаки объектов: численные характеристики вхождения в документ слов, словосочетаний и т. п.
Обязательные дополнительные данные: множество категорий, или рубрик, (а) и обучающее множество документов (б).
Методы:
Рис. 2. Методы категоризации текстовых документов
Литература:
Некрестьянов И. С. Тематико-ориентированные методы информационного поиска: Дис. ... канд. физ.-мат. наук: 05.13.11. – СПб. – 2000 [HTML]
Пескова О. В. Методы автоматической классификации текстовых электронных документов [категоризация текстов] / О. В. Пескова // Научно-техническая информация. Сер. 2. – 2006. – №3. – С. 13-20. [PDF]
Sebastiani F. Machine Learning in Automated Text Categorization // ACM Computing Surveys. - 2002. - Vol. 34, No. 1. [PDF]
Yang Y., Liu X. A re-examination of text categorization methods, School of Computer Science Carnegie Mellon University Pittsburgh, PA 15213-3702, USA, 1999 – p. 8.
Dumais S.T. Inductive learning algorithms and representations for text categorization / S.T. Dumais, J. Platt, D. Heckerman, M. Sahami // Proceedings of CIKM-98: 7th ACM International Conference on Information and Knowledge Management. – Kansas City, 1998. – P. 148-155.
Lewis D. Naïve (Bayes) at Forty: The Independence Assumption in Information Retrieval. – 1998.
Lewis D.D. Training algorithms for linear text classifiers / D.D. Lewis, R. E. Schapire, J.P. Callan, R. Papka // Proceedings of SIGIR-96, 19th ACM International Conference on Research and Development in Information Retrieval. – Zurich,1996. – P. 298-306.
Joachims T. Text categorization with support vector machines: learning with many relevant features. In Proceedings of ECML-98, 10th European Conference on Machine Learning. - 1998. - P. 137–142.
Lewis D.D., Schapire R. E., Callan J.P., Papka R. Training algorithms for linear text classifiers // In Proceedings of SIGIR-96, 19th ACM International Conference on Research and Development in Information Retrieval. - 1996. - P. 298–306.
Apte C., Weiss S.M. Data Mining with Decision Trees and Decision Rules. - 1997.
Wiener E. D., Pedersen J. O., Weigend A. S. A neural network approach to topic spotting // Proceedings of SDAIR-95, 4th Annual Symposium on Document Analysis and Information Retrieval. – 1995. – P. 317–332.
Schapire R. E., Singer Y., Singhal A. Boosting and Rocchio applied to text filtering. In Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval. – 1998. – P. 215–223.
Nigam K., Lafferty J., McCallum A. Using Maximum Entropy for Text Classification. - 1999.
Aizawa A. Linguistic Techniques to Improve the Performance of Automatic Text Categorization [Electronic resource]. – 2001. [PDF]
Dagan I. Mistakedriven learning in text categorization / I. Dagan, Y. Karov, D. Roth // Proceedings of EMNLP-97, 2nd Conference on Empirical Methods in Natural Language Processing. – Providence , 1997. – P. 55–63.
Schutze H. A comparison of classifiers and document representations for the routing problem / H. Schutze, D. A. Hull, J. O. Pedersen // 18th ACM International Conference on Research and Development in Information Retrieval: Proceedings of SIGIR-95. – Seattle, 1995. – P. 229–237.
Siolas G., d’Alché Buc F. Support vector machines based on semantic kernel for text categorization // International Joint Conference on Neural Networks: Proceedings of IEEE. – Istanbul, 2000. – Vol.5. – P. 205-209.
Dempster A. P. Maximum likelihood from incomplete data via the EM algorithm / A. P. Dempster, N. M. Laird, D. B. Rubin // Journal of the Royal Statistical Society. Series B (Methodological). – 1977. – Vol. 39, No. 1. – P. 1-38.
Ker S. J., Chen J.-N. A Text Categorization Based on Summarization Technique // Proceedings of the ACL-2000 workshop on Recent advances in natural language processing and information retrieval: the 38th Annual Meeting of the Association for Computational Linguistics. – Hong Kong , 2000. – Vol. 11. – P.79-83.
Liu J., Chua T.-S. Building Semantic Perceptron Net for Topic Spotting // Proceedings of the 39th Annual Meeting of the Association for Computational Linguistics. – Toulouse, 2001. – P. 434-441.
Moyotl-Hernández E., Jiménez-Salazar H. Some Tests in Text Categorization using Term Selection by DTP // Proceedings of the Fifth Mexican International Conference on Computer Science ENC'04. – Colima, 2004. – P. 161-167.
Вход: множество текстовых документов.
Выход: разбиение входного множества на группы (кластеры), содержащие сходных по содержанию документы.
Объекты для поиска: см. Вход.
Признаки объектов: численные характеристики вхождения в документ слов, словосочетаний и т. п.
Обязательные дополнительные данные: нет.
Методы:
Рис. 3. Методы кластеризации текстовых документов
Литература:
Кириченко К. М. Обзор методов кластеризации текстовой информации / К. М. Кириченко, М. Б. Герасимов. – 2001. [HTML]
Киселев М. В. Метод кластеризации текстов, учитывающий совместную встречаемость ключевых терминов, и его применение к анализу тематической структуры новостного потока, а также ее динамики / М. В. Киселев, В. С. Пивоваров, М. М. Шмулевич. [PDF]
Пескова О. В. Методы автоматической классификации электронных текстовых документов без обучения [кластеризация текстов] // Научно-техническая информация. Сер. 2. – 2006. – № 12. – С. 21-32. [PDF]
Jain A. K. Data Clustering: A Review / A. K. Jain, M. N. Murty, P. J. Flynn // ACM Computing Surveys. – 1999. – Vol. 31, No. 3. – P. 264-323. [PDF]
Zamir O. E. Clustering Web Documents: A Phrase-Based Method for Grouping Search Engine Results. – 1999. [PDF]
MacQueen J. B. Some Methods for classification and Analysis of Multivariate Observations // Proceedings of 5-th Berkeley Symposium on Mathematical Statistics and Probability. – Berkeley, 1967. – Vol. 1. – P. 281-297.
Kohonen T. Self organization of a massive document collection / T. Kohonen, S. Kaski, K. Lagus, J. Salojärvi, J. Honkela, V. Paatero, A. Saarela // IEEE Transactions on neural networks. – 2000. – Vol. 11, No. 3. – P. 574 – 585.
Ester M. A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise / M. Ester, H.-P .Kriegel, J. Sander, X. Xu // Proceedings of 2nd International Conference on Knowledge Discovery and Data Mining (KDD-96). – Portland, 1996. – P. 226-231.
Zheng Xiao-Shen Algorithm of documents clustering based on minimum spanning tree / Zheng Xiao-Shen, He Pi-Lian, Tian Mei, Yuan Fu-Yong // International Conference on Machine Learning and Cybernetics. – Xi-an, 2003. – Vol. 1. – P. 199-203.
Maulik U., Bandyopadhyay S. Performance Evaluation of Some Clustering Algorithms and Validity Indices // IEEE Transactions On Pattern Analysis And Machine Intelligence. – 2002. – Vol. 24, No. 12. – P. 1650 - 1654.
Mendes M.E.S., Sacks L. Dynamic Knowledge Representation for e-Learning Applications // Proc. of the 2001 BISC International Workshop on Fuzzy Logic and the Internet, FLINT'2001. – Berkeley, 2001. – P. 176-181.
Kanade P.M., Hall L. O. Fuzzy Ants as a Clustering Concept // 22nd international conference of the North American fuzzy information processing society NAFIPS. – Chicago, 2003. – P. 227-232.
Kaski S. Data exploration using self-organizing maps // Acta Polytechnica Scandinavica, Mathematics, Computing and Management in Engineering Series. – 1997. – No.82. – P. 57.
Dittenbach M. Uncovering hierarchical structure in data using the growing hierarchical self-organizing map / M. Dittenbach, A. Rauber, D. Merkl // Neurocomputing. – 2002. – Vol. 48. – P. 199-216.
Massey L. Evaluating quality of text clustering with ART1 // Proceedings of the International Joint Conference on Neural Networks. – Portland, 2003. – Vol. 2. – P. 1402-1407.
Nurminen M. ExtMiner: combining multiple ranking and clustering algorithms for structured document retrieval / M. Nurminen, A. Honkaranta, T. Karkkainen // Proceedings of Database and Expert Systems Applications, 2005. Sixteenth International Workshop on. – Copenhagen, 2005. – P. 1036-1040.
Ontrup J., Ritter H. Large-scale data exploration with the hierarchically growing hyperbolic SOM // Neural Networks. – 2006. – Vol. 19. –P. 751–761.
Pakhira M. K., Bandyopadhyay S., Maulik U. A study of some fuzzy cluster validity indices, genetic clustering and application to pixel classification / M. K. Pakhira, S. Bandyopadhyay, U. Maulik // Fuzzy Sets and Systems. – 2005. Vol. 155. – P. 191–214.
Freeman R. T., Yin H. Adaptive topological tree structure for document organisation and visualisation // Neural Networks. Elsevier Science Ltd. – Vol. 17. – 1255–1271. – 2004.
Khan M. S., Khor S. W. Web document clustering using a hybrid neural network // Applied Soft Computing. – 2004. – Vol. 4. – P. 423-432.
Kuo-Lung W., Miin-Shen Y. A cluster validity index for fuzzy clustering // Pattern Recognition Letters. – 2005. – Vol. 26. – P. 1275–1291.
Kural Y. Deciphering clusters representations / Y. Kural, S. Robertson, S. Jones // Information Processing and Management. – 2001. – Vol. 37. – P. 593-601.
Lam B. S. Y., Yan H. A new cluster validity index for data with merged clusters and different densities // Systems, Man and Cybernetics: IEEE International Conference. – 2005. – Vol. 1. – P. 798-803.
Lampos C. Archiving the Greek Web / C. Lampos, M. Eirinaki, D. Jevtuchova, M. Vazirgianni // Proccedings of 4th International Web Archiving Workshop (IWAW04). – Bath, UK, 2004. – P.
Stein B. On Cluster Validity and the Information Need of Users / B. Stein, S. M. zu Eissen, F. Wißbrock // 3rd IASTED Int. Conference on Artificial Intelligence and Applications: Proceedings of AIA 03. – Benalmadena, 2003. – P. 216-221.
Torra V. Exploration of textual document archives using a fuzzy hierarchical clustering algorithm in the GAMBAL system / V. Torra, S. Miyamoto, S. Lanau // Information Processing and Management. – 2005. – Vol. 41. – P.587-598.
Tsekouras G. E. On the use of the weighted fuzzy c-means in fuzzy modeling // Advances in Engineering Software. – 2005. – Vol. 36. – P. 287–300.
Вход: изображение-образец, загруженный пользователем.
Выход: ранжированный набор объектов поиска (изображений), представляющий собой ответ поисковой системы на заданный запрос.
Признаки объектов: численные характеристики пикселей, составляющих изображение.
Обязательные дополнительные данные: нет.
Литература:
Вход: запрос на естественном языке.
Выход: ранжированный набор объектов поиска (изображений), представляющий собой ответ поисковой системы на заданный запрос.
Признаки объектов: см. задачу поиска по запросу.
Обязательные дополнительные данные: аннотаций для каждого изображения коллекции, описывающие их содержание.
Задача поиска изображений по текстовым аннотациям сводится к классической задаче текстового поиска - поиску по запросу.
Российский семинар по оценке методов информационного поиска (РОМИП)
Aмериканский семинар Text Retrieval Conference (TREC)
Европейский семинар Cross-Language Evaluation Forum (CLEF)
Японский семинар NII Test Collection for IR Systems (NTCIR)
Коллекции текстовых документов и изображений: коллекции РОМИП
Коллекции текстовых документов: Medline, OHSUMED, Reuters-21578 и др., блоги, коллекции для машинного перевода и др.
Коллекции изображений: CVonline: Databases
Middleton Ch., Baeza-Yates R. A Comparison of Open Source Search Engines [PDF]
Поисковый движок Apache Lucene