Вы здесь

Значение слова "извлечение информации"

Извлечение информации (англ. information extraction) — это задача автоматического извлечения (построения) структурированных данных из неструктурированных или слабоструктурированных машиночитаемых документов.



Извлечение информации является разновидностью информационного поиска, связанного с обработкой текста на естественном языке. Примером извлечения информации может быть поиск деловых визитов — формально это записывается так: НанеслиВизит(Компания-Кто, Компания-Кому, ДатаВизита), — из новостных лент, таких как: «Вчера, 1 апреля 2007 года, представители корпорации Пепелац Интернэшнл посетили офис компании Гравицап Продакшнз». Главная цель такого преобразования — возможность анализа изначально «хаотичной» информации с помощью стандартных методов обработки данных. Более узкой целью может служить, например, задача выявить логические закономерности в описанных в тексте событиях.



В современных информационных технологиях роль такой процедуры, как извлечение информации, всё больше возрастает — из-за стремительного увеличения количества неструктурированной (без метаданных) информации, в частности, в Интернете. Эта информация может быть сделана более структурированной посредством преобразования в реляционную форму или добавлением XML разметки. При мониторинге новостных лент с помощью интеллектуальных агентов как раз и потребуются методы извлечения информации и преобразования её в такую форму, с которой будет удобнее работать позже.



Типичная задача извлечения информации: просканировать набор документов, написанных на естественном языке, и наполнить базу данных выделенной полезной информацией. Современные подходы извлечения информации используют методы обработки естественного языка, направленные лишь на очень ограниченный набор тем (вопросов, проблем) — часто только на одну тему. Например, «Конференция по Пониманию сообщений» (en:Message Understanding Conference, MUC) — это конференция соревновательного характера и в прошлом она фокусировалась на таких вопросах:



MUC-1 (1987), MUC-2 (1989): Военно-морские операции.



MUC-3 (1991), MUC-4 (1992): Терроризм в латиноамериканских странах.



MUC-5 (1993): Венчурные операции в области микроэлектроники.



MUC-6 (1995): Новостные статьи об изменениях в управляющих процессах.



MUC-7 (1998): Отчёты о запусках спутников.



Тексты на естественном языке могут потребовать некоего предварительного преобразования на язык (например, RDF — Resource Description Framework), понятный для компьютера.



Типичные подзадачи извлечения информации:



Распознавание именованных элементов (сущностей), например: имён людей, названий организаций, географических названий, событий, временны́х и денежных обозначений и пр.



Разрешение анафоры и кореференций : поиск связей, относящихся к одному и тому же объекту. Типичный случай таких ссылок — местоименная анафора.



Выделение терминологии: нахождение для данного текста ключевых слов и словосочетаний (коллокаций).



Автореферирование: выделение из текста смысловой, эмотивной, оценочной и пр. информации. Бывает генеративным и декларативным.

Источник: Wipedia.org

  • При том, что толчок развитию той и другой дали процессы компьютеризации соответствующих институций (исторической науки, музея), что технологическая (техническая, программная) сторона в них имеет много общего, что обе дисциплины решают задачи извлечения информации часто из одних и тех же носителей (исторических источников/музейных предметов), с применением одних и тех же технологий, векторы их развития во многом не совпадают, а получаемые на выходе информационные продукты служат удовлетворению разных потребностей разных же категорий потребителей информации.
  • Главное предназначение музея — аккумуляция подлинных свидетельств прошлого и их репрезентация членам социума, а предназначение исторической науки — извлечение информации из этих свидетельств (обретающих в данной ситуации статус исторического источника) и приращение знания.
  • Для информационного обеспечения исторической науки первостепенное значение имеет коммуникация хранителя информации и историка-профессионала, осуществляемая с целью получения нового знания (в результате извлечения информации из музейных предметов — документов — изданий) и его репрезентации в формах, присущих каждому из рассматриваемых хранилищ информации.
  • Наряду с историками и музееведами, которые количественно преобладают, в числе его авторов — культурологи, искусствоведы, филологи, философы, экономисты, политологи, а также представители точных, естественных, технических, медицинских наук, что особенно ценно в контексте изучения истории науки и применения методов этих наук для извлечения информации из исторических источников.
  • Он же может к ней или её части по тем или иным причинам не обратиться (не знать её источников, опоздать с извлечением информации при ряде особенностей её сохранения и т.