Вы здесь

Значение слова "корпус текстов"

В лингвистике, кóрпус (во множественном числе допустимы две формы: кóрпусы и корпусá) — подобранная и обработанная по определённым правилам совокупность текстов, используемых в качестве базы для исследования языка. Они используются для статистического анализа и проверки статистических гипотез, подтверждения лингвистических правил в данном языке.

Корпус может содержать тексты одного языка (одноязычные корпусы) или нескольких языков (многоязычные корпусы). Многоязычные корпусы, которые были созданы специально для сопоставительного сравнения, называют параллельными корпусами.

Чтобы сделать корпусы более полезными для лингвистических исследований, они подвергаются разметке (аннотации). Примером этого может быть морфологическая разметка, которая производится с помощью специальных программ автоматического морфологического анализа.

К некоторым корпусам применяются дальнейшие структурные уровни анализа. В частности, некоторые небольшие корпусы могут быть полностью синтаксически размечены. Такие корпусы обычно называют глубоко аннотированными или синтаксическими, а сама синтаксическая структура при этом является деревом зависимостей. Сложность обеспечения целого корпуса разметкой подразумевает, что такие корпусы чаще всего меньше и содержат примерно от одного до трёх миллионов слов. Возможны и другие уровни лингвистического структурного анализа, включая аннотацию морфологии, семантики и прагматики.

Современные технологии позволяют создавать "веб-корпуса", т.е. корпуса, полученные путём обработки интернет источников:

— Владимѝр Бенко ARANEA - СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ

Корпус — основное понятие и база данных корпусной лингвистики. Анализ и обработка разных типов корпусов являются предметом большинства работ в области компьютерной лингвистики, распознавания речи и машинного перевода, в которых корпусы часто применяются при создании скрытых марковских моделей для маркирования частей речи и других задач. Корпусы и частотные словари могут быть полезны в обучении иностранным языкам.

Источник: Wipedia.org

  • Ну, а то, что для культурного освоения необходим доступ на русском языке ко всему корпусу текстов классиков, пусть даже «падших», будут оспаривать лишь особо идейные борцы определённой ориентации, не без успеха пытающиеся редуцировать крупнейшую катастрофу европейского модерна к проблеме «исторической вины» немцев.
  • Вклад заинтересованного читателя (он же неангажированный интерпретатор) в столь длительную дискуссию со столь обширным корпусом текстов, каковым является «шмиттиана», может состоять в обнаружении (прежде всего — для себя) некоторой базовой перспективы для интерпретации развития политических сообществ.
  • Вторая мыслимая стратегия, напротив, позволяет читателю несколько вольно обращаться с корпусом текстов традиции, превращая грандиозные памятники мысли прошлого в своего рода каменоломню для актуального интеллектуального строительства, часто без всякого пиетета (что вовсе не означает отсутствие респекта) перед титанами прошлого и их (само) уполномоченными представителями в настоящем.
  • Истории, рассказанные участниками исследования «разным пассажирам», в большинстве случаев не совпадали, что позволило собрать корпуса текстов «историй в поезде», представляющих город «для себя» (история для провинциала), в оппозиции «провинция — столица» (история для москвича), а также «фасадную», «гостевую» историю города (история для иностранца).
  • Подтверждается замечание, уже сделанное выше: по идее, филология должна была бы работать со всем массивом литературного наследия, но фактически выбирает из него ограниченный корпус текстов, который преподаётся в школах и университетах.