Одним из основных источников языкового материала, необходимого для лингвистических и филологических исследований служит текст, письменный или устный. На основе анализа множества текстов можно сделать вывод об интересующем исследователя языковом явлении, например, о поведении грамматической конструкции, использования выразительных средств в языке и т. п. Развитие вычислительной техники способствовало тому, что большое количество текстов стало доступно в электронном виде. Для того, чтобы можно было работать с такими объемами текстов, извлекая из них нужную информацию, во всем мире стали создаваться лингвистические корпусы, т. е. коллекции текстов, специально отобранных, размеченных по различным лингвистическим параметрам и обеспеченных системой поиска. Увеличение объема материала исследования потребовало применения новых методов анализа лингвистических данных, включая их статистическую обработку.
Тексты лингвисты обрабатывают с помощью специальных программ автоматически. Раньше были 100-миллионные корпуса, а сейчас и миллиардные корпуса не редкость. И счет идет на много миллиардов — интернет это позволяет. Понятно, что вручную вы текст не разметите. Обработанные, или аннотированные тексты — это и есть корпус. И нужен он именно для того, чтобы искать примеры на то, что мы изучаем.
Обычный поисковик не сравнится с возможностями корпуса хотя бы потому, что все тексты в корпусе специально размечены по ряду признаков, которые задаем сам пользователь. Например, если Google позволяет через операторы или ключевые слова находить искомую информацию без учета стиля, жанра, эпохи и грамматических характеристик, то в корпусе эти параметры предусмотрены. Можно решать конкретные задачи. Например, узнать, с какого времени та или форма существительного утратила актуальность или определить, какие предлоги наиболее характерны для глаголов такого-то вида в сочетании с существительными в качестве дополнения.
Сейчас появились отдельно для нескольких языков и даже отраслей. По моим наблюдениям переводчики редко ими пользуются, а ведь по сути корпус заменяет носителя языка в тех случаях, когда нужно выяснить, что наиболее идиоматично в той или иной ситуации или конструкции, то есть получить наглядную картину происходящих изменений в языке, а не отмахиваться фразами типа "Так никто не говорит" или "А так лучше". Лучше всего подкреплять свои доводы именно образцами устной и письменной речи, взятыми из реальных диалогов, фильмов, музыкальных клипов, художественной и специальной литературы. Главное достоинство корпусов - это разметка. На первых порах может быть сложно сразу сориентироваться в устройстве корпуса, но на сайтах всегда представлены подробные инструкции, а на Ютубе можно посмотреть примеры пошаговой работы с корпусами, а также беседы преподавателей о пользе применения корпусов.
Вот, к примеру, как выглядит национальный корпус русского языка: https://ruscorpora.ru/new/
А вот скриншот из корпуса современного американского английского языка (COCA - Corpus of Contemporary American English): https://www.english-corpora.org/coca/
