WWW.KNIGI.KONFLIB.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 
<< HOME
Научная библиотека
CONTACTS


Pages:     || 2 | 3 | 4 | 5 |   ...   | 59 |

«АВТОМАТИЧЕСКАЯ ОБРАБОТКА ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ И КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА Рекомендовано УМО вузов по университетскому политехническому образованию в качестве ...»

-- [ Страница 1 ] --

Министерство образования и науки Российской Федерации

Московский государственный институт электроники и математики

АВТОМАТИЧЕСКАЯ ОБРАБОТКА

ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ И

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА

Рекомендовано УМО вузов

по университетскому политехническому образованию

в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению 231300 — «Прикладная математика»

Москва, 2011 УДК 681.4 ББК 32.813 Б 79 Рецензенты: д.т.н. В.А. Галактионов (зав. отделом Института прикладной математики им. М.В. Келдыша РАН), к.филол.н., доцент Е.Б. Козеренко (зав. лабораторией «Компьютерной лингвистики и когнитивных технологий обработки текстов» ИПИ РАН) Б 79 Автоматическая обработка текстов на естественном языке и компьютерная лингвистика : учеб. пособие / Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В. — М.: МИЭМ, 2011. — 272 с.

ISBN 978–5–94506–294– В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.

Предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.

УДК 681. ББК 32. © МИЭМ, © Е.И. Большакова, Э.С. Клышинский, Д.В. Ландэ, А.А. Носков, О.В. Пескова, Е.В. Ягунова Оглавление

Часть I. ОСНОВЫ ТЕОРЕТИЧЕСКОЙ, ВЫЧИСЛИТЕЛЬНОЙ И

ЭКСПЕРИМЕНТАЛЬНОЙ ЛИНГВИСТИКИ, или РАЗМЫШЛЕНИЯ О МЕСТЕ

ЛИНГВИСТА В КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ (Ягунова Е.В.)

Предисловие (несколько слов от себя)

Глава 1. Язык. Текст. Основы лингвистики и теории речевой коммуникации...... § 1.1. Язык. Введение

§ 1.2. Язык или языки. Текст или тексты. Основы речевой коммуникации § 1.3. Лингвистика и лингвистики. Принцип моделирования. Цели, методы, задачи

Глава 2. Слово — коллокация – синтаксические конструкции – текст. Единица анализа и контекст.

Инвентарные и конструктивные единицы. Понятие «текущего § 2.1.

словаря» § 2.2. Избыточность. Контекстная предсказуемость

§ 2.3. Единица анализа и контекст. Коллокации и конструкции................. § 2.4. Типы коллокаций и конструкций. Принцип шкалирования............... Глава 3. Семантическая и информационная структуры при анализе текстов и/или коллекций. Основные элементы этих структур

§ 3.1. Текст. Общие положения

§ 3.2. Анализ текста в парадигме когнитивных исследований

§ 3.3. Анализ текста в парадигмах автоматического понимания текста..... § 3.4. Коммуникативная и информационная (смысловая) структуры текста § 3.5. Избыточность. Компрессия текста. Свертки текста

Глава 4. Объект исследования современной лингвистики текста. Текст vs.

информационный поток

Объекты исследования современной лингвистики текста.

§ 4.1.

Информационный поток

§ 4.2. Коллокации и конструкции как составляющие текстов

§ 4.3. Свертки для описания разных информационных объектов: от текстов до информационных потоков

Список используемой литературы

Часть II. Компьютерная лингвистика: методы, ресурсы, приложения (Большакова Е.И.) Глава 1. Введение

Глава 2. Задачи компьютерной лингвистики

Глава 3. Особенности системы ЕЯ: уровни и связи

Глава 4. Моделирование в компьютерной лингвистике

Глава 5. Лингвистические ресурсы

Глава 6. Приложения компьютерной лингвистики

Глава 7. Заключение

Список использованной литературы

Часть III. Начальные этапы анализа текста (Клышинский Э.С.)

Глава 1. Этапы анализа текста

Глава 2. Морфологический анализ и синтез

§ 2.1. Словарный морфологический анализ и синтез

§ 2.2. Автоматизированное пополнение морфологического словаря........ § 2.3. Методы бессловарного морфологического анализа

§ 2.4. Коррекция орфографических ошибок

Глава 3. Постморфологический и предсинтаксический анализ

§ 3.1. Автоматизированное снятие омонимии

§ 3.2. Постморфологический анализ

§ 3.3. Синтаксическая сегментация

Часть IV. Инструментальные системы разработки приложений по автоматической обработке текстов на естественном языке (Носков А.А.)

Глава 1. Введение

Глава 2. Программные средства лингвистической обработки

Глава 3. Представление лингвистических данных

§ 3.1. Подходы к представлению данных

§ 3.2. Лингвистическая разметка

§ 3.3. Лингвистические аннотации

§ 3.4. Представления, основанные на абстракции

§ 3.5. Недоспецифицированные представления

Глава 4. Архитектура инструментальных ЕЯ-систем

§ 4.1. Компонентная организация

§ 4.2. Процессы обработки текста

Глава 5. Системы обработки ЕЯ-текстов

§ 5.1. Системы на базе разметки

§ 5.2. Системы на базе аннотаций

§ 5.3. Системы интеграции поверхностной и глубокой обработки........... § 5.4. Системы, развивающие отдельные аспекты обработки текста........ § 5.5. Прочие системы

Список литературы

Часть V. Алгоритмы классификации полнотекстовых документов (Пескова О.В.) Глава 1. Алгоритмы классификации с учителем

§ 1.1. Представление данных в задачах классификации текстов............... § 1.2. Отбор терминов для классификации

§ 1.3. Алгоритм "наивной" байесовской классификации

§ 1.4. Алгоритм Роккио

§ 1.5. Алгоритм k-ближайших соседей

§ 1.6. Алгоритм опорных векторов

§ 1.7. Алгоритм деревьев принятия решений

§ 1.8. Алгоритм наименьших квадратов

§ 1.9. Экспериментальная оценка результата классификации с учителем § 1.10. Выбор метода классификации с учителем

Глава 2. Алгоритмы классификации без учителя

§ 2.1. Иерархические алгоритмы

§ 2.2. Алгоритм k-средних

§ 2.3. Плотностный алгоритм DBSCAN

§ 2.4. Нечёткий алгоритм с-средних

§ 2.5. Инкрементный алгоритм C2ICM

§ 2.6. Нейросетевой алгоритм SOM

§ 2.7. Экспериментальная оценка результата классификации без учителя § 2.8. Выбор метода классификации без учителя

Список используемой литературы

Часть VI. Информационные потоки и сложные сети (Д.В. Ландэ)

Глава 1. Основы анализа информационного пространства и информационных потоков

§ 1.1. Понятие информационного пространства

§ 1.2. Информационный поток как объект исследования

§ 1.3. Тематические информационные потоки

§ 1.4. Моделирование информационных потоков

§ 1.5. Модель диффузии информации

Глава 2. Самоподобие в информационном пространстве

§ 2.1. Ранговые распределения в лингвистике

§ 2.2. Степенное распределение и самоподобие

§ 2.3. Основы фрактального анализа информационных потоков.............. Глава 3. Сложные информационные сети

§ 3.1. Основы концепции сложных сетей

§ 3.2. Параметры сложных сетей

§ 3.3. Сложные сети и задачи компьютерной лингвистики

§ 3.4. Моделирование сложных сетей

Список используемой литературы

ЧАСТЬ I. ОСНОВЫ ТЕОРЕТИЧЕСКОЙ, ВЫЧИСЛИТЕЛЬНОЙ И

ЭКСПЕРИМЕНТАЛЬНОЙ ЛИНГВИСТИКИ,

РАЗМЫШЛЕНИЯ О МЕСТЕ ЛИНГВИСТА В

КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ

В лингвистических главах представлена минимальная терминология и предложены цели, задачи, методы и термины компьютерной лингвистики. Главы ориентированы на экспериментально-теоретическую парадигму сочетающую, по возможности, методы вычислительных экспериментов и экспериментов с информантами. В текст вошли материалы докторского исследования и результаты разноплановых экспериментальных работ последних лет, большинство из них соавторские. Изложение ориентировано на специалистов, работающих с языковым и текстовым материалами, вне зависимости от исходного образования читателей.

Сверхзадачей является привлечение специалистов к лингвистическому и экспериментально-теоретическому осмыслению тех объектов и процедур, которые они моделируют. Хочется надеяться, что в результате уровень оценки работающих систем только повысится, а главное – повысится качественный уровень лингвистического знания.

Хочу поблагодарить моего научного консультанта В.Б.Касевича, которого постоянно цитирую в своем тексте, моего главного верного соавтора Лидию Пивоварову и многих моих дорогих друзей-коллег-соавторов последних лет, прежде всего, Дмитрия Ландэ, Александра Антонова, Эдуарда Клышинского.

Глава 1. Язык. Текст. Основы лингвистики и теории речевой Первая глава неизбежно вводная, она посвящена основным целям, задачам, гипотезам, методам и терминам. Работа с терминологией – особо тонкое место в междисциплинарной области, т.к. представители каждой из сторон имеют свою терминологию и свое представление об «общей терминологии», которая должна использоваться в этой области.

§ 1.1.

Первый из заявленных терминов – язык. В своем тексте я буду в максимальной степени опираться на идеи В.Б.Касевича, для начала приведу краткий реферат из цитат его произведений. Такого рода цитатник – своего рода доказательная база, построенная по принципу «доказательство, основанное на авторитетности мнения».

«Обобщая различные определения, можно сказать, что язык — это знаковая система, предназначенная для порождения, передачи и хранения информации /здесь и далее п/ж шрифт маркирует то, что выделено Е.Я./. Информация, передаваемая языковыми средствами, всегда воплощается в некотором тексте, поэтому передача информации — создание, или порождение текста, с одной стороны, и восприятие, «прием» текста — с другой. Система речевых действий и операций, выполняемых в процессах порождения и восприятия текста, — это речевая деятельность. Первым и естественным условием ее реализации является наличие языковой системы.

Говоря о том, что язык — знаковая система, имеют в виду, что основной элемент такой системы — знак. Знак служит средством отражения того или иного элемента действительности. Благодаря наличию в языке данного знака этот элемент не только получает представительство в системе знаний о мире, присущей носителю языка1, — возникает возможность передать эти знания другому. Знания становятся коммуницируемыми. Знак … обладает экспонентом, или означающим, т. е.

материальной оболочкой, и сигнификатом, или означаемым, т. е. мыслительным содержанием, значением. Иными словами, языковой коллектив, вычленяя данный элемент действительности и осмысляя его определенным образом, закрепляет за таким осмыслением ту или иную материальную форму, материальный способ выражения; в результате и возникает знак» [108: 660-661].

Продолжим: «язык представляет собой знаковую с и с т е м у. Это сложная функциональная система. В данной части определения языка («части» — потому что язык здесь не отграничен от других сложных функциональных систем) существенно все: и то, что язык — система, и то, что система функциональная и, наконец, сложная.

Система как таковая — это любое целостное образование, части (элементы) которого объединены отношениями, теряющими силу за пределами данного целого» [108: 661].

«Каждая система имеет, таким образом, относительно замкнутый характер.

Системы соотносятся друг с другом именно и только как целостные образования.



Pages:     || 2 | 3 | 4 | 5 |   ...   | 59 |
 


Похожие работы:

«Оксана Ашотовна Петросян Садовые деревья и кустарники Данная книга содержит информацию о садовых деревьях и ягодных кустарниках. Довольно большое место в ней отводится внедрению новых сортов, клоновых подвоев, выращиванию саженцев. Рассмотрены различные системы формирования скороплодных деревьев, способы регулирования роста и плодоношения деревьев, агротехнические мероприятия. Описаны современная технология закладки многолетних насаждений и ухода за ними, а также защита плодовых деревьев и...»

«АГРОГИ ДРОЛОГИ ЧЕСКИ Е ОСНОВЫ н а п ри м ере т т TE7 L IT л г г З ап адн ой С аб и р а, У р ала и С е в е р н о го К а з а х с т а н а у )гч /1 I 1Г Г 1 И Л Издание второе, переработанное и дополненное Л ЕН И Н ГРА Д ГИ Д РО М ЕТЕО И ЗД А Т 1984 У Д К,63.1.432+631.67 (470.55/57+571.1 +574.2) Р е ц е н з е н т ы : д -р ф и з.-м а т. н а у к, п р о ф. А. Р. К он стан ти н о в, Д-р геогр. н аук П. П. К узьм и н, Д-р техн. н аук, проф. С. И. Х ар ч ен ко О тветствен н ы й редактор : д -р...»

«МОТОЦИКЛЫ Н-750, М-61, М-62 Издательство Ф И З К У Л Ь Т У Р А и СПОРТ - Москва 1962 ? А7 3 А16 АННОТАЦИЯ В настоящей книге дано описание конструкции. т я ж е л ы х мотоциклов с колясками моделей М-Ы. М 62 и К-750, выпускаемых Ирбитским и Киевским мотозаводами, приведены правила их обкатки, эксплуатации и вождения в различных дорожных условиях, технического обслуживания, даны указания по устранению н е т п р а в н о с т е и. разборке и сборке узлов механизмов Отдельный раздел книги посвящен...»

«Цифровая фильтрация многомерных взаимозависимых нестационарных процессов Первая редакция - 2007 Вторая редакция - 2008 НПО Дельфин - Информатика Россия, Москва 2007 Alexander M. Gelfand Solomon I. Khmelnik Discrete filtration of Multivariate Correlated Nonstationary Processes (in Russian) Copyright © 2007 by A. Gelfand and S. Khmelnik Александр Маркович Гельфанд Соломон Ицкович Хмельник All right reserved. No portion of this book may be reproduced or transmitted in any form or by any means,...»

«ISBN 5-7591-0246-Х Н.Н. Александров. Романтизм. Большая линия. – М. Изд-во Академии Тринитаризма, 2012. – 370 с. Книга посвящена анализу романтизма в культурном цикле ХХ века и его аналогах в прошлом. Специфика формального анализа этого стиля состоит в выявлении Большой линии, по которой этот стиль сразу узнается. Вокруг этого основного признака сгруппированы и рассмотрены другие формальносодержательные аспекты стиля под названием романтизм. Многослойность анализа в итоге очерчивает...»

«БИБЛИОТЕКИ ЧЕЛЯБИНСКА Справочник Челябинск 2010 1 УДК 027(470.55)(03) ББК 78.34(2)я2 Б 59 Библиотеки Челябинска : справочник / Челяб. гос. акад. культуры и искусств ; Челяб. обл. универс. науч. б-ка ; [сост. Л. В. Макарова ; науч. ред. Л. В. Сокольская]. – Челябинск, 2010. – 199 с. ISBN 978-5-94839-263-9 В справочнике представлена информация о 140 библиотеках Челябинска: 62 универсальных (4 государственных областных и 47 муниципальных, в том числе 19 детских; 11 общественных, из них 6...»

«Утверждаю ректор Д.И.Файзрахманов ОТЧЕТ о самообследовании деятельности в 2013 году рассмотрено на заседании Ученого совета 17 апреля 2014 года протокол №30 Казань 2014 Содержание Введение 1. Общие сведения об образовательной организации 3 2. Образовательная деятельность 12 3. Научно-исследовательская деятельность 36 4. Международная деятельность 52 5. Внеучебная деятельность 55 6. Материально-техническое обеспечение 63 Заключение 69 Приложение Результаты анализа показателей самообследования 2...»

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ МЕЖДУНАРОДНЫЕ ОТНОШЕНИЯ И ДИАЛОГ КУЛЬТУР Сборник научных статей № 1(2012) Издательство Политехнического университета Санкт-Петербург 2013 THE MINISTRY OF EDUCATION AND SCIENCE OF THE RUSSIAN FEDERATION St. Petersburg State Polytechnic University INTERNATIONAL RELATIONS AND DIALOGUE OF CULTURES Scientific articles selection № 1(2012) Polytechnic University Publishing House Saint Petersburg 2013 International Relations and Dialogue...»

«ЦИФРОВОЕ ЭФИРНОЕ ТЕЛЕВИДЕНИЕ Практика, новые направления развития цифрового эфирного телевидения и создания цифровых эфирных телесетей Пособие для специалистов телерадиоиндустрии Киев – 2010 В книге проанализированы и описаны рыночные и технико-технологические модели развития цифрового эфирного телевидения (DVB-T) с 2000 до 2009 года. Главное внимание уделяется развитию цифровых эфирных телесетей. Многоканальные цифровые эфирные телесети стандарта DVB-T каждая страна создает в соответствии с...»

«УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС по дисциплине Материаловедение для студентов направления подготовки 070600.62 Дизайн и специальности 070601.65 Дизайн Учебно-методический комплекс по дисциплине МатериалоУ 91 ведение / сост. А. И. Золотарев, Е. М. Конышев. – Тольятти : Изд-во ПВГУС, 2012. – 80 с. Для студентов направления подготовки 070600.62 Дизайн и Одобрено специальности 070601.65 Дизайн. Учебно-методическим Советом университета Составители: Золотарев А. И., Конышев Е. М. Тольятти...»






 
© 2013 www.knigi.konflib.ru - «Бесплатная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.