Petroglif

Проект SARTR

Проект SARTR призван реализовать масштабную концепцию компьютерной обработки естественных языков (NLP).

Важные отличительные черты проекта:

Открытость

Проект реализуется по лицензии GPL.

Поддержка любых натуральных языков

Предполагается возможность включения в систему словарей и правил для любых языков.

Компактность

Объемы программного кода и словарей должны быть достаточно малыми для того, чтобы функции, реализуемые системой могли быть легко включены в любые инсталлируемые приложения.

Универсальность

Система должна обеспечивать большинство утилитарных функций, требуемых приложениям общего назначения. Как то:

проверка орфографии и синтаксиса

распознавание специфических плохо структурированных строк (адреса, имена, новостные сообщения, наименования товаров и др.)

лексическая трансформация небольших текстов (склонение имен, географических названий, общеупотребительных выражений и т.д.)

переводы, и национальная локализация текстов.

Сущности

Лексемы

Трансформации

Понятия (концепции)

Связи

Лексемы

Лексемой будем называть устоявшееся слово либо часть слова. Кроме того, к лексемам отнесем общепринятые комбинации символов, имеющие смысл кодов. Например: штрихкод, ip-адрес, почтовый индекс. Многие из этих кодов в базе данных лексем не хранятся, но распознаются по строго определенным правилам.Структура хранения лексемы:

LEXEM : LEX LEXIDLEX - текстовое представление лексемы в формате UNICODE

LEXID - числовой идентификатор лексемы в формате беззнакового целого четырехбайтового числа (uint32).Идентификаторы хранимых лексем не резервируются. То есть все особенности, семантика, правила трансформации и прочие характеристики лексем определяются либо на основе правил, хранящихся в базе данных в купе с алгоритмическими механизмами.

Вместе с тем небольшой диапазон идентификаторов резервируется для представления специализированных лексем (индексы, штрихкоды и другие, которые могут быть алгоритмически идентифицированы с достаточной степенью достоверности).Список специализированных лексем:

ip-address
email-address
URL
barcode EAN13
barcode EAN8
barcode UPCA
barcode UPCE
ИНН (Россия)
Почтовый индекс (Россия)

Трансформации

Трансформация - это правило преобразования начальной формы слова в иную форму. Например, спряжение глагола, склонение существительного и т.д.

Связи

Связи определяют следующие отношения:

Лексема-Лексема
Лексема-Трансформация
Лексема-Семантическая сущность

Структура хранения связи: LEXLINK: LEXID LEXID SEM LEXID 0 TRANSFORM

Семантика

Семантическую классификацию позаимствуем из библиотечных классификаторов. Примеры есть на ресурсе http://www.innvista.com/society/education/info/classif.htm Особенно интересны: Dewey Decimal Classification System (www-lib.nearnorth.edu.on.ca/dewey/ddc.htm)