Petroglif

Проект SARTR

Проект SARTR призван реализовать масштабную концепцию компьютерной обработки естественных языков (NLP).

Важные отличительные черты проекта:

Открытость
Проект реализуется по лицензии GPL.
Поддержка любых натуральных языков
Предполагается возможность включения в систему словарей и правил для любых языков.
Компактность
Объемы программного кода и словарей должны быть достаточно малыми для того, чтобы функции, реализуемые системой могли быть легко включены в любые инсталлируемые приложения.

Универсальность
Система должна обеспечивать большинство утилитарных функций, требуемых приложениям общего назначения. Как то:

  • проверка орфографии и синтаксиса
  • распознавание специфических плохо структурированных строк (адреса, имена, новостные сообщения, наименования товаров и др.)
  • лексическая трансформация небольших текстов (склонение имен, географических названий, общеупотребительных выражений и т.д.)
  • переводы, и национальная локализация текстов.
  • Сущности

  • Лексемы
  • Трансформации
  • Понятия (концепции)
  • Связи
  • Лексемы

    Лексемой будем называть устоявшееся слово либо часть слова. Кроме того, к лексемам отнесем общепринятые комбинации символов, имеющие смысл кодов. Например: штрихкод, ip-адрес, почтовый индекс. Многие из этих кодов в базе данных лексем не хранятся, но распознаются по строго определенным правилам.Структура хранения лексемы:

    LEXEM : LEX LEXIDLEX - текстовое представление лексемы в формате UNICODE

    LEXID - числовой идентификатор лексемы в формате беззнакового целого четырехбайтового числа (uint32).Идентификаторы хранимых лексем не резервируются. То есть все особенности, семантика, правила трансформации и прочие характеристики лексем определяются либо на основе правил, хранящихся в базе данных в купе с алгоритмическими механизмами.

    Вместе с тем небольшой диапазон идентификаторов резервируется для представления специализированных лексем (индексы, штрихкоды и другие, которые могут быть алгоритмически идентифицированы с достаточной степенью достоверности).Список специализированных лексем:

    ip-address
    email-address
    URL
    barcode EAN13
    barcode EAN8
    barcode UPCA
    barcode UPCE
    ИНН (Россия)
    Почтовый индекс (Россия)

    Трансформации

    Трансформация - это правило преобразования начальной формы слова в иную форму. Например, спряжение глагола, склонение существительного и т.д.

    Связи

    Связи определяют следующие отношения:

    Лексема-Лексема
    Лексема-Трансформация
    Лексема-Семантическая сущность

    Структура хранения связи: LEXLINK: LEXID LEXID SEM LEXID 0 TRANSFORM

    Семантика

    Семантическую классификацию позаимствуем из библиотечных классификаторов. Примеры есть на ресурсе http://www.innvista.com/society/education/info/classif.htm Особенно интересны: Dewey Decimal Classification System (www-lib.nearnorth.edu.on.ca/dewey/ddc.htm)

    OOO "Петроглиф"
    Copyright © 2019