- Журнал изменений в версиях системы Papyrus
- PAPYRUS (Демо)
- Papyrus: development
- ppd-chapter-000
- Введение #2
- Инструментарий
- Сборка проекта
- Code style
- Общие функции
- Базовые типы данных
- Базовые структуры данных
- Базовые алгоритмы
- Управление строковыми ресурсами
- Контроллеры анализа данных (классы семейства PPView)
- Соображения по вопросу неотрицательности товарных остатков
- Котировки
- Модель объемной оптимизации товарных запасов
- Проект SARTR
- Протокол взаимодействия
- Зарезервированные объекты
- Регламентированные задания
- Papyrus: возможности системы
- Papyrus: руководство пользователя
- Библиотека
- Все об обязательной маркировке 2021
- Все об онлайн-кассах
- Презентации
- Руководства
- Свидетельство о регистрации системы Papyrus
- Технологии и функции
Проект SARTR
Проект SARTR призван реализовать масштабную концепцию компьютерной обработки естественных языков (NLP).Важные отличительные черты проекта:
- Открытость
- Проект реализуется по лицензии GPL.
- Поддержка любых натуральных языков
- Предполагается возможность включения в систему словарей и правил для любых языков.
- Компактность
- Объемы программного кода и словарей должны быть достаточно малыми для того, чтобы функции, реализуемые системой могли быть легко включены в любые инсталлируемые приложения.
- Универсальность
- Система должна обеспечивать большинство утилитарных функций, требуемых приложениям общего назначения. Как то:
Сущности
Лексемы
Лексемой будем называть устоявшееся слово либо часть слова. Кроме того, к лексемам отнесем общепринятые комбинации символов, имеющие смысл кодов. Например: штрихкод, ip-адрес, почтовый индекс. Многие из этих кодов в базе данных лексем не хранятся, но распознаются по строго определенным правилам.Структура хранения лексемы:
LEXEM : LEX LEXIDLEX - текстовое представление лексемы в формате UNICODE
LEXID - числовой идентификатор лексемы в формате беззнакового целого четырехбайтового числа (uint32).Идентификаторы хранимых лексем не резервируются. То есть все особенности, семантика, правила трансформации и прочие характеристики лексем определяются либо на основе правил, хранящихся в базе данных в купе с алгоритмическими механизмами.
Вместе с тем небольшой диапазон идентификаторов резервируется для представления специализированных лексем (индексы, штрихкоды и другие, которые могут быть алгоритмически идентифицированы с достаточной степенью достоверности).Список специализированных лексем:
- ip-address
- email-address
- URL
- barcode EAN13
- barcode EAN8
- barcode UPCA
- barcode UPCE
- ИНН (Россия)
- Почтовый индекс (Россия)
Трансформации
Трансформация - это правило преобразования начальной формы слова в иную форму. Например, спряжение глагола, склонение существительного и т.д.
Связи
Связи определяют следующие отношения:
- Лексема-Лексема
- Лексема-Трансформация
- Лексема-Семантическая сущность
Структура хранения связи: LEXLINK: LEXID LEXID SEM LEXID 0 TRANSFORM
Семантика
Семантическую классификацию позаимствуем из библиотечных классификаторов. Примеры есть на ресурсе http://www.innvista.com/society/education/info/classif.htm Особенно интересны: Dewey Decimal Classification System (www-lib.nearnorth.edu.on.ca/dewey/ddc.htm)