По условиям соглашения с Российским фондом развития информационных технологий РФРИТ компания Мегапьютер за счет средств гранта, полученного от фонда, реализует проект по доработке кластерной системы интеллектуального анализа данных PolyAnalyst GRID. Календарный план проекта включает два этапа реализации. Каждый этап имеет продолжительность в девять месяцев и включает несколько десятков мероприятий. 30 сентября был успешно завершен первый этап проекта и выполнены двадцать восемь мероприятий. Команда проекта передала в РФРИТ отчетную документацию и приступила к реализации второго этапа проекта, который продлится до 1 июля 2023 года.
Портирование стека технологий и исходных кодов проекта под процессорную архитектуру ARM (процессор Baikal-M) и работу под управлением операционной системы Astra Linux (Новороссийск).
Разработка графического редактора для создания аналитических отчетов, включающих интерактивную инфографику, и графические модулей представления результатов с использованием различных способов визуализации.
Разработка планировщика задач, позволяющего проводить автоматическую работу системы по настроенным триггерам или расписанию.
Разработка менеджера и редакторов словарей: морфологические словари, словари имен, словарные списки и т. п.
Разработка модуля индексирования текстов: выделение границ слов, предложений, параграфов, определение частей речи и морфологической формы.
Разработка модуля автоматического определения языка текстовых данных.
Разработка модуля, проводящего поиск и исправления орфографических ошибок с указанием их значимости, вариантов исправления и подсветкой в исходных текстах.
Разработка модуля извлечения ключевых слов и фраз из текстов с указанием их значимости и подсветкой положения в исходных текстах.
Разработка модуля обучения, контроля уровня качества и применения моделей классификации текстовых данных.
Разработка модуля кластеризации текстов с отображением найденных кластеров и термов, участвующие в кластеризации с указанием их значимости и подсветкой положения в исходных текстах.
Разработка поисковой машины с развитым языком правил для поиска произвольной информации в текстах.
Разработка модуля для создания многоуровневой иерархической таксономии текстовых поисковых запросов и модуля преобразования таксономии в табличный вид с разверткой по строкам или столбцам.
Разработка модуля обучения математической модели наивного байесовского классификатора.
Разработка модуля обучения математической модели логистической регрессии.
Разработка модуля, который исследует корреляции между классами категориальных переменных (строковых/булевых/числовых) и представляет результаты в виде интерактивного графа с возможностью детализации.
Разработка модуля, позволяющего представить значения исходной таблицы данных в агрегированном виде.
Разработка лингвистического наполнения словарных статей, онтологий, правил.