megaputer-logo
  • Продукты
  • Решения
  • Обучение
  • Партнерство
  • О компании
СКАЧАТЬ

Big Data Analytics кластерная система анализа больших данных - PolyAnalyst GRID

Доработка системы реализуется в рамках грантового проекта совместно с РФРИТ

Big Data Analytics обозначает обработку структурированных и неструктурированных данных по-настоящему огромных объемов. На необходимость такой аналитики впервые обратили внимание в конце 2000-х годов, когда стала прослеживаться тенденция наращивания количества информации в мире.

Big Data и смежные с ней тематики задали тренд развития аналитики на долгие годы вперед, если не навсегда. Cуществуют обоснованные статистическими выкладками прогнозы, что в 2025 году объем информации, генерируемой человечеством, достигнет 400 зеттабайт, что соотносимо с 400 миллиардами гигабайт.

PolyAnalyst GRID позволяет организациям проводить анализ в полном смысле Больших Данных, включающих миллионы документов и миллиарды записей. Особенностью новой системы является возможность как распределенного хранения данных, так и проведение распределенных вычислений на кластере из десятков вычислительных серверов.

Функционально новая система во многом похожа на платформу PolyAnalyst, и большинство аналитических модулей односерверной версии будут включены в состав инструментов PolyAnalyst GRID. При этом, GRID является абсолютно оригинальной разработкой, реализуемой на принципиально новой кластерной архитектуре.

РФРИТ Логотип

ГРАНТОВАЯ ПОДДЕРЖКА РФРИТ

Компания Мегапьютер и Российский фонд развития информационных технологий ведут активное сотрудничество в рамках государственной программы поддержки проектов по разработке и внедрению российских решений в сфере информационных технологий.

За счет средств гранта осуществляется реализация проекта по доработке «Кластерной системы интеллектуального анализа данных PolyAnalyst GRID».  Проект начался 1 января 2022 года и включает два этапа реализации. 30 сентября команда проекта успешно завершила первый этап доработки.

Реализованный функционал

Работа системы аналитики больших данных

PolyAnalyst GRID выполняет распределенное хранение и анализ данных на совокупности серверов (узлов кластера), работа которых координируется сервисом базы данных  — PolyAnalyst Database Server. Отдельные серверы узлов кластера могут работать как на физических, так и на виртуальных машинах с ОС Linux или MS Windows.

Системные возможности при Big Data Analytics

С наступлением эры Big Data традиционные аналитические инструменты и классические средства хранения данных оказались абсолютно не в состоянии справиться с гигантскими информационными потоками. В связи с этим возникла острая необходимость поиска совершенно новых подходов к управлению и анализу данных, которые позволили бы решить три основополагающих задачи, обусловленные ключевыми характеристиками Big Data — их колоссальным объемом (volume), скоростью генерирования контента (velocity) и его разрозненностью и вариативностью (variety). Это обусловило необходимость перехода к технологиям распределенных вычислений.

В массиве накопленной информации содержатся сведения, с помощью анализа которых можно с высокой точностью прогнозировать спрос на продукцию для промышленных предприятий, персонализировать маркетинговые предложения покупателям розничных сетей, просчитывать загруженность транспортных систем, выявлять аномалии в работе сложного оборудования и многое другое.

  • Поддерживает до 100 серверов в кластере и до 1000 одновременных пользовательских подключений. Максимальное количество подключений растет с количеством серверов приложений в кластере.
  • Обеспечивает работу с данными общим объемом до 1 ПБ (петабайт), количеством таблиц до 106, количеством строк в таблице до 1015 и количеством столбцов в таблице до 30,000.
  • Поддерживает категориальные строки длиной до 4,095 байт в UTF-8 кодировке.
  • Обеспечивает комфортную работу с документами, содержащими текст объемом до 32 млн. символов на один документ.
  • Индексирует тексты со следующими ограничениями:
    • макс. размер индексируемой части текста — 32 млн. символов;
    • макс. количество предложений в одном тексте — 65,534;
    • макс. количество токенов в предложении — 1,000;
    • макс. длина одного токена — 254 символа.

Производительность системы аналитики больших данных (Big Data Analytics)

  • Аналитические алгоритмы PolyAnalyst GRID допускают параллельные вычисления, используют все процессорные ядра на вычислительном сервере кластера.
  • Аналитические алгоритмы, допускают также распределенные вычисления, дополнительно используют и все вычислительные сервера кластера.
  • Производительность алгоритмов системы, которые допускают распределенные вычисления, растет с общим количеством процессорных ядер на всех вычислительных серверах кластера (линейно для большинства алгоритмов).
Распараллеливание вычислений

Аналитика больших данных (Big Data Analytics) позволяет проводить анализ структурированных и неструктурированных данных при помощи современных интеллектуальных технологий, которые смогут выполнить глубокий анализ в этой среде. Подобные технологии успешно применяются при расчетах с помощью информационно-аналитической платформы PolyAnalyst GRID.

Это инновационная система углубленной аналитики, которая поддерживает распределенную обработку данных. PolyAnalys GRID способна проводить распределенное хранение и анализ больших данных на кластерах машин относительно невысокой мощности. Кроме этого, при создании платформы использовались эксклюзивные разработки высококвалифицированной командой российских программистов и аналитиков компании Мегапьютер.

Ключевым отличием от прочих систем является поддержка распределенного хранения данных и распределенных вычислений на кластере серверов. Распределенное поколоночное хранилище собственной разработки позволяет загружать в систему и обрабатывать сверхбольшие объемы данных, которые в принципе невозможно обработать на одном сервере. При загрузке данные распределяются по всем серверам кластера примерно одинаковыми порциями и далее могут параллельно и одновременно обрабатываться на них. PolyAnalyst GRID использует методологию распределенных вычислений map-reduce. При запуске аналитического алгоритма происходит анализ входных данных и процесс вычислений расщепляется на отдельные задачи, построчно или поколоночно. Информационно-аналитическая платформа PolyAnalyst GRID предлагает самые востребованные на рынке Big Data Analytics инструменты интеллектуальной аналитики.

Важное уточнение! От пользователя платформы не требуется обладание навыка программирования. Достаточно воспользоваться интуитивно понятным визуальным интерфейсом, чтобы провести глубокий интеллектуальный анализ данных.

PolyAnalyst GRID включает инструменты для полного цикла аналитики с большими данными

  • Трансформация, очистка и обогащение данных, ETL;
  • Статистический анализ и машинное обучение, ML;
  • Интеллектуальный анализ текстовых данных, NLP;

Данные загружаются из любых источников. Доступны широкий набор видов визуализаций и вариантов экспорта результатов анализа.

По своим возможностям PolyAnalyst GRID способна конкурировать с самыми продвинутыми зарубежными аналитическими платформами. В условиях нестабильной международной обстановки и обостряющегося санкционного давления на российские компании, использование в работе отечественных система весьма актуально. PolyAnalyst GRID позволит быстро и эффективно решить даже самые сложные аналитические задачи.

Продукты

PolyAnalyst Full

PolyAnalyst Text mining & NLP

PolyAnalyst Data mining & ML

PolyAnalyst ETL & BI

PolyAnalyst GRID

Sapremo

Решения

Интеллектуальные решения

Галерея проектов

Обучение

Видео-инструкции

Лекторий по анализу данных

Документация

Проверка сертификата

Свяжитесь с нами

+7(499)7530129

info@megaputer.ru

©1993-2023. ООО «Компания «Мегапьютер Интеллидженс». Пользовательское соглашение. Политика конфиденциальности.