Обновление PolyAnalyst 31ХХ:Зацикливаемся на аналитике! Компания Мегапьютер, представила очередную стабильную версию системы интеллектуального анализа данных PolyAnalyst 6.5. 31ХХ. Ключевые нововведения...
Читать далееКаждый, кто работает с данными, знает эту боль. Вы получаете Excel-файл от коллег или из внешней системы, а внутри — хаос: несколько таблиц на одном листе, объединённые ячейки, «шапки», занимающие три строки, и, конечно же, никаких шаблонов. Прежде чем начать анализ, нужно потратить часы на форматирование. Но что, если бы этот процесс можно было полностью хотя бы частично автоматизировать?
PolyAnalyst, благодаря своим инструментам текстового анализа, действует как «интеллектуальный робот-аналитик», который не просто читает текстовое содержимое таблиц Excel, а понимает структуру и содержание документа. Он самостоятельно находит все таблицы, правильно их интерпретирует и преобразует в структурированный вид, готовый к анализу.
Инструменты текстового анализа PolyAnalyst автоматически обнаруживают и сегментируют таблицы на листе Excel. Система не требует, но и не исключает, ручного указания диапазона ячеек (например, A1:D10). Текстовые алгоритмы автоматически сканируют весь лист Excel, идентифицируют все независимые блоки данных, отделенные пустыми строками и столбцами, и распознают их как отдельные таблицы.
Настройка узла Файлы с выбором опции разделения таблиц на листе в Excel
Таким образом достигается существенное устранение ручных манипуляций при подготовке файлов. Пользователю не нужно заранее форматировать данные, подводить их под какие-либо шаблоны, разбивать документы на разные листы или файлы. Можно загрузить «сырой» Excel-файл, полученный из внешней системы, и PolyAnalyst самостоятельно разберет его структуру, найдя все таблицы, даже если они расположены в разных углах листа.
В модуле текстового анализа, а именно в Узле Извлечение таблиц, доступен точный целевой отбор таблиц с помощью гибких правил. PolyAnalyst предоставляет мощный инструментарий для селективного извлечения данных. Вместо загрузки всех таблиц подряд вы можете создать детализированные правила, чтобы извлекать только конкретные таблицы, соответствующие строгим критериям. Таким образом, система обрабатывает именно те данные, которые нужны для анализа, игнорируя лишнюю информацию, что значительно ускоряет процесс обработки, снижает нагрузку на «железо».
К каждому правилу извлечения можно добавить один или несколько атрибутов, которые действуют как фильтры. Доступны следующие атрибуты: номер документа, номер таблицы, имя таблицы, текст таблицы.
Последние два являются самыми гибкими атрибутами. Они позволяют искать таблицы по любому тексту, который содержится как в названии, так и внутри самой таблицы (в её данных). При этом для поиска можно применять сразу несколько инструментов, как простой поиск по вхождению текста, так и регулярные выражения Regex, шаблоны поиска Wildcard. А самым гибким способом является применение лингвистического синтаксиса PDL (Pattern definition language), позволяющего создавать сложные языковые условия поиска.
Текстовый модуль системы умеет автоматически извлекать из данных так называемые именованные сущности, то есть объекты реального мира: люди, локации, организации, товары и др., которые обозначаются именами собственными. Эти объекты могут быть абстрактными или иметь физический референт. Примерами сущностей являются Александр Пушкин, Москва, Volkswagen Golf и любые другие объекты, которые могут обозначаться именем собственным.
Также термином сущность обозначают выражения с числами (даты, время, суммы в разных валютах, номера телефонов и др.), URL-адреса, электронные адреса и временные фразы (продолжительность, частота и др.). Таким образом, 9 мая, www.megaputer.ru и 500 руб – это тоже примеры сущностей.
Таким образом, с помощью PDL можно создать правило, которое, к примеру, найдет таблицы, где в третьей колонке есть именованная сущность, соответствующая любому городу (Москва, Воронеж, Санкт-Петербург), а в первой колонке содержится любая форма слова «Прибыль».
На скриншоте изображен редактор правил для извлечения таблиц, где правило извлекает только те таблицы, где встречается именованная сущность соответствующая 2023 году. Такая сущность присутствует во второй таблице, в то время, как первая таблица с 2022 годом исключена из поиска и извлечения.
Поддерживается обработка таблиц с объединенными ячейками. Система «понимает» исходную структуру. Она разъединяет объединенные ячейки и может, корректно размещать текст, восстанавливая логическую сетку таблицы, например повторить данные из объединенной ячейки в каждой из составных ячеек или оставить данные только в первой ячейке.
PolyAnalyst с помощью текстового анализа проводит интеллектуальное формирование заголовков столбцов из многоуровневых «шапок» таблиц Excel. Функция «Объединять названия строк в имени колонки» позволяет указать, какие строки таблицы являются заголовками. Система автоматически «склеивает» (конкатенирует) текст из нескольких строк в осмысленные названия столбцов.
Система предоставляет гибкие методы обработки и извлечения данных из таблиц с помощью лингвистического синтаксиса XPDL (extended pattern definition language). Этот синтаксис является расширением синтаксиса PDL и позволяет не просто искать данные в таблицах, но и извлекать их в форме отдельных ячеек, колонок, строк.
Специальная функция table() позволяет точечно находить таблицы, конкретные столбцы или даже ячейки по их номеру, содержимому или положению. То есть поддерживается точное извлечение нужных данных из сложных документов.
Например, можно написать правило: «Найди и вытащи из таблицы пересечение всех столбцов, где в «шапке» указаны даты за август 2025 г. со строками, где в первой колонке есть наименования компаний с организационно-правовой формой только ЗАО, принадлежащих к индустрии Сельское хозяйство, а результат представь в виде новой таблицы».
Таблица с подсвеченными значениями ячеек из правила выше.
Вновь созданная таблица с данными, извлеченными правилом выше.
Это основные, но далеко не все возможности текстового анализа PolyAnalyst, которые позволяют превратить сложную и рутинную работу с Excel в быстрый и эффективный процесс, позволяя вам сосредоточиться на главном — анализе данных.
Практический пример использования подобных инструментов приведен в видео и доступен в виде демо-проекта.
Обновление PolyAnalyst 31ХХ:Зацикливаемся на аналитике! Компания Мегапьютер, представила очередную стабильную версию системы интеллектуального анализа данных PolyAnalyst 6.5. 31ХХ. Ключевые нововведения...
Читать далееИнститут информационных технологий РТУ МИРЭА и Мегапьютер начинают подготовку специалистов по аналитике данных на PolyAnalyst. Компания Мегапьютер, разработчик платформы для...
Читать далееПредставитель Мегапьютер выступил с докладом «Большая языковая модель + классический text mining: гибридный подход для анализа и обработки текстовых данных»....
Читать далее