В etl-системе практически любая задача по преобразованию данных может быть решена за счет применения инструментов последовательной предобработки PolyAnalyst. Очистка или преобразование данных представляют собой сценарий, состоящий из определенных функциональных узлов (этапов), который можно сохранять, повторять и изменять по необходимости:
- Объединение – аналог SQL JOIN;
- Конкатенация – аналог SQL UNION;
- Агрегирование данных – аналог SQL GROUP BY;
- Дополнение – формирование таблицы из записей, имеющихся в одной таблице, но отсутствующих в другой;
- Расчет и вывод новых производных вычисляемых атрибутов;
- Внешнее обогащение данных – привлечение дополнительной информации из внешних источников;
- Внутреннее обогащение данных – поиск групп подобных строк и создание новых строк, содержащих обогащенные значения, полученные на основе обнаруженных групп подобных строк;
- Интеллектуальное заполнение пропущенных значений;
- Преобразование данных – изменение типа данных, замена строковых значений, замена устойчивых сочетаний символов;
- Сопоставление имени, типа и значения атрибута;
- Консолидирование данных – генерация новых колонок данных, содержащих агрегированные значения исходных колонок;
- и еще два десятка инструментов для работы с данными.