В ETL системе практически любая задача по преобразованию данных может быть решена за счет применения инструментов последовательной предобработки PolyAnalyst. Очистка или преобразование данных представляют собой сценарий, состоящий из определенных функциональных узлов (этапов), который можно сохранять, повторять и изменять по необходимости:
- Объединение – аналог SQL JOIN;
- Конкатенация – аналог SQL UNION;
- Агрегирование данных – аналог SQL GROUP BY;
- Дополнение – формирование таблицы из записей, имеющихся в одной таблице, но отсутствующих в другой;
- Расчет и вывод новых производных вычисляемых атрибутов;
- Построение правил проверки данных;
- Внешнее обогащение данных – привлечение дополнительной информации из внешних источников;
- Внутреннее обогащение данных – поиск групп подобных строк и создание новых строк, содержащих обогащенные значения, полученные на основе обнаруженных групп подобных строк;
- Интеллектуальное заполнение пропущенных значений;
- Преобразование данных – изменение типа данных, замена строковых значений, замена устойчивых сочетаний символов;
- Сопоставление имени, типа и значения атрибута;
- Консолидирование данных – генерация новых колонок данных, содержащих агрегированные значения исходных колонок;
- и еще два десятка инструментов для работы с данными.