В рамках масштабного проекта по переходу на систему 1С:ERP перед командой заказчика встала «классическая» проблема масштабных цифровых трансформаций — качество данных. Существующий справочник номенклатуры и складов находился в хаотичном состоянии. Общий массив данных насчитывал 5 415 позиций, которые содержали критические ошибки: пропуски обязательных реквизитов, дубликаты, смысловые повторы, а также многочисленные технические дефекты (лишние пробелы, звездочки, опечатки и некорректные написания).
Решение: Многоступенчатая нормализация данных с применением ИИ и ручной валидации
Проект был реализован в два ключевых этапа, сочетающих в себе высокие технологии и кропотливый человеческий труд.
ЭТАП 1. Масштабная вычистка и методология (ИИ + Аналитика)
На старте проекта наши специалисты провели аудит массива данных и подготовили методики ведения справочника — четкие правила того, как должны выглядеть идеальные карточки товаров в будущей системе.
- Автоматическая чистка (ИИ): Первичная обработка массива велась с использованием инструментов на базе искусственного интеллекта. Мы автоматически удалили технический шум: лишние пробелы, звездочки, спецсимволы, а также исправили типовые орфографические ошибки и некорректные написания.
- Поиск аномалий: С помощью алгоритмов были выявлены позиции с отсутствующими обязательными реквизитами, а также зафиксированы полные и смысловые дубликаты (когда один и тот же товар был назван по-разному).
После первичной «чистки» железом, в дело вступила тяжелая артиллерия — команда из пяти аналитиков и тимлида. Задача этого этапа заключалась в достижении 100% качества данных, ведь даже одна некорректная позиция может остановить процессы в ERP.
- Распределение фронта работ: Массив данных, требующий углубленного анализа, был распределен между специалистами. Каждый аналитик вручную проверял сотни позиций.
- Взаимодействие с бизнесом (Верификация): По позициям, где даже после чистки оставались неясности (например, логическая сущность товара была непонятна), аналитики формулировали детальные уточняющие вопросы бизнес-пользователям. Мы не гадали, а выстроили канал коммуникации с заказчиком для получения эталонных ответов.
- Финальная нормализация: Получив ответы от бизнеса, аналитики возвращались к "проблемным" карточкам и приводили их к идеалу — в строгом соответствии с утвержденной методикой ведения справочника.
Результат и ценность для бизнеса
- В результате колоссальной работы команды был сформирован эталонный массив данных, готовый к загрузке в 1С:ERP.
- 5 415 позиций были полностью нормализованы и верифицированы.
- Устранены технические ошибки и дубликаты, что предотвратило будущие сбои в учете товаров и складских остатков.
- Разработаны и внедрены методики ведения справочников, что заложило основу для поддержания чистоты данных в будущем (принцип Data Governance).
- Сформирован пул уточняющих вопросов, закрывший «серые зоны» в знаниях о продуктах самого заказчика.
