МТС Web Services (MWS) сообщает о запуске первого в России сервиса для автоматического описания данных, накопленных компаниями - MWS Data Scout.
Сервис является долею платформы MWS Data и представляет собой AI-агента, в основе которого лежит большая языковая модель (LLM). Он парсит (просматривает) все информационной базы (БД) компании и формирует короткое описание того, что внутри них находится и как они связаны друг от друга. Это позволяет ускорить процесс описания данных в 10 раз и сэкономить компаниям десятки миллионов рублей. Таким образом, MWS первой вышла на рынок автоматизации описания данных объемом более 3,5 миллиарда рублей.
AI-агент может подключиться к ИТ-системам компании как и из облака, так и из защищенного контура клиента. Решение интегрируется со всеми популярными дата-каталогами, такое как DataHub, OpenMetadata, а также дата-каталогом от MWS. AI-агент может проанализировать, как таблицы связаны друг от друга, какие внутри них хранятся данные и определить иные их характеристики. Например, если столбец таблицы подписан как «Выручка», AI-агент опишет, по какой методике она рассчитывалась, округленные ли это цифры, если это «Сумма сделки» – то расписывается, в которой валюте она указана, до налогообложения или после.
Также сервис может выявлять, в которых базах данных хранится критическая информация, таких как паспортные данные (номер, серия, дата выдачи), персональные данные (ФИО, место жительства, телефон), банковские данные (pin, cvv, имя держателя). Это важно для соблюдения требований законодательства о защите персональных данных, повышения информационной безопасности и предотвращения утечек чувствительной информации.
На первом этапе AI-агент получает мета-данные (общие сведения о том, как именуются таблицы и столбцы в них), а также подключается к Confluence компании, где также могут храниться дополнительные сведения о БД. Это позволяет сервису получить более полное представление о структуре и назначении данных, повысить достоверное событие описаний и учесть бизнес-контекст, зафиксированный в документации. Далее AI-агент характеризует сами таблицы и столбцы, отыскивает критичные данные. После окончания анализа AI-агент предоставляет структурированный отчет с полным описанием всех обнаруженных таблиц, связей между ними и загружает результаты в дата-каталог.
В будущем AI-агент сможет строить пайплайны данных от поиска нужного очага (например, с мастер-данными) до дообогащения данных и доставки их до BI-систем или ML-моделей с обязательными проверкам качества данных. Также AI-агент сможет обнаруживать аномалии, помогая опознавать резкие отклонения в данных, которые могут сигнализировать о неполадках или подозрительных событиях.
Фото: Freepik