«Яндекс» научил нейросети расшифровывать архивные записи со трудной дореволюционной орфографией. Об этом сообщила пресс-служба компании.
Попробовать технологию в действии можно в сервисе «Поиск по архивам»: он отмыкает всем хотящим доступ к более чем 2,5 млн страниц исторических документов с текстовой расшифровкой. Новый алгоритм, построенный на основании системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и разумеет особенную структуру архивных документов.
Профессионалы компании выучили нейросеть на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII–XIX веков и десятков миллионов сгенерированных образцов. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания.
Рукописи, которые неподготовленному человеку сложно разобрать, технология «Яндекса» почти моментально превращает в печатный текст. Благодаря этому в базе сервиса можно живо отыскать документы с упоминанием фамилии, населенного пункта или любых иных слов.
Нейросеть прочитает грязные номера
«Для расшифровки одной страницы архивного рукописного текста специалисту может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В проекте технологию можно использовать и для решения иных задач в продуктах «Яндекса», - заявила Елена Бубнова, руководитель «Поиска Яндекса»
«Поиск по архивам» повысит эффективность работы историков, социологов, демографов, генеалогов и поможет тем, кто отыскивает сведения о своей семье. Первым представленным в сервисе фондом стал Главархив Москвы - именно на его материалах разработчики обучали нейросеть. Теперь база пополнилась документами из архивов Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.
Отыскивать можно по материалам XVIII - начала XX веков, которые больше всего пользуются популярностью у пользователей. Это метрические книжки, исповедные ведомости и ревизские басни с результатами переписи населения. Документы можно найти по каталогу или через строку поиска. Есть фильтры по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». Если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.
Фото: «Яндекс»