Нейросеть «Яндекса» в течение года расшифровала более 10 миллионов страниц исторических документов в «Поиске по архивам». Об этом говорится в известьи компании.
Сервис «Яндекса» «Поиск по архивам» помогает историкам, социологам, демографам и журналистам выискать информацию об исторических событиях и личностях, а обычным людям - больше справиться о своих предках. Работать с архивными документами так же ещё бы, как с привычным «Поиском»: необходимо ввести слово, упоминание которого нужно найти, в поисковую строку. За год с момента запуска сервиса пользователи просмотрели расшифрованные нейросетью документы более 20 миллионов раз.
Первым партнёром «Поиска по архивам» стал Главархив Москвы. Именно на предоставленных им текстах нейросеть обучалась расшифровывать устаревшие символы и рукописи. На настоящее время в базу «Поиска по архивам» загружено более 5,4 миллиона страниц исторических материалов из Главархива Москвы - это больше половины всех документов сервиса.
Сейчас в «Поиске по архивам» есть документы из архивов 11 регионов, в том числе Москвы, Московской, Оренбургской, Новгородской, Иркутской, Астраханской и прочих областей. Всего в течение года работы сервиса нейросеть Яндекса распознала более 60 тысяч рукописных и печатных текстов середины XVIII - начала XX веков: это более 10 миллионов страниц или 492 миллиона строк. В «Поиске по архивам» хранятся расшифрованные архивные дела (например, метрические книжки и ревизские сказки) с информацией о людях, родившихся в России до революции.
Кроме того, в сервисе собраны 3,6 миллиона оцифрованных страниц периодических изданий, такая как «Советский спорт», «Вечерняя Москва» и епархиальные ведомости.
Технология расшифровки в «Поиске по архивам» основана на оптическом распознавании символов. Нейросеть узнаёт утратившие актуальность знаки (например, исчезнувшие из алфавита буквы), учитывает особенности почерка и за несколько секунд преобразует трудночитаемые записи в печатный текст. Для работы с вёрсткой газетных страниц нейросеть умышленно адаптировали: она выучилась опознавать текст на непомерных полосах, набранный мелочным шрифтом на бумаге невысокой плотности.
Фото: «Яндекс»