Сфотографирована с помощью любого устройства, находящегося параллельно странице.
Изображение может иметь любое разрешение, однако, чем больше, тем лучше.
Строки изображений должны быть написаны «рядами»
Могут быть в формате .png и .jpg.
паплайн предложенного подхода
1 шаг
Изображение исторического документа
2 шаг
Предобработка изображения
3 шаг
Обнаружение строк на изображении
4 шаг
Преобразование изображения в строки
архитектура решения
Двухуровневая архитектура решения;
Нейронная сеть YOLOv8 совмещает в себе лучшие практики детекции и сегментации изображений;
Нейронная сеть TrOCR построена на архитектуре Transformer (предобученный энкодер для фрагментов изображения и предобученный текстовый декодер для генерации последовательности слов)
архитектура YOLOv8 для детекции текста
архитектура TROCR для распознавания задетектированного текста
Статистика и метрики
значимость и внедрение
в рамках проекта НЦМУ "Исследование процессов формирования и развития человеческого капитала в России в глобальном контексте: долгосрочные тенденции, факторы, структурная динамика (с XIX в. поXXI в.)" (руководитель - Кончаков Р.Б.)
сотрудничество с Президентской библиотека имени Б.Н. Ельцина (г.Санкт-Петербург)
примеры похожих решений
к проекту «Система распознавания рукописных источников»
Остались вопросы?
задайте вопрос в форме
КОНТАКТЫ
+7 495 937 07 44
bolovtsov-sv@ranepa.ru
Адрес
119571, г. Москва, пр-т Вернадского 82 корпус 2; офисы: 221