С внедрением новой системы Роскомнадзор, который в настоящее время осуществляет мониторинг онлайн-СМИ вручную (с использованием общедоступных инструментов интернет-поиска), рассчитывает повысить оперативность реагирования на нарушения действующего законодательства о СМИ.
Анализу будут подлежать не только редакционные тексты и комментарии к ним, но и видео-, аудиоматериалы, а также изображения. Чиновники Роскомнадзора ранее комментировали различным СМИ, что речь идет не о цензуре, а о борьбе с незаконной информацией, связанной, к примеру, с детской порнографией, пропагандой экстремизма и наркотиков.
"Пятнадцатого декабря истекает срок сдачи работы ведомству, сотрудники Роскомнадзора приступят к ее оценке", - заявил РИА Новости помощник руководителя Роскомнадзора Михаил Воробьев.
Воробьев не стал комментировать возможные сроки запуска системы в действие или сроки, необходимые на оценку работы исполнителя.
Внедрение автоматической системы мониторинга чиновники ранее объясняли существенным увеличением количества сетевых СМИ и сложностью оперативного отслеживания содержания публикаций вручную.
Ранее СМИ со ссылкой на заместителя руководителя Роскомнадзора Константина Протопопова сообщали, что, по условиям контракта, исполнитель - компания "Дата-центр" - обязан передать готовую систему в эксплуатацию до 15 декабря, и в это время ведомство планирует запустить систему мониторинга в эксплуатацию.
С представителями "Дата-центра" РИА Новости связаться не удалось.
Тендер на разработку системы мониторинга Роскомнадзор разместил 15 марта, при этом первоначальная стоимость заказа составляла 15 миллионов рублей, писали "Московские новости" со ссылкой на Роскомнадзор. В итоге исполнитель взялся выполнить работу за 4,6 миллиона рублей.
СЛОЖНОСТЬ В КЛЮЧАХ
Какие ключевые слова будут использованы для мониторинга текстов, и какие технологии анализа изображений, видео и аудио применяются в разработке, Роскомнадзор не раскрывает.
Опрошенные РИА Новости эксперты отмечают высокую сложность задачи автоматизированного распознавания и оценки онлайновых публикаций, которая не всегда может быть однозначно решена, особенно для мультимедийного контента.
"Задача мониторинга электронных СМИ разделяется на два этапа: сбор данных и их анализ на "предмет соответствия действующему законодательству Российской Федерации". Второй этап предполагает выделение ключевых слов и выражений и их синтаксический и семантический анализ. Что касается текстовых материалов, то основная проблема может возникнуть на этапе анализа", - заявил РИА Новости Дмитрий Макаренко, директор по научно-техническому развитию компании НТЦ "Поиск-ИТ" (один из ведущих российских системных интеграторов в области информационно-аналитических систем).
По словам Макаренко, задача анализа текстов на соответствие законодательству является куда менее тривиальной, чем просто поиск ключевых слов и выражений, поскольку компьютерные системы до сих пор не умеют адекватно понимать естественный язык.
"Понятно, что в результате работы данной системы будет много ложных тревог и, я уверен, специалисты Роскомнадзора готовы к этому, но насколько полно система будет выявлять подозрительные материалы и можно ли будет на нее положиться на все сто процентов, покажет только время и эксперименты", - считает Макаренко.
Эксперт также отмечает, что анализ аудиовизуальных материалов - технологически гораздо более сложная задача, чем работа с текстом. "Для таких материалов технологически не решена даже задача надежного извлечения первичной информации – ключевых слов, подозрительных образов и т.п., – следовательно, и о каких-либо более или менее надежных результатах анализа таких материалов говорить не приходится", - полагает Макаренко.
Сложность распознавания произвольного мультимедийного контента признает и менеджер проектов группы мультимедийных поисковых сервисов компании "Яндекс" Александр Крайнов.
"Над задачами автоматического распознавания образов работают множество специалистов по всему миру. Сейчас есть много готовых решений для узких задач: распознавание текста, объектов архитектуры, произведений искусств. Но уровень развития технологий пока еще не позволяет надежно находить и распознавать любой объект на произвольном фоне", - заявил Крайнов РИА Новости.
По его словам, чаще всего создаются системы для нахождения объектов одного определенного типа: штрих-кодов, автомобильных номеров, лиц, символов и т.п.
"Пожалуй, самая обсуждаемая задача, которую решают технологии "компьютерного зрения", - это определение, кто изображен на фото. Фотохостинги и социальные сети для определения персоны по фотографии сравнивают изображение с существующей базой лиц пользователей. В случае, если круг кандидатов составляет несколько человек, распознавание работает хорошо, но если искать среди десятков тысяч - точность будет очень низкой. Поэтому обычно поиск идет только среди небольшого количества "друзей"", утверждает эксперт.
Крайнов также обращает внимание на то, что эффективный поиск по изображениям требует много ресурсов.
"Достаточно популярный способ определения того, что присутствует на изображении, – это поиск подобного. Работает это так: на вновь загруженное изображение находится максимально похожее (как правило, копия), содержание которого заранее известно. По мере роста баз изображений, вероятность найти копию увеличивается, но и растут требования к производительности", - отмечает эксперт "Яндекса", передает РИА Новости.