Стратегии и практика издательского бизнеса 06/2022 | Page 15

ИЮНЬ 2022
ТЕХНОЛОГИИ И ИННОВАЦИИ
[ wan-ifra . org ] [ gipp . ru ]

15

Цитаты со смыслом

Цитаты всегда использовались в новостных статьях , чтобы оживить историю и , что более важно , придать ей достоверности и сбалансированности . Специалисты по обработке данных из The Guardian нашли способ дать цитатам собственную жизнь и гарантировать их точность благодаря искусственному интеллекту .
В 2021 году The Guardian приняла участие в Journalism AI Collab Challenges , проекте , объединяющем глобальные редакции , чтобы понять , как искусственный интеллект может улучшить журналистику .
Анна Виссенс , ведущий научный сотрудник , и Мишель Шаммель , старший специалист по обработке данных в Guardian News & Media присоединились к онлайн- конференции WAN-IFRA Newsroom Summit , чтобы рассказать об уроках , извлеченных из этого проекта .
Когда ставятся кавычки В своей работе они рассматривают текст как набор модулей , которые существуют независимо , но могут быть перепрофилированы или даже заменены другими фрагментами . Исходя из этого определения , слова , заключенные в кавычки , строго квалифицируются как модули .
Виссерс убеждена , что использование модульного подхода , позволяющего отследить меняющиеся мнения по одному и тому же вопросу с течением времени , может здорово помочь при проверке фактов и подготовке расследований .
Команда Виссенс и Шаммеля определила понятие цитаты следующим образом : « Цитата – это повторение предложения , фразы или отрывка из речи или текста , которые кто-то сказал или написал . В устной речи это репрезентация высказывания , которая вводится с помощью маркераглагола . Например : Джон сказал : « Сегодня я видел Мэри ». В письменном тексте цитаты обозначаются кавычками ».
При этом они решили не помечать текст без кавычек как цитату и разработали дизайнерское решение четкого разделения перефразирования и цитаты , сосредоточив свои усилия на идентификации текста только в кавычках .
Однако в то же время Виссенс и Шаммель хотели научить свою модель различать кавычки и случайные слова в кавычках . « Наша цель с точки зрения машинного обучения состояла в том , чтобы точно определять реальные цитаты и позже иметь возможность вернуться к контексту , окружающего эти цитаты », – сказала Виссенс .
Они создали четкое и краткое руководство для анализа и переработки данных , чтобы свести к минимуму ошибки и неопределенность в обучающем наборе данных . « Мы начали с изучения текстовых материалов , чтобы выяснить , как и когда ставятся кавычки , и обнаружили около 15 различных конструкций , – отметила Виссенс . – Основной проблемой при создании обучающего набора данных стало наличие различных журналистских стилей ».
Для обработки данных Вместе с коллегами из информационного агентства France- Presse ( AFP ) команда переработала почти 1000 новостных статей , фокусируясь на трех объектах : содержании ( цитата в кавычках ), источнике ( люди , организации и т . д .) и реплике ( обычно глагольная фраза , указывающая на речь ). Затем результаты были использованы для обучения модели распознавания этих объектов .
Команда использовала два инструмента , созданных технологической компанией Explosion :
W Spacy : библиотека с открытым исходным кодом для расширенной обработки естественного языка ( NLP ) с использованием глубоких нейронных сетей ;
W Prodigy : инструмент анализа и переработки данных , который предоставляет простой в использовании интерфейс для быстрой и эффективной маркировки обучающего набора данных . « После ручной обработки тысячи статей у нас была готова наша первая базовая модель ,– рассказала Виссенс .– Прототип модели не только ускорил нашу работу , но и дал нам представление о том , где модели чего-то не хватает или где она вообще не работает ».
Она добавила , что было интересно наблюдать за улучшением модели с течением времени , и , кроме того , еще и полезно : сами члены команды смогли на практике отточить свои навыки . Первая партия полученных данных оказалась зашумленной и непоследовательной , но с каждой итерацией они становились все лучше . Как только команда собрала достаточно данных , она запустила окончательную версию модели .
Допустимая погрешность Обученной модели удалось правильно идентифицировать все три объекта в подавляющем большинстве случаев :
W реплика показала самую высокую точность – 96 %;
W содержание – 91 %;
W источник – 82 %. Чтобы оценить модель , команда использовала самый строгий способ измерения производительности распознавания именованных объектов , где каждый предсказанный объект должен был точно соответствовать ( от начала до конца ) переработанным данным . Даже в тех случаях , когда модель ошибалась , команда часто обнаруживала , что ей удается частично соответствовать объектам , находящимся в базе данных . Чаще всего это происходило с источниками .
Шаммель отметил , что разница между объектами неудивительна : « Преимущество объектасодержания в том , что он имеет четкий сигнал , исходящий от кавычек . Но при этом есть сложность : нужно отличить кавычки , в которые заключается цитата , от кавычек , в которые заключаются случайные слова . Постепенно наша модель научилась исключать фразы в кавычках , которые не являются настоящими цитатами ».
« Что касается объекта- источника и объектареплики , то периодически мы фиксируем ложные срабатывания , – продолжил он . – Иногда модель отмечает реплики без связанного с ними содержания , и мы стремимся преодолеть эту проблему на этапе постобработки ».
Новые задачи В дальнейшем команда Виссенс и Шаммеля планирует создать надежную систему ссылок , которая представляет собой процесс идентификации источников , базирующейся на упоминании только местоимений . Они рассмотрели различные подходы к машинному обучению , основанные на существующих библиотеках . Но ни один из них не сработал так , как это было им нужно , поэтому в итоге они приступили к созданию собственной разработки .
В свою очередь , Арно Пишон и Фред Бурже из AFP создали прототип системы поиска цитат под названием QuoteMachine . Подобное приложение могло бы позволить журналистам быстро находить предыдущие цитаты , чтобы сверить их с текущими заявлениями и обогатить свои статьи .
Подытоживая рассказ , Шаммель признал , что еще одной проблемой наверняка станет выявление значимых цитат : « Однако мы уверены , что сочетание машинного обучения , существующих метаданных о статьях и дополнительной информации , извлеченной из источников и контента , поможет нам ее решить и разработать хороший способ автоматической классификации цитат ».
Неха Гупта , корреспондент WAN-IFRA
Пользовательский интерфейс инструмента анализа и переработки данных Prodigy с тремя метками для источника , содержания и реплики .