Google представила ToTTo — датасет для генерации текста по таблицам

Google опубликовала датасет для создания текста на основе таблиц. ToTTo (сокращение от «Table-To-Text») позволяет резюмировать текст с высокой точностью, утверждают в компании.


За последние несколько лет исследования в области генерации естественного языка, которая используется для таких задач, как резюмирование текста, достигли больших успехов. Однако нейросети до сих пор бывают склонны к «галлюцинациям» (созданию текста, который не соответствует источнику). Например, нейросеть, резюмирующая информацию о бельгийском футболисте Константе Вандене Стоке, может ошибочно назвать его американским фигуристом. Эта проблема мешает использованию нейросетей в приложениях, требующих высокой точности.

Определить точность резюмирования проще, если исходный контент структурирован — например, представлен в форме таблицы. Структурированные данные могут также проверить способность модели к рассуждениям и выводам. Однако, отмечают в Google, существующие крупные структурированные наборы данных часто зашумлены и плохо поддаются резюмированию, из-за чего для измерения «галлюцинаций» при разработке модели они бесполезны.

Назад