MIT выпустил датасет ChartNet для анализа графиков ИИ

MIT и MIT-IBM Watson AI Lab представили ChartNet, специализированный набор данных для обучения моделей работе с графиками и диаграммами. В датасет вошло более 1 млн примеров с изображениями, исходным кодом построения, таблицами данных, текстовыми описаниями и вопросами с ответами. По словам разработчиков, после дообучения на ChartNet компактные открытые модели начали лучше извлекать данные из графиков и отвечать на вопросы по ним, чем более крупные коммерческие системы.

Проблема для ИИ не новая. График нужно разобрать сразу на нескольких уровнях: распознать визуальные элементы, соотнести их с осями и легендой, извлечь числа и затем сформулировать вывод. Даже сильные мультимодальные модели регулярно ошибаются на простых задачах, где требуется считать столбцы, читать подписи осей или уловить тренд на линейной диаграмме.

Авторы ChartNet сделали ставку на масштаб и структуру данных. Сначала система переводит существующие диаграммы в программный код, затем автоматически создает сотни вариаций каждого примера, меняя тип графика, значения, оформление и тему. Отдельный контур проверки валидирует код и сверяет, соответствует ли итоговое изображение исходным данным. Это должно снижать долю ошибок, которые обычно попадают в датасеты, собранные из открытых источников вручную или полуавтоматически.

Подход отличается от более ранних наборов данных для этой области. Например, PlotQA и ChartQA использовались как базовые бенчмарки для вопросно-ответных систем по диаграммам, однако они были меньше и чаще концентрировались на одной задаче, а не на полном наборе сигналов, включая код построения и табличные данные. Для обучения универсальных мультимодальных моделей этого обычно не хватало.

На базе ChartNet команда дообучила несколько открытых моделей, в том числе IBM Granite Vision. Улучшения зафиксировали в четырех сценариях: восстановление данных из графика, извлечение числовой информации, автоматическое составление сводок и ответы на вопросы по диаграммам. На практике это важнее, чем выглядит в лабораторных тестах: диаграммы остаются стандартным форматом для финансовой отчетности, BI-панелей, научных публикаций и корпоративных презентаций.

Интерес к таким системам растет по мере перехода компаний от чат-ботов к прикладной автоматизации. Аналитические платформы вроде Microsoft Power BI, Tableau и Google Looker давно умеют строить визуализации, однако их интерпретация в свободной форме обычно требует человека или отдельного слоя аналитики. Если небольшие открытые модели действительно смогут стабильно читать графики на уровне крупных закрытых решений, это снизит стоимость внедрения для компаний, которым нужен локальный запуск без постоянных затрат на API.

Следующий этап для ChartNet понятен: больше типов визуализаций и более сложные задачи, где нужно не просто считать столбцы, а связывать несколько графиков и делать выводы по контексту. Именно на этом участке у корпоративного ИИ сейчас остается много ручной работы, а спрос на такие функции растет быстрее, чем готовность компаний платить за самые крупные модели.

Илья Игнатов
Технический журналист и новостник. Окончил МТУСИ по специальности «Информационная безопасность». Пишет о железе, софте и потребительской электронике с 2018 года. Верит, что хорошая новость — это когда всё по делу и без воды.

Leave a reply