Nvidia выпустила NVLM 1.0 – собственную мультимодальную LLM, которая на некоторых тестах опережает GPT-4o

NVLM 1.0 (NVIDIA Vision Language Model) – это семейство открытых мультимодальных LLM, состоящее из моделей NVLM-D (Decoder-only Model), NVLM-X (X-attention Model) и NVLM-H (Hybrid Model) на 34B и 72B. Модели особенно хорошо показывают себя на визуальных задачах. Например, на бенчмарке OCRBench, который проверяет способность модели считывать текст с картинки, NVLM-D обогнала даже GPT-4o – последнюю мультимодальную модель от OpenAI. А еще модель понимает мемы, разбирает человеческий почерк и хорошо отвечает на вопросы, чувствительные к точному местоположению чего-либо на картинке.

На вопросах по математике модель тоже выделяется: обгоняет LLM от Google и всего на 3 пункта отстает от ведущей модели Claude 3.5 известного стартапа Anthropic. Внизу в таблице представлены все опубликованные тесты, и обратите внимание, насколько высоких относительно других открытых моделей (даже бОльшего размера) результатов удалось добиться Nvidia.

Назад