Перейти к основному содержимому
Перейти к основному содержимому

Vision

Beta feature. Learn more.

Vision позволяет пользователям загружать изображения, чтобы агент мог их анализировать. Агент передаёт изображение модели, способной обрабатывать изображения, которая описывает его, кратко излагает содержимое или отвечает на вопросы о том, что на нём изображено.

Включите

В Agent Builder включите функцию vision. Vision работает только с моделями, которые поддерживают изображения на входе; если выбранная модель этого не поддерживает, элемент загрузки будет отключён. Чтобы снова его включить, переключитесь на модель с поддержкой vision в параметрах модели.

Использование

Пользователи прикрепляют к сообщению изображение — снимок экрана, фотографию, график или диаграмму. Они могут задать любой вопрос, для ответа на который нужно прочитать изображение: «Что не так с этим планом запроса?», «Распознай текст на этом снимке экрана» или «Сравни эту панель мониторинга с прошлой неделей».

Агент воспринимает изображение как часть контекста сообщения, поэтому в рамках того же обращения в уточняющих вопросах можно ссылаться на увиденное без повторной загрузки изображения.

Комбинируйте с другими инструментами

Vision хорошо сочетается с интерпретатором кода для анализа изображений — например, агент считывает числа со скриншота, а затем запускает Python, чтобы вычислить итоговые значения, — а также с веб-поиском, когда на изображении упоминается что-то, что модели нужно найти.