Vision
Vision позволяет пользователям загружать изображения, чтобы агент мог их анализировать. Агент передаёт изображение модели, способной обрабатывать изображения, которая описывает его, кратко излагает содержимое или отвечает на вопросы о том, что на нём изображено.
Включите
В Agent Builder включите функцию vision. Vision работает только с моделями, которые поддерживают изображения на входе; если выбранная модель этого не поддерживает, элемент загрузки будет отключён. Чтобы снова его включить, переключитесь на модель с поддержкой vision в параметрах модели.
Использование
Пользователи прикрепляют к сообщению изображение — снимок экрана, фотографию, график или диаграмму. Они могут задать любой вопрос, для ответа на который нужно прочитать изображение: «Что не так с этим планом запроса?», «Распознай текст на этом снимке экрана» или «Сравни эту панель мониторинга с прошлой неделей».
Агент воспринимает изображение как часть контекста сообщения, поэтому в рамках того же обращения в уточняющих вопросах можно ссылаться на увиденное без повторной загрузки изображения.
Комбинируйте с другими инструментами
Vision хорошо сочетается с интерпретатором кода для анализа изображений — например, агент считывает числа со скриншота, а затем запускает Python, чтобы вычислить итоговые значения, — а также с веб-поиском, когда на изображении упоминается что-то, что модели нужно найти.