Основы
Сам по себе адаптер не добавляет никаких новых функций, он просто позволяет использовать модели Yandex Cloud через OpenAI SDK.
Поддерживаемые модели
Генерация текста
Адаптер преобразует ответы от Yandex Cloud в ответы OpenAI для обычной генерации, стримингового режима, с tools.
Вы можете использовать короткие названия моделей в параметре model
, например:
yandexgpt/rc
yandexgpt-lite/latest
llama/latest
llama-lite/latest
Также можно использовать полные uri, например:
gpt://{FOLDER_ID}/yandexgpt/rc
ds://{FOLDER_ID}/{MODEL_NAME}/latest
ds://{MODEL_ID}
(старый формат)
Также вы можете указывать модели OpenAI (например, gpt-4o
). Подробнее в разделе Маппинг моделей.
Deprecated режим работы с инструментами function calling и сообщения assistant
с результатом работы инструменто в не поддерживается адаптером. Вместо этого используйте tool_calls
и сообщения с ролью tool
.
Embeddings
Адаптер может принимать несколько документов (текстов) за 1 синхронный запрос. Но в YC FOMO нет батчевой синхронной обработки эмбеддингов. Поэтому внутри себя адаптер он будет стараться обработать батч как можно быстрее в соответствии с вашей квотой.
Вы можете использовать короткие названия моделей в параметре model
, например:
text-search-doc/latest
text-search-query/latest
Также можно использовать полные uri, например:
emb://{FOLDER_ID}/text-search-doc/latest
Также вы можете указывать модели OpenAI (например, text-embedding-3-small
). Подробнее в разделе Маппинг моделей.
Расширенный функционал
Для работы с Foundational Models, в купе с данным адаптером, рекомендуется использовать liteLLM proxy. Это позволит настроить:
- ограничени на количество параллельных генераций со своей стороны
- огромное количество настроек для командной работы
- огромное количество настроек для аутентификации
- огромное количество настроек для бюджетов
- огромное количество настроек для логирования, метрик, алертов
- огромное количество настроек вообще