Pavel Zloi

Канал простого программиста, рассказываю про ИТ, Linux, AI, ChatGPT, Docker и тд.

Отправить донат:
https://pay.cloudtips.ru/p/937f48ac

Исходники моих проектов:
https://github.com/EvilFreelancer

Где меня искать:
https://dzen.ru/a/ZGI0ytgNQUkpkIME

Recent Posts

Вчера вечером прочёл про Open DeepResearch от инженеров Hugging Face, говорят они всего за сутки смогли воспроизвести при помощи smolagents аналог решения от OpenAI.

Ну так вот, Open DeepResearch любопытно обрабатывает запрос пользователя, пытается писать сразу код на Python и интерпретировать его при помощи CodeAgent (это такая песочница для выполнения кода, что-то вроде защищённого тула), если код не работает то система пробует исправить его до тех пор пока либо количество повторов не иссякнет, либо скрипт наконец не заработает. Полученный скрипт выполняет задачу описанную пользователем после чего ответ присылается пользователю.

Поддерживаются разные поставщики LLM, можно даже свой локальный использовать, главное чтобы он был совместим с OpenAI клиентом, так что через ollama или vllm не сложно будет завести данную систему на своём железе. Есть и бесплатные поставщики модели DeepSeek-R1, так что можно какие-то отдельные задачи делать используя самую лучшую на сегодняшний день thinking модель.

Cистема пишет занятные скрипты и комментарии по ходу дела, можно заказать какой-нибудь обзор страничек в интернете (для этого есть тул WebAgent), можно добавить тул который будет у пользователя запрашивать какие-то дополнительные текстовые уточнения, есть тул для чтения данных из файлов, ещё понравился тул поиска по Arxiv и некоторые другие тулы.

Однако, мне пока что не удалось добиться хоть какого бы то ни было полезного результата "исследования", он если и похож на то что я просил то исключительно в стиле "в темноте если прищурится и вдали рассматривать некий контур", так что пока отношусь, что к OpenAI DeepResearch, что к Hugging Face DeepResearch скептически.

Вероятно надо давать системе очень подробное техническое задание, коих у меня накопилось уже порядочно, в общем буду продолжать наблюдения.

PS. Придерживаюсь того же мнения, что высказал Старший Авгур, мне тоже показалось, что Open DeepResearch by Hugging Face Team это просто реклама через хайп трейн проекта smolagents.

С большим удовольствием прочёл публикацию "Building effective agents" вышедшую из под пера инженеров работающих в Anthropic.

Если кратко, то в ней авторы провели замечательный обзор и разбор методологий реализации проектов на базе больших языковых моделей (LLM), но самое главное, что в статье понравилось это примеры того когда тот или иной метод подходит для решения проблемы, а когда нет.

Например цитата про то когда в системе нужен роутер:
- Перенаправление различных типов запросов на обслуживание клиентов (общие вопросы, запросы на возврат, техническая поддержка) в различные последующие процессы, подсказки и инструменты;
- Направление простых/распространенных вопросов в более мелкие модели, такие как Claude 3.5 Haiku, а сложных/необычных вопросов в более эффективные модели, такие как Claude 3.5 Sonnet, для оптимизации затрат и скорости.

Вот список всех тем, которые затрагивает публикация: цепочки моделей, помянутый ранее роутинг, параллелизм, оркестрация разных воркеров (тулов), валидация/оптимизация, ну и конечно же хайпующие агенты.

В общем рекомендую для ознакомления всем кто интересуется построением систем на базе БЯМ'ов.

Всем привет! Вчера на flowise развлекался тем, что собрал две схемы RAG в формате No Code для работы с документацией ManticoreSearch Engine (для удобства сделал отдельный реп manticore-docs только с документацией), ну не даёт мне покоя этот проект, в общем используя подход "RAG это корзина для бумаги и шредер вместо крышки" собрал:

(v1) простенькую схему которая похожа на моё текущее решение, доступное в боте @manticoresearch_ai_bot, однако, результат разочаровал, потому как во flowise не изобрели реранкеры и отсортировать документы полученные на шаге векторного поиска попросту нельзя. В процессе сборки выяснилось, что не стоит использовать InMemory векторную базу, так как каждый раз при каждом запросе происходит реиндексация, что несколько неудобно, так что пошёл по проторенной дорожке с pgvector.

(v2) чуть усложнил подход используя концепцию LLM агентов и представил векторную базу в качестве тула, перепробовал с два десятка моделей, по итогу получилось даже хуже чем в v1.

В общем для удобства мне на самом деле нужен только реранкер, но результат по прежнему разочаровывает даже на базовых задачках, пока что нет ничего лучше чем загнать в контекст ChatGPT всю документацию и просить давать ответы на запросы пользователя.

PS. Возможности использовать ManticoreSearch в качестве вектороной базы во flowise к сожалению не предусмотрели, а ещё если бы она и была работать с ней как с полнотекстовым поиском будет не просто (через http клиента по API разве что).

И вот когда мне наконец удалось скомпилировать whisper-server из исходников (тег v1.7.4) испытание запуском показало краш, начал перебирать модели, оказалось, что без проблем запускаются только модели Whisper до base включительно (в смысле tiny, small и base)

Нюанс в том, что всё что выше запускаться отказывалось, бинарник крашился со странной ошибкой Bus error (core dumped) гуглёж которой ничего толкового не показал, благо в чате мне подсказали почитать док EnvironmentVariables, а в частности про:

SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS

Оказалось, что если у этой переменной положение не 0 (а оно как-раз 1 по умолчанию на Linux) то загрузка весов модели происходит батчами, что и приводит к ошибке.

Финальный вариант Dockerfile.intel можно найти в моём репозитории docker-whisper-server, а вот для сравнения версия Dockerfile под CUDA, как видно отличия минимальны, а пример docker-compose.yml я добавил в README проекта.

UPD. Далее буду пробовать всякие разные сравнительные тесты железки супротив RTX 3050, которая находится на том же сервере, результатами тестов поделюсь отдельно.

Чтобы запустить в Docker-контейнере на этой видеокарте проект whisper.cpp пришлось реально попотеть, изначально пробовал сделать шептуна используя от эту инструкцию, но ничего не получалось, да и неактуальна она в отдельных местах, пошёл гуглить и нашёл пример Dockerfile, который сам по себе хоть и мало мне помог, но показал что есть официальные FROM образы от Intel на Docker Hub.

Пошёл смотреть и в этот момент предо мной разверзлись океанические бездны, оказалось у Intel есть неймспейс intel с целой россыпью разных платформ для решения ML задач в Docker, а для тех кому сложно/скучно разбираться с базовыми контейнерами есть неймспейс intelanalytics с интеграциями различных популярных проектов (к сожалению многие контейнеры тут весят от 6 до 8Гб, так что для прода такое себе).

Отдельно отмечу контейнер intel/oneapi-basekit (весит почти 4Гб) который оказался самым полезный под мои задачи, он содержит в себе всё необходимое для компиляции приложений использующих видеокарты от Intel, его ближайший аналог это контейнер nvidia/cuda с тегом devel, собственно в бейскит я и решил реализовать сборку контейнера whisper.cpp.

Всем привет! Набросал тут лонгрид, но решил побить его на части, чтобы проще было читать, ну так вот.

Пару дней возился с моей новёхонькой видеокартой Intel Arc A770 (16Гб), многое читал и потому многое узнал об инфраструктуре Intel и про то, что нужны свежие ядра Linux (от 6.12 включительно и выше) чтобы свежие драйверы работали корректно, и про то что есть разные бренчи (Client, Data Center и FPGA) и вариации (LTS и Rolling) у этих драйверов, а ещё что драйверы под Ubuntu Devel прекрасно работают на Debian Trixie, и про Intel oneAPI подсистему.

Благо в Intel похоже работают скучные и педантичные инженеры типа меня, которые не чураются написанием документации посему разобраться с большинством проблем не составляет особого труда, всё уже разжевано и разложено по полочкам до нас, даже в некотором смысле скучно.

Но без сложности конечно же не обошлось, всё началось когда я наконец подготовил операционную систему и пошёл по тропинке машинного лёрнингизма, собственно и эту карточку для только для ML и брал, а если точнее то для Whisper.

Приехала моя Intel Arc A770, мне эту карту очень рекомендовали, да и как можно отказаться от этой крохи, которая пусть и не самая шустрая, но занимает всего два слота и имеет на борту аж целых 16Гб VRAM.

Хмм, приложение DeepSeek и правда Топ-1 в мировом AppStore, а я думал это фотошоп, пойду пожалуй тоже себе его скачаю.

Залил на HuggingFace датасет с морфемами русского языка ruMorphemes, созданный в рамках проекта нейросетевой модели ruMorpheme, датасет был собран скриптом parse.py с сайта morphemeonline.ru, в изначальном наборе данных было примерно 1.5M слов, из них удалось скравлить лишь 183k, остальных на сайте попросту не оказалось.

Вчера вечером думал над сбором датасета для проекта ruMorpheme, данный проект позволяет обучить модель способную извлекать морфемы из предложенных слов, но чтобы обучить такую модель нужен специальный датасет, изначально я использовать словарь Тихонова, однако…

Далее попробовал активно набирающий звёздочки WebRover

Проект тоже как и Operator и web-ui предполагает автоматизацию задач через браузер, исходные коды предусмотрительно разделёны на две части:

backend

Приложение на python использующее fastapi для имплементации OpenAI-подобного API-сервера, никакие модели локально не запускает, торч не использует, работает исключительно в формате обёртки gpt-4o, возможность выбрать модель отсутствует. Документация для запуска бэкенда кривая, в ней не сказано, что ещё надо поставить fastapi и uvicorn, а команда запуска из README просто ничего не делает.

А вот чтобы запустить бэк надо скопировать содержимое из app на уровень выше, в папку backend, поправить в скрипте main.py в импортах вместо import .webrover сделать import webrover (без точки). Далее запускается это всё не через uvicorn что-то там, а через python main.py.

Чтобы использовать прокси через LangChain нужно добавить параметр openai_proxy в скрипте webrover.py.

llm_openai = ChatOpenAI(
  model="gpt-4o", temperature=0,
  openai_proxy="socks5://127.0.0.1:1081"
)

Ну и дальше (при условии, что у вас есть волшебные туннели) всё начинает работать как надо.

frontend

Это есть запускаемый через "npm run dev" сайтик на JavaScript, отправляющий запросы на backend, там же отображается лог работы модели, какие операции она выполнила и так далее, в коде захардкожен адрес бэкенда на localhost:8000, поэтому если вам нужна децентрализованная система с API сервером придётся чуть повозиться, НО, бэкенд на самом деле это не просто API-обёртка, это ещё и собственно воркер, который выполняет запросы в браузере, так что разворачивая бэк на удалённой машине (или виртуалке) потребуется графический интерфейс и бинарники хромиума.

———

В общем на данный момент это пока самая простая и удобная в плане настройки и эксплуатации система, но к сожалению придётся повозиться, чтобы заставить её работать с ollama или vllm, да и с VLM-моделями подходящими, умеющими в рассуждения на поприще опенсорса пока туговато, но это пока что, посмотрим что будет дальше.

#operator

llm_openai = ChatOpenAI(
  model="gpt-4o", temperature=0,
  openai_proxy="socks5://127.0.0.1:1081"
)

Всем привет! Продолжаю эксперименты по запуску "Operator дома" в виде разных проектов по автоматизации работы на компьютере.

Ну так вот, следующим на очереди в моём списке был проект UI-TARS-desktop, немного провозившись с его запуском мне таки удалось запустить серверную часть, из проблем которые возникли были:
1. в документации предложено использовать vllm собранный под cuda 12.4 (а у меня на сервере установлена 12.6);
2. попытка запустить модель 7B-DPO успехом не увенчалась, ей мало 24Гб VRAM моей RTX 4090, поэтому пришлось запустить 2B-SFT версию модели, которая к слову скушала чуть больше 19Гб VRAM, не знаю почему разработчики сразу не предусмотрели возможность квантизации на лету

Ну и пошёл скачивать клиентскую UI утилиту для работы с сервером, как оказалось разработчик опубликовал версии UI только для macOS и Windows, а вот для моего любимого Debian GNU/Linux клиента не оказалось.

Поэтому пришлось стучаться на сервеную апишку через скриптик из документации про разработку GUI, для этого я сделал скрин рабочего стола, чуть подправил код из доки и выполнил запрос, просил я модель открыть гугл хром, только и всего, в ответе она прислала мне координаты, несколько запусков показало, что координаты не всегда одни и те же, вероятно это связано с малым размером модели.

Короче потанцевал есть, но его надо ещё развить.

#operator

Далее наткнулся на чуть более продвинутый проект, не просто в браузере кнопошки тыкать, а прям полноценно управлять компьютером.

CogAgent

Проект позволяет автоматизировать работу целой рабочий станции (будь то macOS или Windows) используя модель CogAgent 9B, подробности в документации.

Если кратко, то пользователю нужно установить серверную часть на машину с видеокартой на которой будет трудиться нейронка, а клиентскую часть туда где будут происходить мытарства. По умолчанию предполагается, что и сервер и клиент установлены на одной и той же машине, поэтому пути и адреса в примерах ведут на localhost, но можно это дело децентрализовать, что я при помощи виртуалочки с Ubuntu 24.04 и сделал.

Правда, мне так и не удалось заставить систему выполнить хоть что-нибудь полезное, даже программы запустить она и то не смогла, она кликала и кликала, но всё никак не могла накликать то что я от неё ожидал, возможно там сегментация работает криво из-за того, что модель обучалась под интефрейс макоси или ещё чего, но мне данный проект заставить работать к сожалению не удалось.

PS. Серверной части с нейронкой надо 22Гб видеопамяти и это без квантизации, так что потенциально запустить вполне реально и на более слабом железе.

PPS. Модель обучалась на китайском, поэтому в логе работы иероглифы.

#operator

На гребне хайпа Operator ChatGPT

Как многим должно быть уже известно малоизвестная инди-студия по имени OpenAI выпускающая большие языковые модели ChatGPT намедни зарелизила систему под названием Operator, если кратко то этот проект представляет из себя автоматизацию работы с браузером через визуальную языковую модель (VLM), решил пощупать, но оказалось, что доступ к указанному проекту получили далеко не все, мне вот например ещё не дали.

Посему за неимением доступов к оному проекту решил прошерстить просторы интернетов на предмет наличия публичных аналогов, как оказалось таких проектов предостаточно, самые любопытные из них это:

web-ui

Данный проект реализует похожий подход, но в немного более локализованном формате, он позволяет автоматизировать работу только браузера (а если точнее то Хрома), очень прост в установке, достаточно склонировать реп, скопировать .env из примера. В переменных окружения нужно само собой указать ключик для своей любимой вендорлок нейросети, хотя гипотетически можно и ollama использовать, но у меня это так и не вышло, то на GPU не хочет инференсить, то ошибки в логах.

Короче плюнул я на это дело и пошёл подключаться к ChatGPT, по итогу получилось как-то сомнительно, я попросил модель открыть гугл и найти мой блог на дзене, после чего вернуть ссылку на него.

По итогу получилось средненько, плюс оказалось, что полный функционал (включая VLM) хорошо работает только на gpt-4o, так как gpt-4 и 3.5 не умеют работать с изображениями, таки вот нюансики.

#operator

See more posts

Open in Telegram