1 подписчик

🧠 ThakiCloud/SKILLRET-Embedding-8B

СегодняСегодня

1 мин

🧠 ThakiCloud/SKILLRET-Embedding-8B Эмбеддинговая модель для поиска нужного навыка по текстовому запросу пользователя. Дообучена на SkillRet для agent skill retrieval: по запросу находит релевантный skill из большой библиотеки. На тесте SkillRet completeness@15 у неё 0.884 — это значит, что в топе чаще оказываются все нужные навыки, а не один случайный. 🧠 AIDC-AI/Marco-DeepResearch-8B 8B-агент для глубокого веб-исследования с поиском, проверкой фактов и многошаговым выводом. Работает в контексте 128K и в их тестах под бюджетом 600 tool calls обходит другие 8B-агенты, а на xBench-DS-2505 набирает 82.0 — это уже уровень, где модель умеет не просто искать, а доводить расследование до проверяемого ответа. 🎙 postcn/Jeju-Standard_Korean_Translator Компактная 88M-модель для перевода между диалектом Чеджу и стандартным корейским в обе стороны. Её обучили с нуля на 1.4M пар и уложили в один чекпойнт с переключением направления префиксным токеном. На тесте BLEU 77.67 для Jeju→Standard и 60.

В ответ на пост

Эмбеддинговая модель для поиска нужного навыка по текстовому запросу пользователя.

Дообучена на SkillRet для agent skill retrieval: по запросу находит релевантный skill из большой библиотеки. На тесте SkillRet completeness@15 у неё 0.884 — это значит, что в топе чаще оказываются все нужные навыки, а не один случайный.

🧠 AIDC-AI/Marco-DeepResearch-8B

8B-агент для глубокого веб-исследования с поиском, проверкой фактов и многошаговым выводом.

Работает в контексте 128K и в их тестах под бюджетом 600 tool calls обходит другие 8B-агенты, а на xBench-DS-2505 набирает 82.0 — это уже уровень, где модель умеет не просто искать, а доводить расследование до проверяемого ответа.

🎙 postcn/Jeju-Standard_Korean_Translator

Компактная 88M-модель для перевода между диалектом Чеджу и стандартным корейским в обе стороны.

Её обучили с нуля на 1.4M пар и уложили в один чекпойнт с переключением направления префиксным токеном. На тесте BLEU 77.67 для Jeju→Standard и 60.97 для обратного направления, так что это не игрушка, а рабочая база для редкого диалекта.

🧠 z-lab/gemma-4-31B-it-DFlash

Draft-модель на block diffusion, которая ускоряет Gemma-4-31B-it за счёт параллельной генерации черновых токенов.

Генерация ускоряется до 5.8x на одной B300 при concurrency 1: drafter выдаёт пачку черновых токенов, а Gemma только верифицирует их. Это полезно там, где упираются не в качество базовой модели, а в скорость ответа.

🎁 mradermacher/Qwen3.5-9B-DeepSeek-V4

GGUF-сборка Qwen3.5-9B-DeepSeek-V4-Flash для запуска на потребительских 8-гигабайтных картах.

Квант весит 5.6 ГБ, поэтому модель уже помещается на RTX 3060 8GB и RTX 4060, в LM Studio или Ollama. Это переводит 9B-уровень из серверного режима в домашний.

#opensource