39 подписчиков

Как все настроить? Представим, что ты — волшебник, а твой компьютер — волшебная книга

14 мая 202514 мая 2025

2 мин

Как все настроить? Представим, что ты — волшебник, а твой компьютер — волшебная книга. Сейчас мы настроим заклинание, чтобы твоя камера «смотрела», «понимала», что видит, и «рассказывала» тебе об этом. Вот как это работает и как всё подключить, очень просто, шаг за шагом: 🔧 Что это вообще? 1. Веб-камера — это как глаз. 2. SmolVLM — это мозг, который смотрит на изображение и говорит, что он видит. 3. llama.cpp сервер — это помощник, который умеет быстро думать с помощью искусственного интеллекта. 4. @huggingface — это как магазин с мозгами и знаниями для таких помощников. 5. Всё это запускается на твоём MacBook, без интернета. Только твой компьютер и магия! 🪄 Как всё включить (простыми словами): Шаг 1: Установи “волшебные инструменты” Скачай и установи: • Homebrew — это как магазинчик для программ. 👉 В терминале: /bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)" • Python и Git через Homebrew: brew install python git Шаг 2: Устано

Вот как это работает и как всё подключить, очень просто, шаг за шагом:

🔧 Что это вообще?

1. Веб-камера — это как глаз.

2. SmolVLM — это мозг, который смотрит на изображение и говорит, что он видит.

3. llama.cpp сервер — это помощник, который умеет быстро думать с помощью искусственного интеллекта.

4. @huggingface — это как магазин с мозгами и знаниями для таких помощников.

5. Всё это запускается на твоём MacBook, без интернета. Только твой компьютер и магия!

🪄 Как всё включить (простыми словами):

Шаг 1: Установи “волшебные инструменты”

Скачай и установи:

• Homebrew — это как магазинчик для программ.

👉 В терминале:

/bin/bash -c "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/HEAD/install.sh)"

• Python и Git через Homebrew:

brew install python git

Шаг 2: Установи llama.cpp

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp

make

Это создаёт локальный сервер с искусственным интеллектом.

Шаг 3: Скачай модель (мозг)

Зайди на сайт huggingface.co, найди модель типа SmolVLM или llama 2 в .gguf формате и скачай её.

Положи её в папку llama.cpp/models/.

Шаг 4: Запусти сервер

./server -m models/тво_модель.gguf

Шаг 5: Запусти веб-камеру + SmolVLM

Скачай SmolVLM демо и запусти его. Там уже есть код, который открывает камеру и посылает картинку в модель.

Примерно так (если использовать Python):

pip install opencv-python transformers

python camera_demo.py

🧠 Что будет происходить:

• Камера делает снимок.

• AI смотрит на него и говорит: «Я вижу: котёнка, лежащего на подушке».

• Ты видишь это в тексте прямо на экране.

Вот простой скрипт на Python, который использует камеру и отправляет изображение в модель для описания. Мы используем opencv для камеры и библиотеку transformers от HuggingFace. В этом примере мы подгружаем SmolVLM, который может описывать, что он «видит» на картинке.

✅ Что нужно установить заранее:

pip install opencv-python transformers torch torchvision

📸 Скрипт: camera_smolvlm_demo.py

import cv2

import torch

from transformers import AutoProcessor, AutoModelForVision2Seq

# Загружаем модель и процессор

processor = AutoProcessor.from_pretrained("microsoft/speecht5_vl")

model = AutoModelForVision2Seq.from_pretrained("microsoft/speecht5_vl")

# Подключаем камеру (0 — это встроенная)

cap = cv2.VideoCapture(0)

print("Нажми Q, чтобы выйти")

while True:

ret, frame = cap.read()

if not ret:

print("Камера не работает")

break

# Показываем изображение

cv2.imshow('Webcam', frame)

# Каждые N кадров или по нажатию анализировать изображение

key = cv2.waitKey(1)

if key == ord(' '): # пробел — анализ

print("⚙ Анализирую изображение...")

# Преобразуем изображение для модели

image_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)

inputs = processor(images=image_rgb, return_tensors="pt")

with torch.no_grad():

output = model.generate(**inputs)

description = processor.decode(output[0], skip_special_tokens=True)

print("🧠 Модель говорит:", description)

if key == ord('q'):

break

cap.release()

cv2.destroyAllWindows()

🧪 Как использовать:

1. Запусти скрипт:

python camera_smolvlm_demo.py

2. Откроется окно с камерой.

3. Нажми пробел, чтобы AI описал изображение.

4. Нажми Q, чтобы выйти.

Если скрипт с первого раза не пойдет, используйте GPT-o4-mini-high - она отлично шарит в коде.