Sizing i architektura infrastruktury
Dobieramy GPU, serwery, klastrowanie, high availability i disaster recovery. Pracujemy między innymi z NVIDIA H100, H200, A100 i L40 oraz serwerami Lenovo ThinkSystem GPU.
Wdrażamy lokalne modele językowe - takie jak Llama, Mistral, Qwen, DeepSeek czy Phi - w infrastrukturze klienta. To rozwiązanie dla organizacji, które potrzebują pełnej kontroli nad danymi, ograniczenia zależności od publicznej chmury i możliwości uruchamiania AI w środowisku izolowanym.
Dane krytyczne, dokumenty, prompty i odpowiedzi mogą pozostać w infrastrukturze organizacji. Dzięki temu firma ogranicza ryzyko niekontrolowanego wysyłania informacji poza własne środowisko i może lepiej dopasować architekturę AI do wymagań bezpieczeństwa oraz zgodności.
Organizacja decyduje, jaki model jest używany, w jakiej wersji, na jakiej infrastrukturze i z jakimi ograniczeniami. Możliwe jest zarządzanie wersjami modelu, konfiguracją inferencji, parametrami bezpieczeństwa, monitoringiem jakości oraz sposobem aktualizacji środowiska.
W modelu on-premise koszt opiera się głównie na infrastrukturze, utrzymaniu i rozwoju środowiska, a nie wyłącznie na rozliczeniu za tokeny. Przy wysokim wolumenie zapytań i długim horyzoncie wykorzystania może to dawać większą przewidywalność kosztową niż usługi rozliczane za tokeny.
LLM on-premise pomaga spełnić wymagania organizacji, które muszą szczególnie kontrolować przetwarzanie danych: banków, podmiotów medycznych, sektora publicznego, obronności i infrastruktury krytycznej. Architektura może uwzględniać separację środowisk, kontrolę dostępu, logowanie użycia, ścieżkę audytu i brak zależności od publicznego API.
Dobieramy GPU, serwery, klastrowanie, high availability i disaster recovery. Pracujemy między innymi z NVIDIA H100, H200, A100 i L40 oraz serwerami Lenovo ThinkSystem GPU.
Wdrażamy modele Llama, Mistral, Qwen, DeepSeek i Phi w wariantach dopasowanych do wymagań wydajnościowych i kosztowych. Zakres może obejmować quantization 4-bit lub 8-bit oraz serving z wykorzystaniem vLLM, TGI lub Ollama.
Budujemy rozwiązania RAG oparte na lokalnych bazach wektorowych, takich jak pgvector, Qdrant lub Weaviate. Dane, dokumenty i embeddingi pozostają w tym samym kontrolowanym środowisku co model.
Realizujemy LoRA, QLoRA lub full fine-tuning dla scenariuszy, w których model generyczny nie wystarcza. Dotyczy to między innymi terminologii branżowej, procedur wewnętrznych i specyficznych klas dokumentów.
Projektujemy monitoring jakości odpowiedzi, latency, throughput i kosztu działania rozwiązania. Wdrażamy procesy aktualizacji modeli, kontrolę wersji oraz audit trail.
Przed uruchomieniem produkcyjnym wykonujemy AI Security Review obejmujący testy prompt injection, sandboxing narzędzi, walidację retrievalu i zabezpieczenie infrastruktury GPU.
Zaczynamy od analizy scenariusza użycia. Sprawdzamy, jaki model będzie wystarczający, jakie są wymagania dotyczące latency, throughput i SLA oraz jakie dane mają być dostępne dla modelu.
Na tej podstawie przygotowujemy sizing infrastruktury, rekomendację modelu i architekturę rozwiązania. Określamy również, czy właściwą ścieżką jest RAG, fine-tuning, model hybrydowy czy klasyczne wdrożenie modelu open-weight.
Pierwsze MVP realizujemy zwykle w horyzoncie 8-12 tygodni. Mierzymy jakość odpowiedzi, wydajność, koszt obsługi zapytań i dopasowanie modelu do scenariusza biznesowego. Przed uruchomieniem produkcyjnym wdrażamy monitoring, wersjonowanie modeli, procedury utrzymaniowe oraz AI Security Review.
Stack technologiczny
Doświadczenie zespołu w obszarze AI, infrastruktury enterprise i środowisk on-premise potwierdza gotowość SNOK do realizacji projektów prywatnej infrastruktury AI.
Bank w sektorze finansowym
Wdrożenie LLM on-premise do pracy z dokumentacją compliance. Rozwiązanie opierało się na modelu 70B uruchomionym na infrastrukturze GPU H100 i dostrojeniu do wewnętrznych procedur organizacji.
Jednostka sektora publicznego
Lokalne środowisko LLM do pracy z danymi klasyfikowanymi. Projekt obejmował izolowaną architekturę, kontrolę dostępu oraz brak zewnętrznego egressu danych.
Operator infrastruktury krytycznej
Asystent LLM dla zespołów OT/SCADA, wspierający pracę z dokumentacją techniczną i wymaganiami NIS2. Rozwiązanie zostało zaprojektowane z uwzględnieniem kontroli dostępu, bezpieczeństwa danych i wymagań środowiska on-premise.
Dla wielu zastosowań enterprise lokalne modele mogą być wystarczające, szczególnie gdy są dobrze dobrane, uruchomione na odpowiedniej infrastrukturze i połączone z wiedzą organizacji przez RAG lub fine-tuning. Dla najbardziej wymagających zadań modele chmurowe nadal mogą mieć przewagę, ale różnica jakościowa w wielu scenariuszach stale się zmniejsza.
To zależy od modelu, oczekiwanego throughputu, latency i trybu uruchomienia. Llama 3.3 8B może działać na pojedynczym GPU klasy A100 lub L40. Llama 3.3 70B w quantization 4-bit może wymagać 1x H100 80GB albo 2x A100. Pełny model 70B FP16 może wymagać klastra 4x H100. SNOK wykonuje sizing przed zakupem infrastruktury.
Dla niskiej skali LLM on-premise zwykle będzie droższy ze względu na CAPEX infrastruktury. Dla wysokiej skali, milionów tokenów dziennie i długiego horyzontu wykorzystania może być korzystniejszy kosztowo. Dodatkową wartością jest kontrola danych i zgodność z wymaganiami organizacji, których publiczne usługi AI mogą nie spełniać.
Niektórzy producenci, w tym Anthropic i OpenAI, nie udostępniają swoich modeli do klasycznego wdrożenia on-premise. Dostępne są natomiast modele open-weight, takie jak Llama, Mistral, Qwen, DeepSeek i Phi. Możliwe są także scenariusze z Azure OpenAI w prywatnym tenancie Azure, jeżeli model bezpieczeństwa organizacji na to pozwala.