Strukturálatlan dokumentumfeldolgozási stratégiák

2024.12.05

Meglátásunk szerint három különböző megközelítést érdemes figyelembe venni, amikor strukturálatlan dokumentumok feldolgozására keresünk megoldást:

Felhőalapú dokumentumfeldolgozási szolgáltatások
Saját fejlesztésű nagy nyelvi modellek (LLM-ek)
Nyílt forráskódú nagy nyelvi modellek (LLM-ek)

Felhőalapú dokumentumfeldolgozási szolgáltatások
A felhőszolgáltatók speciális eszközöket kínálnak az adatok kinyerésére, például:

AWS (Textract)
Azure (AI Document Intelligence)
Google (Document AI)

Ezek a megoldások hasonlóak, mind rendelkeznek számos beépített funkcióval, mint például az OCR (optikai karakterfelismerés), táblázatok kinyerése és szűrők, továbbá alapértelmezés szerint többféle dokumentumformátumot is támogatnak. Nincs lehetőség arra, hogy a saját szerverinken használjuk, az integrációhoz API használatára van szükség, így a forrásdokumentumokat a felhőbe kell feltölteni.

Előnyök:

Könnyű indulás
Pontosság
Méretezhetőség
Nincs szükség helyi szerverinfrastruktúrára

Hátrányok:

Szolgáltatótól való függőség
Korlátozott rugalmasság
Adatvédelemmel kapcsolatos aggályok

Saját fejlesztésű nagy nyelvi modellek (LLM-ek)
Az ismert AI-szolgáltatók API-kon keresztül kínálnak hozzáférést nagy nyelvi modelljeikhez. Ebben a megközelítésben a dokumentumot előkészítés után az API-n keresztül kell beküldeni, a feldolgozás pedig a szolgáltató infrastruktúrájában történik.

Saját fejlesztésű LLM-ek:

OpenAI GPT
Anthropic Claude
Google Gemini
Mistral AI

Az OpenAI használatát javasoljuk, mivel jelenleg ez a legkorszerűbb AI-megoldás a piacon. Az OpenAI a Microsoft Azure adatközpontjait használja, lehetőséget kínál az adatmegőrzés kizárására, és igény esetén EU-s adatközpontok is elérhetők.

Előnyök:

Rugalmasság
Jobb kontextusértés
Gyors modellfejlesztés
Multimodalitás (szöveg és kép bemenet támogatása)
További funkciókhoz is használható, például ügyfélszolgálati chatbotokhoz
Nincs szükség helyi szerverinfrastruktúrára

Hátrányok:

Adatvédelemmel kapcsolatos aggályok, a forrásdokumentumokat a szolgáltatóhoz kell feltölteni
Szolgáltatótól való függőség (bár az OpenAI API-ját sok más LLM is használja)
„Fekete doboz” működés

Nyílt forráskódú nagy nyelvi modellek (LLM-ek)
A nyílt forráskódú nagy nyelvi modellek olyan generatív AI-megoldások, amelyek helyben telepíthetők és továbbfejleszthetők. Az alapmodell alapos kezdeti képzéssel rendelkezik, amely lehetővé teszi a kontextus megértését, miközben specifikus célokra is finomhangolható.

Nyílt forráskódú/weights LLM-ekre néhány példa:

Meta Llama
Google Gemma

A Meta Llama modellt ajánljuk, amely gyorsan fejlődik, és multimodális képességekkel rendelkezik (a Llama3.2 például képeket is képes feldolgozni).

Előnyök:

Nincsenek adatvédelmi aggályok
Nincs szolgáltatótól való függőség
Egyedi megoldás hosszú távon a modell továbbképzésével
Kódbázis átláthatósága
Teljes kontroll az adatok fölött

Hátrányok:

Magasabb kezdeti költségek a helyi szerverinfrastruktúra miatt
A pontosság a modell méretétől függ; nagyobb modellhez komoly szerverteljesítmény szükséges
Korlátozott méretezhetőség
A szerverek kihasználtsága szélsőségesen változó, nem optimális

Következtetés
Az AI-modellek teljesítményét egy adott felhasználási esetben nehéz előre megjósolni. Egyrészt a modellek rendkívül összetettek és nem-determinisztikusak, másrészt a bemeneti PDF-dokumentumok is heterogének lehetnek: némelyek szkennelt formátumúak, és a formázásuk is eltérő. Figyelembe kell venni, hogy ez a terület nagyon gyorsan változik, ezért nem célszerű hosszú távon egyetlen szállító vagy megoldás mellett elköteleződni.

Véleményünk szerint törekedni kell arra, hogy a nyelvi modellt könnyen cserélhető módon integráljuk, így az újabb verziók vagy fejlettebb modellek megjelenésekor azok előnyeit egyszerűbben kiaknázhatjuk, csökkentve ezzel a szállítókhoz való kötöttséget. Részletes tanácsaadásért forduljon Semantic AI üzletágunkhoz.

Kenéz András, Fejlesztési Vezető

< Vissza