Guru Meditation/projektit/Universal Content Extractor
Sovellettu tekoäly · datainsinöörikäytäntö

Universal Content Extractor

Monilähteinen poiminta- ja uutisaggregaattimoottori — poimii tarinoita PDF-sanomalehdistä, verkkosivustoilta, RSS:stä ja sosiaalisesta mediasta, sitten segmentoi, ryhmittelee ja rankkaa ne personoiduksi syötteeksi, kaikki LLM-vaiheet paikallisesti pyörien.

on-premItsehostettu GemmaPostgreSQL + MilvusPDF + visio

01Yleiskatsaus

Universal Content Extractor kerää julkisia uutisia täysin erilaisista lähteistä — PDF-sanomalehdistä ja -aikakauslehdistä, avoimesta webistä, RSS/Atom-syötteistä ja sosiaalialustoilta — ja muuttaa tulvimisen koherentiksi, deduplikoiduksi, kieltenrajat ylittäväksi, personoiduksi syötteeksi. Määrittelevä suunnitteluvalinta: jokainen tekstinymmärryskappale ja sivulla oleva kuvantunnistus pyörii itsehostetulla Gemma-mallilla palvelimella, joten uutisten käsittely mittakaavassa ei maksa mitään kaupallisissa LLM-API-maksuissa.

02Minkä ongelman se ratkaisee

Uutisten aggregointi mittakaavassa tarkoittaa kahta vaikeaa ongelmaa kerralla: sisällön saaminen ulos muodoista, jotka taistelevat sinua vastaan (PDF-sanomalehti on taitto, ei artikkeliluettelo; verkkosivusto on merkintä anti-bottisuojausten takana), ja sitten tuloksen järkeistäminen kielten yli niin että se ei muutu kopioduplikaattiseinämäksi. Kaiken tämän tekeminen kaupallisilla LLM-malleilla tekisi per-artikkeli-kustannuksesta kieltävän. Paikallisen mallin ajaminen poistaa tämän katon — ja koska sisältö on julkisia uutisia, näkökulma on puhtaasti kustannustehokkuus, ei tietosuoja.

Tulos uutisia käsitellään mittakaavassa tehokkaasti nollalla per-artikkeli-mallilaskulla.

03Mitä rakensimme

Monilähteinen poiminta

  • PDF-sanomalehdet & -aikakauslehdet — tekoälysegmentointi "Flash"-putkilinjan kautta: PyMuPDF-tekstipoiminta, virtaava / inkrementaalinen segmentoija, per-sivu kuvankäsittely, aukeamapohjainen sivunkäsittely, ja monisivuinen artikkelinäkymä jatkaminen suomeksi, ruotsiksi ja englanniksi.
  • Web-kaavinta — CSS-valitsimet sekä Playwright JavaScript-renderöidyille sivuille.
  • RSS / Atom -syötteet.
  • Sosiaalinen media — X / Twitter, Facebook, Instagram ja LinkedIn.

Anti-tunnistus

Kaavinta mittakaavassa selviää kunnioittamattomien puolustuksen ansiosta: satunnaiset viiveet, käyttäjäagentin kierto, välityspalvelimen kierto, eksponentiaaliset takaisinastumiset ja katkaisija puhtaaseen takaisinvetäytymiseen kun lähde törmää.

Rikastaminen & syöte

Kun sisältö on sisällä, se rikastetaan: semanttinen ryhmittely kosinietäisyydellä (kynnys ~0,75), kieltenrajat ylittävä linkitys niin että sama tarina eri kielissä yhdistyy, tekoälyn synopsien generointi ja tapahtumien luokittelu. Personoitu syöte soveltaa sitten monialgoritmista rankkausta, deduplikointia ja käyttäjäpreferenssejä.

Paikallinen LLM

Itsehostettu Gemma-malli tekee kaiken tekstinymmärryksen ja sivulla olevan kuvantunnistuksen paikallisesti — lukeminen ja ymmärtäminen molemmat — mikä on se, mikä tekee tämän volyymin käsittelystä taloudellisesti kannattavaa.

04Tallennus & käyttöliittymät

Tietueet asuvat PostgreSQL:ssä; upotukset asuvat Milvus-vektoritietokannassa semanttista hakua ja ryhmittelyä varten. Päälle istuvat kolme käyttöliittymää: hallintapaneeli, REST-API ja uutissyöttökäyttöliittymä.

05Teknologia

Itsehostettu Gemma PyMuPDF Playwright PostgreSQL Milvus-vektoritietokanta Semanttinen ryhmittely ~0,75 REST-API FI / SV / EN
LähteetPDF · web · RSS/Atom · sosiaalinen media
LLMItsehostettu Gemma, täysin paikallinen
TallennusPostgreSQL + Milvus-vektorit
KäyttöliittymätHallintapaneeli · REST-API · syöttökäyttöliittymä
KäyttöönottoOn-prem

06Kohokohdat

  • "Flash" PDF-putkilinja, joka segmentoi sanomalehden taiton ja ompelee monisivuiset artikkelit FI / SV / EN -kielissä.
  • Web-, RSS- ja sosiaalisen median imunointi täydellisen anti-tunnistuskerroksen takana — kierrätys, takaisinastuminen ja katkaisija.
  • Semanttinen ryhmittely ja kieltenrajat ylittävä linkitys niin että yksi tarina ei ole kymmenen duplikaattia.
  • Personoitu syöte monialgoritmisella rankkauksella, deduplikoinnilla ja käyttäjäpreferensseillä.
  • Kaikki tekstinymmärrys ja sivulla oleva kuvantunnistus paikallisella Gemma-mallilla — nolla kaupallista LLM-API-maksua mittakaavassa.
  • PostgreSQL tietueille, Milvus vektorihaulle.

Aiheeseen liittyvät projektit