Universal Content Extractor — monilähteinen uutisaggregaatti

01Yleiskatsaus

Universal Content Extractor kerää julkisia uutisia täysin erilaisista lähteistä — PDF-sanomalehdistä ja -aikakauslehdistä, avoimesta webistä, RSS/Atom-syötteistä ja sosiaalialustoilta — ja muuttaa tulvimisen koherentiksi, deduplikoiduksi, kieltenrajat ylittäväksi, personoiduksi syötteeksi. Määrittelevä suunnitteluvalinta: jokainen tekstinymmärryskappale ja sivulla oleva kuvantunnistus pyörii itsehostetulla Gemma-mallilla palvelimella, joten uutisten käsittely mittakaavassa ei maksa mitään kaupallisissa LLM-API-maksuissa.

02Minkä ongelman se ratkaisee

Uutisten aggregointi mittakaavassa tarkoittaa kahta vaikeaa ongelmaa kerralla: sisällön saaminen ulos muodoista, jotka taistelevat sinua vastaan (PDF-sanomalehti on taitto, ei artikkeliluettelo; verkkosivusto on merkintä anti-bottisuojausten takana), ja sitten tuloksen järkeistäminen kielten yli niin että se ei muutu kopioduplikaattiseinämäksi. Kaiken tämän tekeminen kaupallisilla LLM-malleilla tekisi per-artikkeli-kustannuksesta kieltävän. Paikallisen mallin ajaminen poistaa tämän katon — ja koska sisältö on julkisia uutisia, näkökulma on puhtaasti kustannustehokkuus, ei tietosuoja.

Tulos uutisia käsitellään mittakaavassa tehokkaasti nollalla per-artikkeli-mallilaskulla.

03Mitä rakensimme

Monilähteinen poiminta

PDF-sanomalehdet & -aikakauslehdet — tekoälysegmentointi "Flash"-putkilinjan kautta: PyMuPDF-tekstipoiminta, virtaava / inkrementaalinen segmentoija, per-sivu kuvankäsittely, aukeamapohjainen sivunkäsittely, ja monisivuinen artikkelinäkymä jatkaminen suomeksi, ruotsiksi ja englanniksi.
Web-kaavinta — CSS-valitsimet sekä Playwright JavaScript-renderöidyille sivuille.
RSS / Atom -syötteet.
Sosiaalinen media — X / Twitter, Facebook, Instagram ja LinkedIn.

Anti-tunnistus

Kaavinta mittakaavassa selviää kunnioittamattomien puolustuksen ansiosta: satunnaiset viiveet, käyttäjäagentin kierto, välityspalvelimen kierto, eksponentiaaliset takaisinastumiset ja katkaisija puhtaaseen takaisinvetäytymiseen kun lähde törmää.

Rikastaminen & syöte

Kun sisältö on sisällä, se rikastetaan: semanttinen ryhmittely kosinietäisyydellä (kynnys ~0,75), kieltenrajat ylittävä linkitys niin että sama tarina eri kielissä yhdistyy, tekoälyn synopsien generointi ja tapahtumien luokittelu. Personoitu syöte soveltaa sitten monialgoritmista rankkausta, deduplikointia ja käyttäjäpreferenssejä.

Paikallinen LLM

Itsehostettu Gemma-malli tekee kaiken tekstinymmärryksen ja sivulla olevan kuvantunnistuksen paikallisesti — lukeminen ja ymmärtäminen molemmat — mikä on se, mikä tekee tämän volyymin käsittelystä taloudellisesti kannattavaa.

04Tallennus & käyttöliittymät

Tietueet asuvat PostgreSQL:ssä; upotukset asuvat Milvus-vektoritietokannassa semanttista hakua ja ryhmittelyä varten. Päälle istuvat kolme käyttöliittymää: hallintapaneeli, REST-API ja uutissyöttökäyttöliittymä.

05Teknologia

Itsehostettu Gemma PyMuPDF Playwright PostgreSQL Milvus-vektoritietokanta Semanttinen ryhmittely ~0,75 REST-API FI / SV / EN

LähteetPDF · web · RSS/Atom · sosiaalinen media

LLMItsehostettu Gemma, täysin paikallinen

TallennusPostgreSQL + Milvus-vektorit

KäyttöliittymätHallintapaneeli · REST-API · syöttökäyttöliittymä

KäyttöönottoOn-prem

06Kohokohdat

"Flash" PDF-putkilinja, joka segmentoi sanomalehden taiton ja ompelee monisivuiset artikkelit FI / SV / EN -kielissä.
Web-, RSS- ja sosiaalisen median imunointi täydellisen anti-tunnistuskerroksen takana — kierrätys, takaisinastuminen ja katkaisija.
Semanttinen ryhmittely ja kieltenrajat ylittävä linkitys niin että yksi tarina ei ole kymmenen duplikaattia.
Personoitu syöte monialgoritmisella rankkauksella, deduplikoinnilla ja käyttäjäpreferensseillä.
Kaikki tekstinymmärrys ja sivulla oleva kuvantunnistus paikallisella Gemma-mallilla — nolla kaupallista LLM-API-maksua mittakaavassa.
PostgreSQL tietueille, Milvus vektorihaulle.

Aiheeseen liittyvät projektit

← kaikki tapaustutkimukset ← takaisin etusivulle