Universal Content Extractor
Monilähteinen poiminta- ja uutisaggregaattimoottori — poimii tarinoita PDF-sanomalehdistä, verkkosivustoilta, RSS:stä ja sosiaalisesta mediasta, sitten segmentoi, ryhmittelee ja rankkaa ne personoiduksi syötteeksi, kaikki LLM-vaiheet paikallisesti pyörien.
01Yleiskatsaus
Universal Content Extractor kerää julkisia uutisia täysin erilaisista lähteistä — PDF-sanomalehdistä ja -aikakauslehdistä, avoimesta webistä, RSS/Atom-syötteistä ja sosiaalialustoilta — ja muuttaa tulvimisen koherentiksi, deduplikoiduksi, kieltenrajat ylittäväksi, personoiduksi syötteeksi. Määrittelevä suunnitteluvalinta: jokainen tekstinymmärryskappale ja sivulla oleva kuvantunnistus pyörii itsehostetulla Gemma-mallilla palvelimella, joten uutisten käsittely mittakaavassa ei maksa mitään kaupallisissa LLM-API-maksuissa.
02Minkä ongelman se ratkaisee
Uutisten aggregointi mittakaavassa tarkoittaa kahta vaikeaa ongelmaa kerralla: sisällön saaminen ulos muodoista, jotka taistelevat sinua vastaan (PDF-sanomalehti on taitto, ei artikkeliluettelo; verkkosivusto on merkintä anti-bottisuojausten takana), ja sitten tuloksen järkeistäminen kielten yli niin että se ei muutu kopioduplikaattiseinämäksi. Kaiken tämän tekeminen kaupallisilla LLM-malleilla tekisi per-artikkeli-kustannuksesta kieltävän. Paikallisen mallin ajaminen poistaa tämän katon — ja koska sisältö on julkisia uutisia, näkökulma on puhtaasti kustannustehokkuus, ei tietosuoja.
Tulos uutisia käsitellään mittakaavassa tehokkaasti nollalla per-artikkeli-mallilaskulla.
03Mitä rakensimme
Monilähteinen poiminta
- PDF-sanomalehdet & -aikakauslehdet — tekoälysegmentointi "Flash"-putkilinjan kautta: PyMuPDF-tekstipoiminta, virtaava / inkrementaalinen segmentoija, per-sivu kuvankäsittely, aukeamapohjainen sivunkäsittely, ja monisivuinen artikkelinäkymä jatkaminen suomeksi, ruotsiksi ja englanniksi.
- Web-kaavinta — CSS-valitsimet sekä Playwright JavaScript-renderöidyille sivuille.
- RSS / Atom -syötteet.
- Sosiaalinen media — X / Twitter, Facebook, Instagram ja LinkedIn.
Anti-tunnistus
Kaavinta mittakaavassa selviää kunnioittamattomien puolustuksen ansiosta: satunnaiset viiveet, käyttäjäagentin kierto, välityspalvelimen kierto, eksponentiaaliset takaisinastumiset ja katkaisija puhtaaseen takaisinvetäytymiseen kun lähde törmää.
Rikastaminen & syöte
Kun sisältö on sisällä, se rikastetaan: semanttinen ryhmittely kosinietäisyydellä (kynnys ~0,75), kieltenrajat ylittävä linkitys niin että sama tarina eri kielissä yhdistyy, tekoälyn synopsien generointi ja tapahtumien luokittelu. Personoitu syöte soveltaa sitten monialgoritmista rankkausta, deduplikointia ja käyttäjäpreferenssejä.
Paikallinen LLM
Itsehostettu Gemma-malli tekee kaiken tekstinymmärryksen ja sivulla olevan kuvantunnistuksen paikallisesti — lukeminen ja ymmärtäminen molemmat — mikä on se, mikä tekee tämän volyymin käsittelystä taloudellisesti kannattavaa.
04Tallennus & käyttöliittymät
Tietueet asuvat PostgreSQL:ssä; upotukset asuvat Milvus-vektoritietokannassa semanttista hakua ja ryhmittelyä varten. Päälle istuvat kolme käyttöliittymää: hallintapaneeli, REST-API ja uutissyöttökäyttöliittymä.
05Teknologia
06Kohokohdat
- "Flash" PDF-putkilinja, joka segmentoi sanomalehden taiton ja ompelee monisivuiset artikkelit FI / SV / EN -kielissä.
- Web-, RSS- ja sosiaalisen median imunointi täydellisen anti-tunnistuskerroksen takana — kierrätys, takaisinastuminen ja katkaisija.
- Semanttinen ryhmittely ja kieltenrajat ylittävä linkitys niin että yksi tarina ei ole kymmenen duplikaattia.
- Personoitu syöte monialgoritmisella rankkauksella, deduplikoinnilla ja käyttäjäpreferensseillä.
- Kaikki tekstinymmärrys ja sivulla oleva kuvantunnistus paikallisella Gemma-mallilla — nolla kaupallista LLM-API-maksua mittakaavassa.
- PostgreSQL tietueille, Milvus vektorihaulle.