József Jároli – Magyar Web Intézet

Adatforrások a web feltérképezéséhez

Ha szeretnénk választ kapni olyan kérdésekre mint pl. hogy hány webhely létezik egy adott nyelven, netán hány webshop, vagy akár melyek a legnépszerűbb tartalomkezelő rendszerek, akkor nem feltétlenül kell a nulláról induljunk: segítségül hívhatjuk azon szervezetek munkáját például, melyek archiválják a weben található információkat, biztonságtechnikai okokból adatokat gyűjtenek az internetről, marketingeseknek nyújtanak adatokat a webhelyekről, illetve információt rendszereznek akár enciklopédikus jelleggel, akár keresőadatbázis formájában.

Adatok a weblapok archiválóitól

Két komoly szervezet van, mely számottevő részét archiválja a webnek. Az egyik a sokak által ismert Internet Archive, a másik pedig az inkább a szakmai közönség érdeklődésére számot tartó munkát végző Common Crawl.

Az Internet Archive folyamatosan térképezi fel és menti el a weben talált weblapokat, továbbá egyszerűen elérhetővé teszi egy webes felületen az egyes weblapok korábbi verzióit is. Adatbázisában ezért rengeteg, már nem működő domainnév és weblap található. Nagy lefedettsége miatt azonban igen hasznos eszköz pl. a magyar webről adatot gyűjtők számára.

A Common Crawl nagyságrendileg kéthavonta áll neki a web feltérképezésének, és a gyűjtött weblapokat ezek alapján külön-külön adatbázisban teszi közzé. Emiatt a gyűjtött adatok mögött igen nagy hányadban most is működő weblapok állnak, noha az egyes gyűjtések között nem feltétlenül teljes az átfedés, ezért érdemes több gyűjtés adataival dolgozni. A nyers adatokat továbbá számos helyen és formában feldolgozzák, mint például a Web Data Commons oldalán.

Mindkét szervezet lehetővé teszi az általuk gyűjtött weblapok indexének lekérését CDX formátumban, ami jó kiindulási alap a további vizsgálatokhoz, de a Common Crawl domainszintű adatbázisokat is közzétesz időnként.

A magyar weboldalakat továbbá archiválja az Országos Széchényi Könyvtár is. Webtér szintű aratásuk legutóbb 1 371 617 URL-ből kiindulva (aldomaineket is kiindulópontnak kezelve) max. két szint mélységig szkrépelve, 158 416 570 weblapot archiváltak le a .hu domain alatt és azon kívül található magyar webszájtokról. Sajnos, jogi okokból az archívum adatai nagyon korlátozottan érhetőek el (olvasóteremben, másolási lehetőség nélkül), így nem használhatóak fel céljainkra.

Adatbázisok internetbiztonsági kutatásokhoz

A Project Sonar illetve a tevékenysége eredményeként közzétett Rapid7 Open Data adatbázis úgy keletkezik, hogy végigszkennelik az összes IP címet, és a rajtuk elérhető szolgáltatásokat. A weboldalakat kiszolgáló szerverek szkennelése révén pedig melléktermékként rengeteg domainnévhez is hozzájuthatunk. A kinyert adatok régebben publikusan is elérhetőek voltak, manapság azonban csak néhány speciális esetben kaphatunk hozzáférést.

Elsősorban biztonsági kutatás céljából kínálja hasonló jellegű, „mindent szkennelünk” hozzáállással szerzett adatait Censys is, mely kutatóknak hozzáférést ad adatbázisaihoz, de online keresőfelületén számos paraméter szerint kereshetővé teszi adatbázisát, így ha nem is juthatunk hozzá összes adatukhoz, de betekintést nyerhetünk abba, hogy milyen információkat gyűjtenek.

További játékos még ebben a ligában a netlas.io is. Intuitív keresőfelületén rákereshetünk bármilyen IP-címre vagy domainnévre, így akár az összes .hu domainre is, melyből a cikk írásakor 645 724-et tartott nyilván a rendszer.

Ha pedig esetleg valaki saját maga szeretne mindent szkennelni, akkor hasznos lehet megismerkednie a Zmap projekttel.

SEO adatbázisok

A keresőoptimalizáló szakembereknek is szüksége van sok-sok adatra a különböző weboldalakról, ezek közül a leghasznosabb a mi céljainkra az, hogy adatokat gyűjtenek arról, hogy ki linkel kit. Mivel magyar nyelvű oldalak legtöbbször magyar nyelvű oldalakat linkelnek, illetve egy adott magyar oldalra mutató külső linkek többsége is magyar nyelvű lesz, ezért ez is sokat segíthet abban, hogy új webhelyeket fedezzünk fel – különösen pl. ha például nyelv szerint, nem pedig domainnév-végződés szerint szeretnénk gyűjtést végezni. Nagyobbacska adatbázisokat tesz elérhetővé például az Ahrefs, a Majestic SEO vagy a SEO Spyglass.

Enciklopédikus jellegű adatgyűjtők

A Wikipedia vagy az OpenStreetMap jellegénél fogva messze nem tárol annyi domainnevet ill. weblapot, mint a fent említett források. Nagy előnyük viszont, hogy strukturált adatkörnyezetben találkozhatunk ezekkel az URL-ekkel. Nem utolsósorban pedig lehetővé teszik az adatbázisuk letöltését, úgyhogy az adatok megszerzéséhez nem kell szkrépelni a weboldalaikat.

Keresőadatbázisok

A legtöbb és legfrissebb adatot a különböző internetes keresőoldalak gyűjtik és teszik elérhetővé a webről, mint pl. a Google a Bing vagy a Yandex. A gond csak az, hogy szolgáltatásukat pl. a fent említett netlas.io keresőfelületével ellentétben nem úgy alakították ki, hogy az közvetlenül a hasznát szolgálja kutatásunknak, ezért hát csak kerülőutakon lehet ezekből az oldalakból adatokat kicsiholni: kitalálni, hogy milyen jellemző keresőszavak segítségével tudjuk fellelni a legtöbb új, ismeretlen domaint, majd e kereséseket szépen, lassan vagy több helyről elosztva elvégezni, végül a találatokat elmenteni.

Közösségi média platformok

Ne feledjük továbbá, hogy a weben található információ egyre nagyobb része a nyitott webről a zárt, pl. közösségi média platformokra költözött. Ennek egy szintén számottevő hozadéka, hogy e platformokról is gyakran hivatkoznak a nyílt webre, azaz a hagyományos, saját domainneveken található webhelyekre. A probléma esetünkben csak az, hogy e platformok szkrépelése még problémásabb, mind technikai, mind jogi szempontból.

További lehetőségek

A világ változatosságához hasonlóan a web is rendkívül sokszínű, úgyhogy lehetetlen felsorolni az összes lehetőséget, mely révén feltérképezhetjük a webet, vagy annak egy meghatározott szegmensét. A fentiekben elsősorban a nagyobb adatbázisokat vettem számba főbb típusaik szerint, nem törekedve az összes lehetséges szolgáltató felsorolására e kategóriákon belül sem.

Mindezen túl is még számos általános vagy helyi érdekű adatforrás lehet segítségünkre, mint pl.:

Nem minden domainnév-végződés esetében igaz, de pl. a .hu regisztrátora közzéteszi az újonnan bejegyzés alatt álló domainneveket.
Noha manapság már kimentek a linkgyűjtemények a divatból, vannak azonban olyan források, mint pl. a lap.hu oldalak, melyekről egyszerűen, viszonylag strukturált adatokat nyerhetünk ki.

Végül de nem utolsósorban a fenti adatforrások nélkül is lehetséges a web feltérképezése, illetve ha saját magunk a nulláról kezdjük a feltérképezést, akkor leellenőrizhetjük, hogy meddig jutottunk a weboldalak feltérképezésével az egyes adatforrások segítségével.

A web felfedezése a nulláról

Első lépésben számba vesszük a domainnevekben használható karaktereket [a-z0-9-], kikeverjük az összes technikailag lehetséges variációt: 37*37 + 36*37*36 + 36*37*37*36 + 36*37*37*37*36 + …

Az jól látszik, hogy ha csak a maximum ötbetűs domainneveket szeretnénk átfésülni, akkor már túlléptük a 67 millió lehetséges kombinációt, ami elsőre óriási számnak tűnik, de mivel a legtöbb domain esetében hamar visszajön a válasz, hogy nem létezik ilyen, ezért viszonylag gyorsan át lehet még ezeket pörgetni.

Ha ezzel megvagyunk, akkor pluszban felfedezhetünk majd mindenféle egyéb domainnevet, amire e rövid domainnevek irányítanak át. A legtöbb új, öt karakternél hosszabb domainnévre mégis úgy tehetünk szert, hogy megnézzük, mely egyéb webhelyekre linkelnek a már összegyűjtött domaineken.

Ha már van jópár működő domainnevünk, köztük hosszabbak is, akkor akár végigmehetünk rajtuk úgy is, hogy a permutációk közül kizárjuk azokat, melyek nagyon nem hasonlítanak potenciálisan értelmes domainnevekre, mint pl. 4h6u3a.hu, például az alapján, hogy az ismert domainnevekben mekkora eséllyel követi egymást két karakter, vagy fordul elő egy karakterpár, triplet, stb.

Konklúzió

Anyagi lehetőségeinktől és elszántságunktól függően számos különböző adatforrással dolgozhatunk, ha sok webhelyet szeretnénk valamilyen célból összegyűjteni, pl. arra az alapvető kérdésre keresünk választ, hogy mennyi magyar webhely létezik. Egy részük már készen nyújtja az információt, más részükből pedig az adatgyűjtés körülményei és az adatformátum ismeretében nekünk kell kinyerni az adatokat, végül a legnehezebb eset, amikor saját szkriptet kell írnunk ahhoz, hogy egy weboldalról leszedegessük a minket érdeklő, publikusan elérhető információkat.

»tovább»

Leggyakrabban használt szavak a domainnevekben

A domainnév-választás hosszú távon határozza meg egy weboldal jövőjét, ezért beszédes az, hogy milyen szavakat tartanak annyira fontosnak a weboldal-tulajdonosok, hogy webes jelenlétük alapját jelentő domainnevükbe is belefoglalják.

Ha megvizsgáljuk a működő .hu domainneveket, akkor a használt szavak népszerűségi sorrendje a következő (top 200 helyezett):

auto, shop, buda, tech, design, kert, bolt, budapest, iskola, studio, hely, pest, ingatlan, szerviz, butor, sport, foto, klima, nagy, apartman, konyv, dent, vendeghaz, magyar, online, pont, gyor, epit, hotel, park, info, home, market, hungary, szent, munka, media, pecs, teto, villa, iroda, mester, ablak, sziget, balaton, centrum, trans, szeged, vilag, gyogy, debrecen, keres, mobil, virag, profi, euro, otthon, fest, gyar, dekor, alapitvany, center, land, team, szerel, szep, szalon, panzio, jatek, klub, muhely, allas, duna, gumi, masszazs, marketing, tars, inter, mind, zold, digi, aruhaz, szallas, eskuvo, arany, ugyved, feny, photo, feher, suli, ovoda, kozmetika, etterem, fold, star, group, motor, consult, webshop, konyvel, plus, hang, natur, terv, egyesulet, eger, kozpont, beauty, szabo, trade, miskolc, club, baba, coach, kutya, work, ipar, allat, ruha, uzlet, green, ekszer, orvos, trend, kata, varos, pince, elektro, kapu, konyha, technika, egeszseg, service, zala, autosiskola, ajto, hegy, blog, smart, lakas, film, agro, plan, clean, system, solar, optika, zene, uveg, store, porta, pizza, berles, print, magazin, kovacs, gold, digital, garden, pannon, tisza, penz, joga, life, sopron, patika, mese, tamas, csalad, pszicho, fitness, well, best, travel, csilla, city, alma, mentes, kiraly, kerek, metal, akademia, reklam, peter, aqua, villany, okos, partner, farm, oktat, therm, varazs, video, olcso, anna, gyerek, beton, house, gazda, tanc

Érdekes eredmény, hogy az auto(autó) szó lett a legnépszerűbb, még a webshopokat is lenyomta. Leginkább autókereskedések, autószervizek, autómosók, autósiskolák állnak az ilyen domainek mögött, csak kis részben az automatizálás és hasonló témák.

Városok online erősorrendje

Feltűnnek továbbá a nagyobb városok és egyéb földrajzi nevek is a listában. A befutók ebben a sorrendben: Buda, Budapest, Pest, Győr, Pécs, Balaton, Szeged, Debrecen, Duna, Eger, Miskolc, Zala, Pannon, Tisza, Sopron.

Névadási divatok

A listát átböngészve továbbá néhány cégnévadási és terméknév választási trendeket jelző szavakat is azonosíthatunk, mint pl.: tech, studio, dent, centrum, trans, profi, center, land, team, star, consult, plus.

Saját brand vagy olvasható domainnév?

Az eredmények nem mutatják tisztán az egyes témák, üzleti szegmensek népszerűségét, hiszen az olyan domainnevek, melyek mögött egy saját brand, fantázianév vagy rövidítés áll, értelemszerűen nem, vagy nem a megfelelő irányba tudták befolyásolni a fenti végeredményt.

Ezért, ha szabatosan szeretnénk megfogalmazni, hogy minek a népszerűségét láthatjuk ebben a listában, akkor azt kell mondjuk, hogy azon weboldal-tulajdonosok választásait láthatjuk itt, akik vagy nem tudtak vagy nem akartak saját, első látásra nem értelmezhető brand-be fektetni, vagy a domainnevük kifejezősége, megtalálhatósága, sőt keresőoptimalizálása érdekében választottak olyan neveket, melyek tartalmazzák a számukra legfontosabb kulcsszavakat.

Leghosszabb magyar domainnevek

A kinek van több kulcsszava a domainnévben „versenyben”, illetve pontosabban a „kinek van a leghosszabb” versenyben az alábbi domainnevek (ill. mögöttük álló működő weboldalak) nyertek:

illetve versenyen kívül, de említést érdemel még a:

ezittaleghosszabbertelmesdomainmagyarorszagonmertmiertnelenneaz.hu (mivel jelenleg egy másik domain tartalma található rajta, így nincs saját, egyedi tartalma.)

Hogyan jutottam az eredményekhez?

A pedia.hu adatbázisából lekérdeztem azt a két és félszáz ezer a domainnevet, mely számottevő, saját, pornómentes tartalommal rendelkezik.

Mivel a legtöbb, több szóból összetett domainnévben nem egyértelmű, hogy hol van a szóhatár, így egy olyan algoritmust írtam, ami először hossz szerint csökkenő sorrendbe állítja a domainneveket és a kötőjeles domainnevekből szétválasztott szavakat, majd a leghosszabb szavakkal kezdve, megkeresi ezeket a szavakat a domainnevek elején vagy végén, végül a talált szavak kivonása utáni maradékkal is megismétli a folyamatot.

»tovább»

Magyar Web Intézet

[🇬🇧 English version]

Egy hely mindenkinek, aki szeretne többet tudni a magyar webről – akár üzleti haszonszerzés, akár tudományos érdeklődés céljából.

Érdekességek, cikkek és adatok a magyar nyelvű web múltjáról, jelenéről és jövőjéről.

A kezdeményezés mögött Jároli József áll, de nyitott mindenki számára, aki szeretné megosztani a magyar weboldalakról szerzett általános tudását, illetve az általa gyűjtött adatokat.

Ha érdeklődsz az oldalon olvasható cikkek mögött álló adatokkal vagy szaktudással kapcsolatban, akkor keress a +36-70-512-9874-es telefonszámon, vagy írj a j kukac jaroli.hu email címre.

Az oldalon található cikkek és adatok szabadon felhasználhatóak a Creative Commons Nevezd meg! – Így add tovább! 4.0 Nemzetközi Licenc feltételeinek megfelelően.

Az oldal külalakját a sixpack WordPress téma határozza meg.

»tovább»

Hány magyar weboldal van?

Black dots, primary purple dots, primary red dots, and primary green dots with hard edges randomly scattered around on a crisp white background with light grey lines connecting the dots. MidJourney Bot

Arról, hogy mekkora a magyar web, meglepően kevés információ lelhető fel. Azoknak, akik weboldalakkal folgalkoznak napi szinten, ez a kérdés kb. olyan, mint hogy miért süt a nap? Igazából sosem gondolunk bele, a válasz egyszerűnek tűnhet, de minél inkább elmerülünk a témában, annál kevésbé az.

A kérdés megválaszolásához ugyanis először tisztázni kell, hogy mit tekintünk magyarnak és weboldalnak. Szerintem a számottevő magyar nyelvű, aktuális tartalommal rendelkező, saját domainnévről elérhető webes jelenlétet.

860 ezer magyar domainnév?

Azt gondolom, hogy bátran minimális követelménynek tekinthetjük egy saját domain név meglétét, hiszen hogyan vehetünk komolyan egy tartalmat, ha tulajdonosának a közzététel egy párezer forintos befektetést sem ért meg?

A domain.hu statisztikái szerint 2023 februárjában kb. 860 000 .hu alatt bejegyzett domain nevet birtokolt valaki. Ez azonban korántsem jelenti azt, hogy valójában ennyi magyar weboldal létezik. Sokan ugye csak azért tartanak egy domainnevet, hogy egyszer majd sok pénzért eladják, vagy hogy ne lehessen másé. Sokan pedig még nem készültek el weboldalukkal, vagy nem is akarnak weboldalt közzétenni a domainen, mert pl. csak emailezésre használják.

Saját adatbázisomban 730 000 olyan .hu domainnév található, ami valaha biztosan létezett, ezért azt gondolom, hogy a végső számok meghatározásához nagyságrendileg elég adat áll rendelkezésemre.

482 ezer működő weboldal?

Ha megpróbáljuk felkeresni e többszázezer domainnevet, akkor kicsit több mint a fele fog életjelet adni magáról – tehát ha beírnánk a böngészőbe ezeket a címeket, akkor ennyi esetén kapnánk valamilyen választ. Természetesen ilyen nagyságrendű domainnevet automatizált formában, szkriptek segítségével lehet csak kezelni.

290 ezer weboldal számottevő tartalommal?

Sokszor a válaszként megjelenő weblap nem fog tartalmazni számottevő információt, csak hibaüzenetet, vagy valamilyen alapértelmezett nyitólapot. A példa kedvéért van még ezen túl pár önállóan nevesíthető aleset, amikor szintén nem beszélhetünk érdemi tartalomról, így önálló weboldalról sem:

-21 ezer alapértelmezett CMS nyitólap: nagyságrendileg ennyien állítottak be domainükre valamilyen tartalomkezelő rendszert, de nem kezdték el még saját tartalommal megtölteni, így gyakorlatilag teljesen üres az oldal, noha a mögötte álló motor indulásra kész (“Üdvözlet a WordPress-ben! Ez az első bejegyzés” és társai.)

-11 ezer parkolt domain: Sok olyan domain van azonban, amit csak parkoltatnak. Ilyenkor érdemi tartalom nincs az oldalon, gyakran csak az adott domainnév eladó / bérelhető mivoltáról értesülhetünk. Ezen felül olykor ugyanaz a tartalom több domainnéven is elérhető: szerintem ezeket sem kell önálló weboldalnak számolni.

– 6 ezer elavult technológiákat használó domain: ilyenek pl. az úgynevezett frame-es weboldalak, vagy azok a Flash technológiával készült régi oldalak, ahol a navigáció kizárólag ezzel a mai modern asztali és mobil böngészők által nem kezelt technológiákkal készültek, ezért joggal tekinthetjük őket elhagyott oldalaknak.

250 ezer magyar nyelvű weboldal a .hu domain alatt?

A pedia.hu weboldalgyűjtemény összeállításakor használt módszer alapján nagyságrendileg ennyi magyar nyelvű weboldal található a .hu domain alatt.

Ehhez hozzáadhatunk még pár tízezer, nem .hu domain alatt található szájtot, melyek elsősorban általános végződések, mint pl. .com, .eu illetve a szomszédos országok domainvégződései alatt bejegyzett oldalak. Ezekre az oldalakra jóval nehezebb rátalálni, így nehezebb is megbecsülni a számukat, hiszen míg a .hu végződés önmagában jó eséllyel magyar nyelvű weboldalt takar, addig például erősen kérdéses, hogy magyarnak számoljuk-e az olyan oldalakat, mint pl. a Google keresőmotorja, ami az összes létező, országokhoz köthető domainnéven elérhető magyarul is.

Ezzel viszont elértünk egy olyan szürkezónába, ahol az egyik oldalon a magyar emberek, cégek, szervezetek nem magyar nyelvű webszájtjai állnak, a másik oldalon pedig alapjában véve nem magyar weboldalak magyar nyelven is elérhető verziói, sokszor akár rossz minőségű automatikus fordítások által. Itt megint minden attól függ, hogy pontosan hogyan definiáljuk azt, hogy mi a magyar és mi a weboldal.

Háromszázezer magyar webszájt — ez minden?

Hogy pontosan mennyi magyar webszájt létezik, nem lehet megmondani, hiszen önmagában már a szájtok felfedezése is számos technikai nehézségbe ütközik, ráadásul közel félmillió, így vagy úgy használatban lévő domain között mindig lesz olyan, ami tegnap indult el, vagy tegnap szűnt meg, netán pont tegnap nem volt elérhető egy hiba miatt, ezért nem szerepel a statisztikában. És persze ha nagyon szigorúak akarunk lenni, pl. akkor tetszhalott szájtként bélyegezhetnénk még meg jópár weboldalt, amihez nem nyúltak már évek óta.

Annyi azonban nagy bizonyossággal kijelenthető, hogy amikor a választ keressük arra a kérdésre, hogy hány aktív magyar weboldal létezik, nem beszélhetünk milliókról, de akár még félmillióról sem. A fentieket figyelembe véve a háromszázezer érdemi tartalommal rendelkező magyar weboldal jó közelítés lehet.

Ez a háromszázezer weboldal persze méretben is nagyon különböző, hiszen van közöttük sok, csupán egyetlen weblapból álló szájt, és ott van pl. a magyar nyelvű Wikipédia, ami több mint fél milló weblappal bír, azt tehát, hogy mennyi weblap lehet vajon ezen a háromszázezer szájton, még kevésbé becsülhető meg.

A végösszeghez persze ízlés szerint még hozzá lehetne adni a blogfarmokon üzemelő oldalakat vagy akár egyéb, aldomaineken elérhető, ámbár önálló tartalmat mutató szájtokat, illetve végső soron a Facebook oldalakat is, hiszen sok cég és szervezet webes jelenlétét kizárólag a közösségi oldalak biztosítják.

Mennyire pontos becslés ez?

Ahogy említettem, a kiindulásként szolgáló adatbázis nagyságrendileg összevethető méretű azzal, mint amit a domain.hu statisztikái mutatnak. Van azonban még egy módszer annak megállapítására, hogy a létező oldalak mekkora hányadát sikerült felfedezni, nevezetesen az, ha szisztematikusan lekérdezzük az összes lehetséges domainnevet. Pl. ha a 4 karakter hosszú domainneveket vizsgálunk, akkor az angol ábécé 26 betűjét, a 10 számot és a kötőjelet figyelembe véve (ami nem állhat az elején és a végén) 36*37*37*36 = 1 774 224 variációt kapunk.

Nos, az ilyen domainnevek közül vizsgálat előtt 8600 működő domain volt az adatbázisban, ami a több mint másfél millió variáció átszálazása után csupán csak 500-zal bővült, így nagy valószínűséggel, ha végignéznénk a hosszabb domainneveket is, akkor is csak összességében kb. 6%-kkal több webszájtot tudnánk találni, ami a 250 ezer szájt helyett 265 ezret jelentene, ez pedig érdemben nem sokat változtat a nagyságrendileg 300 ezres becslésen.

»tovább»