Hány magyar weboldal van?

Black dots, primary purple dots, primary red dots, and primary green dots with hard edges randomly scattered around on a crisp white background with light grey lines connecting the dots. MidJourney Bot

Arról, hogy mekkora a magyar web, meglepően kevés információ lelhető fel. Azoknak, akik weboldalakkal folgalkoznak napi szinten, ez a kérdés kb. olyan, mint hogy miért süt a nap? Igazából sosem gondolunk bele, a válasz egyszerűnek tűnhet, de minél inkább elmerülünk a témában, annál kevésbé az.

A kérdés megválaszolásához ugyanis először tisztázni kell, hogy mit tekintünk magyarnak és weboldalnak. Szerintem a számottevő magyar nyelvű, aktuális tartalommal rendelkező, saját domainnévről elérhető webes jelenlétet.

860 ezer magyar domainnév?

Azt gondolom, hogy bátran minimális követelménynek tekinthetjük egy saját domain név meglétét, hiszen hogyan vehetünk komolyan egy tartalmat, ha tulajdonosának a közzététel egy párezer forintos befektetést sem ért meg?

A domain.hu statisztikái szerint 2023 februárjában kb. 860 000 .hu alatt bejegyzett domain nevet birtokolt valaki. Ez azonban korántsem jelenti azt, hogy valójában ennyi magyar weboldal létezik. Sokan ugye csak azért tartanak egy domainnevet, hogy egyszer majd sok pénzért eladják, vagy hogy ne lehessen másé. Sokan pedig még nem készültek el weboldalukkal, vagy nem is akarnak weboldalt közzétenni a domainen, mert pl. csak emailezésre használják.

Saját adatbázisomban 730 000 olyan .hu domainnév található, ami valaha biztosan létezett, ezért azt gondolom, hogy a végső számok meghatározásához nagyságrendileg elég adat áll rendelkezésemre.

482 ezer működő weboldal?

Ha megpróbáljuk felkeresni e többszázezer domainnevet, akkor kicsit több mint a fele fog életjelet adni magáról – tehát ha beírnánk a böngészőbe ezeket a címeket, akkor ennyi esetén kapnánk valamilyen választ. Természetesen ilyen nagyságrendű domainnevet automatizált formában, szkriptek segítségével lehet csak kezelni.

290 ezer weboldal számottevő tartalommal?

Sokszor a válaszként megjelenő weblap nem fog tartalmazni számottevő információt, csak hibaüzenetet, vagy valamilyen alapértelmezett nyitólapot. A példa kedvéért van még ezen túl pár önállóan nevesíthető aleset, amikor szintén nem beszélhetünk érdemi tartalomról, így önálló weboldalról sem:

-21 ezer alapértelmezett CMS nyitólap: nagyságrendileg ennyien állítottak be domainükre valamilyen tartalomkezelő rendszert, de nem kezdték el még saját tartalommal megtölteni, így gyakorlatilag teljesen üres az oldal, noha a mögötte álló motor indulásra kész (“Üdvözlet a WordPress-ben! Ez az első bejegyzés” és társai.)

-11 ezer parkolt domain: Sok olyan domain van azonban, amit csak parkoltatnak. Ilyenkor érdemi tartalom nincs az oldalon, gyakran csak az adott domainnév eladó / bérelhető mivoltáról értesülhetünk. Ezen felül olykor ugyanaz a tartalom több domainnéven is elérhető: szerintem ezeket sem kell önálló weboldalnak számolni.

6 ezer elavult technológiákat használó domain: ilyenek pl. az úgynevezett frame-es weboldalak, vagy azok a Flash technológiával készült régi oldalak, ahol a navigáció kizárólag ezzel a mai modern asztali és mobil böngészők által nem kezelt technológiákkal készültek, ezért joggal tekinthetjük őket elhagyott oldalaknak.

250 ezer magyar nyelvű weboldal a .hu domain alatt?

pedia.hu weboldalgyűjtemény összeállításakor használt módszer alapján nagyságrendileg ennyi magyar nyelvű weboldal található a .hu domain alatt.

Ehhez hozzáadhatunk még pár tízezer, nem .hu domain alatt található szájtot, melyek elsősorban általános végződések, mint pl. .com, .eu illetve a szomszédos országok domainvégződései alatt bejegyzett oldalak. Ezekre az oldalakra jóval nehezebb rátalálni, így nehezebb is megbecsülni a számukat, hiszen míg a .hu végződés önmagában jó eséllyel magyar nyelvű weboldalt takar, addig például erősen kérdéses, hogy magyarnak számoljuk-e az olyan oldalakat, mint pl. a Google keresőmotorja, ami az összes létező, országokhoz köthető domainnéven elérhető magyarul is.

Ezzel viszont elértünk egy olyan szürkezónába, ahol az egyik oldalon a magyar emberek, cégek, szervezetek nem magyar nyelvű webszájtjai állnak, a másik oldalon pedig alapjában véve nem magyar weboldalak magyar nyelven is elérhető verziói, sokszor akár rossz minőségű automatikus fordítások által. Itt megint minden attól függ, hogy pontosan hogyan definiáljuk azt, hogy mi a magyar és mi a weboldal.

Háromszázezer magyar webszájt — ez minden?

Hogy pontosan mennyi magyar webszájt létezik, nem lehet megmondani, hiszen önmagában már a szájtok felfedezése is számos technikai nehézségbe ütközik, ráadásul közel félmillió, így vagy úgy használatban lévő domain között mindig lesz olyan, ami tegnap indult el, vagy tegnap szűnt meg, netán pont tegnap nem volt elérhető egy hiba miatt, ezért nem szerepel a statisztikában. És persze ha nagyon szigorúak akarunk lenni, pl. akkor tetszhalott szájtként bélyegezhetnénk még meg jópár weboldalt, amihez nem nyúltak már évek óta.

Annyi azonban nagy bizonyossággal kijelenthető, hogy amikor a választ keressük arra a kérdésre, hogy hány aktív magyar weboldal létezik, nem beszélhetünk milliókról, de akár még félmillióról sem. A fentieket figyelembe véve a háromszázezer érdemi tartalommal rendelkező magyar weboldal jó közelítés lehet

Ez a háromszázezer weboldal persze méretben is nagyon különböző, hiszen van közöttük sok, csupán egyetlen weblapból álló szájt, és ott van pl. a magyar nyelvű Wikipédia, ami több mint fél milló weblappal bír, azt tehát, hogy mennyi weblap lehet vajon ezen a háromszázezer szájton, még kevésbé becsülhető meg.

A végösszeghez persze ízlés szerint még hozzá lehetne adni a blogfarmokon üzemelő oldalakat vagy akár egyéb, aldomaineken elérhető, ámbár önálló tartalmat mutató szájtokat, illetve végső soron a Facebook oldalakat is, hiszen sok cég és szervezet webes jelenlétét kizárólag a közösségi oldalak biztosítják.

Mennyire pontos becslés ez?

Ahogy említettem, a kiindulásként szolgáló adatbázis nagyságrendileg összevethető méretű azzal, mint amit a domain.hu statisztikái mutatnak. Van azonban még egy módszer annak megállapítására, hogy a létező oldalak mekkora hányadát sikerült felfedezni, nevezetesen az, ha szisztematikusan lekérdezzük az összes lehetséges domainnevet. Pl. ha a 4 karakter hosszú domainneveket vizsgálunk, akkor az angol ábécé 26 betűjét, a 10 számot és a kötőjelet figyelembe véve (ami nem állhat az elején és a végén) 36*37*37*36 = 1 774 224 variációt kapunk.

Nos, az ilyen domainnevek közül vizsgálat előtt 8600 működő domain volt az adatbázisban, ami a több mint másfél millió variáció átszálazása után csupán csak 500-zal bővült, így nagy valószínűséggel, ha végignéznénk a hosszabb domainneveket is, akkor is csak összességében kb. 6%-kkal több webszájtot tudnánk találni, ami a 250 ezer szájt helyett 265 ezret jelentene, ez pedig érdemben nem sokat változtat a nagyságrendileg 300 ezres becslésen.

Vélemény, hozzászólás?

Az e-mail címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük