Language Observatory
2007-05-28
Hungary web crawling completed.
Crawl experiment: Hungary web crawling
CCTLD domain : .hu
Seed URLs :
http://iwiw.hu/
http://google.co.hu/
http://freemail.hu/
http://t-online.hu/
http://origo.hu/
http://index.hu/
http://gportal.hu/
http://extra.hu/
http://citromail.hu/
http://lap.hu/
http://goldengate.hu/
http://port.hu/
http://love.hu/
http://uw.hu/
http://freeweb.hu/
http://nemzetisport.hu/
http://nlcafe.hu/
http://startlapjatekok.hu/
http://vatera.hu/
http://wiw.hu/
http://atw.hu/
http://hotdog.hu/
http://tx.hu/
http://sztaki.hu/
http://teszvesz.hu/
http://teveclub.hu/
http://sg.hu/
http://videa.hu/
http://expressz.hu/
http://ok.hu/
http://hirkereso.hu/
http://rtlklub.hu/
http://vipmail.hu/
http://videoplayer.hu/
http://videobomb.hu/http://honfoglalo.hu/
http://blog.hu/
http://ingyenfilmek.hu/
http://kapu.hu/
http://fw.hu/
http://freeblog.hu/
http://ebnevelde.hu/
http://blikk.hu/
http://tango.hu/
http://velvet.hu/
http://try.hu/
http://tar.hu/
http://pina.hu/
http://szon.hu/
http://kepfeltoltes.hu/
http://hirstart.hu/
http://totalcar.hu/
http://protect.hu/
http://gov.hu/
http://ppl.hu/
http://tvn.hu/
http://dyn.hu/
http://jamba.hu/
http://top70.hu/
http://partyphoto.hu/
http://t-mobile.hu/
http://fn.hu/
http://blogter.hu/
http://tmxd.hu/
http://animeaddicts.hu/
http://randivonal.hu/
http://im-net.hu/
http://travian.hu/
http://startlap.hu
http://www.boon.hu
http://www.bme.hu
http://www.lendulet.hu/
http://www.budapest.hu/http://www.palya.hu/
http://www.music.hu/
http://www.hrportal.hu/
http://www.panorama.shp.hu/
http://programmagazin.hu/
http://chat.hu/
http://sulinet.hu/
System locks : 1-40
Max depth : 30
Max URLs per host : 40,000
URL delay : 10,000 ms
Crawler name : UbiCrawler/v0.4beta (http://gii.nagaokaut.ac.jp/~ubi/)
Contact e-mail : 0 5 5 9 1 9 @ m i s . n a g a o k a u t . a c . j p
For web-master. To stop LOP's crawling :
UbiCrawler supports the Robot Exclusion Standard. if you want to exlcude your site from being crawled by UbiCrawler see
The Web Robots Pages.
Briefly, you can put this
robots.txt file at the root of the web server you want to exclude from the crawling.
To monitor network traffic : http://gii2.nagaokaut.ac.jp/~chew/php/phpViewRrdGraph.php?rrdgraph=netTraffic&duration=day&btnSubmit=Submit
General status of Hungary crawling can be view at
here.
15:34:51 -
ycchew -
mySQL error with query SELECT COUNT(*) FROM nucleus_comment as c WHERE c.citem=869: Table './nucleus/nucleus_comment' is marked as crashed and last (automatic?) repair failed
No comments
2007-05-01
Data backup!
After two weeks of times on cleaning, sorting and moving. As at today, 2007-05-01, all existing data used for LOP research has been backup to EMC storage. Below is the summary of the data:
crawl experiments:
------------------
africa-051208-1556
africa-060606-2324
africa2-060113-1510
aosis-ot-060907-1638
asia-NOcjk-060705-1100
india-060628-1319
india-utf8-060126-1805
india-utf8-060127-0113
kh-la-060222-1645
lk-060328-1511
niigata-060224-1014
oceania-060306-1743
oceania-060307-1816
oic-041120-0129
crawl data size:
----------------
15G /emcpowera2/gii
187G /emcpowera2/gii-pc2
53G /emcpowera2/gii-pc3
144G /emcpowera2/gii-pc4
149G /emcpowera2/gii-pc5
188G /emcpowera2/gii-pc6
176G /emcpowera2/gii-pc7
218G /emcpowera2/gii-pc8
166G /emcpowera2/gii-pc9
127G /emcpowera1/gii-pc10
119G /emcpowera2/gii-pc11
100G /emcpowera1/gii-pc12
108G /emcpowera1/gii-pc13
124G /emcpowera1/gii-pc14
121G /emcpowera1/gii-pc15
118G /emcpowera1/gii-pc16
96G /emcpowera1/gii-pc17
87G /emcpowera1/gii-pc18
4.0K /emcpowera1/gii-pc19
109G /emcpowera1/gii-pc20
55G /emcpowera1/gii-pc21
60G /emcpowera1/gii-pc22
1.8G /emcpowera1/gii-pc23
62G /emcpowera1/gii-pc24
28G /emcpowera1/gii-pc25
62G /emcpowera1/gii-pc26
26G /emcpowera1/gii-pc27
58G /emcpowera1/gii-pc28
56G /emcpowera1/gii-pc29
64G /emcpowera1/gii-pc30
50G /emcpowera2/gii-pc31
64G /emcpowera2/gii-pc32
60G /emcpowera2/gii-pc33
52G /emcpowera2/gii-pc34
58G /emcpowera2/gii-pc35
59G /emcpowera2/gii-pc36
26G /emcpowera1/gii-pc37
60G /emcpowera1/gii-pc38
57G /emcpowera2/gii-pc39
56G /emcpowera1/gii-pc40
1.6T /emcpowera1/
1.8T /emcpowera2/
After this backup, the EMC storage is almost full. A new storage will be install soon. Anyone who willing to utilize this data, kindly contact the crawler administrator.
12:14:50 -
ycchew -
mySQL error with query SELECT COUNT(*) FROM nucleus_comment as c WHERE c.citem=823: Table './nucleus/nucleus_comment' is marked as crashed and last (automatic?) repair failed
No comments