La Wikipedia descargable

Es increíble lo poco que aportan los guruses de Internet. Hace unos días se replicaba hasta el infinito y más allá la noticia de que la Wikipedia permitía la descarga completa de cada una de sus enciclopedias. Todo el mundo se alegraba mucho, se daban palmaditas en el hombro y repetían las cuatro cosas de la nota de prensa hasta la saciedad.
Siempre he pensado que para decir eso, mejor no se abre la boca. Si no tienes nada que aportar, quédate al margen, salvo que te paguen por escribir.
También soy de la opinión de que algún día cerrarán el grifo de Internet. Vivimos en una época de abundancia, en que todo está a tiro de piedra y hay fuentes de casi todas las series de televisión que uno pueda imaginar. Pero puede ocurrir que un día todo eso desaparezca. Por si acaso, hay que hacer copias de seguridad, tener películas suficientes como para ver dos horas de cine hasta que uno muera. Si suponemos una edad media de 80 años, y que empezamos a preocuparnos por asegurar nuestro futuro mediático a partir de los treinta años, necesitaremos tener cine y series como para 50 años. Si queremos dos horas de cine diarias, necesitaremos unas 18.250 películas, o 11,8 TB (Terabytes, 11.800 GB) de archivos.
Hasta que uno no tenga esa cantidad almacenada en discos duros, no puede dejar al Emule apagado por las noches. No importa lo floja que sea una película, hay que descargársela.


Por eso, tiene mucho sentido descargarse la Wikipedia (por supuesto la que está en inglés, la que está en español es un mal chiste en demasiadas ocasiones). El primer problema es el tamaño del fichero: 2,5GB. Los desgraciados que no dispongan de ADSL pueden ir preparándose a atesorar la paciencia de Job. Los que no, les esperan unas cuatro horas de descarga, rezando por que nada pase o usando un gestor de descargas. Los problemas empiezan cuando tenemos el archivo descargado.
La Wikipedia para descarga está en estos links. Según parece, el archivo que más interés puede tener es el
enwiki-latest-pages-articles.
Los amiguetes del Linux se ofenderán, pero el cacareado Ubuntu se ha tostado dos veces intentando descomprimir el fichero. Lo mejor es el buen rollismo de software libre, en vez de una pantalla azul o un mensaje de error, la pantalla del programa que estaba descomprimiendo desapareció sin dejar rastro y la tarea con ella. Gestión de recursos eficiente no como en Windows, pero problema que no se soluciona.
En Windows tarda un buen rato en descomprimirse ( 40-50 minutos) pero lo acaba consiguiendo. Ahora viendo el fichero que se obtiene vemos que otro impedimento puede ser el tamaño: la Wikipedia descomprimida ocupa 11 GB, que unidos a los 2,5 GB de la versión comprimida, ya exigen tener un buen hueco libre en el disco duro, antes de hacer nada.

Superados estos problemas nos encontramos ahora con que hay que abrir un fichero de 11 GB que tiene la extensión xml. El block de notas no funciona y el Wordpad tampoco.
Buceando por Internet he encontrado algunas soluciones del tipo “este editor es muy bueno, puedes abrir cualquier fichero que soporte la memoria física del ordenador”. Pero cuando lo intentas usar ves como es un hecho que la memoria se dispara, se consume entera, y al final no se pudo abrir.
En otras páginas hay gente que sugiere “yo cuando he tenido que abrir ficheros de más de 50 MB he usado el XXX y me ha funcionado bastante bien”. En este caso estamos hablando de un fichero 200 veces mayor.
La solución pasa por el impresionante editor FileViewer, (via esta página) un editor de texto que te abre el gigantesco fichero de inmediato, porque es capaz de abrirlo en partes. Usando este programa se puede partir la enciclopedia en ficheros de texto más pequeños, de forma manual sin tener que usar un “file splitter”.

¿Y cual es el primer artículo que viene en este megafichero? Anarquismo. Dudo que sea una coincidencia.
¿El último artículo de la Wikipedia? Pues descartando los artículos de dos líneas, Juegos de SKATE On-line (esa sí que es una entrada bizarra).

7 comentarios en «La Wikipedia descargable»

  1. Efectivamente, algún día cerrarán el grifo. Es como cuando abres un puzzle, pura anarquía, todas las fichas desordenadas. Pero poquito a poco todo va cogiendo orden. Y aunque nos hagan creer lo contrario, las piezas no las colocamos nosotros. Nuestros nietos fliparán cuando les contemos todo lo que teníamos gratis.

  2. El posible mecanismo de cierre tiene un nombre: Trusted Computing.
    También ya les vale a los de la Wikipedia. Existiendo cienes de soluciones más amables para distribuir esa cantidad de información…

  3. 2 horas/dia para peliculas, 4litros de agua al dia, dormir 8 horas… y leer de todo, joder que estresss. yo soy mas de la rama “bajatelotuqueeresmuyhabilydespuesmelopasas”, y por supuesto si me pasan un xml del infierno opto por el “andacovierteloenpaginasweblocalesqueeresmuyhabilydespuesmelopasas”

  4. No creo que algun día vayan a “cerrar el grifo”. Entre otras cosas, porque de poder hacerlo ya lo habrían cerrado.
    De cualquier forma, rompo una lanza a favor de los que se dedican a hacer películas y componer música con el fin de ganarse la vida. ES un modo tan digno como cualquier otro.
    Y me río de los absurdos que tienen permanentemente encendido el emule para cargar de basura su ordenador, gigas y más gigas de pelis que nunca van a ver o música que nunca van a escuchar.
    Claaaaaaaaro, como es gratis hay que bajárselo…..
    [Comentario zrubavel: Me rio de la gente que no cree posible que España entre en una guerra (de verdad) en los próximos 40 años, o se imponga una dictadura o la electricidad sea tan cara que no compense encender el ordenador.
    Por no hablar de cambios sociales mucho menores.]

  5. ¿Qué ya lo habrían cerrado? Pero que tontería, anda que todavía no queda banda ancha para estafarnos y megas que necesitaremos para bajar películas en alta definición, a unos 20 gb la peli.
    “Aprovecha ahora que tu novia es guapa y delgada que en gorda y sucia se convertirá”

  6. lo que se complica la gente la existencia con tal de no pagar…
    mucha gente tiene el adsl solo para bajarse pelis tontas y música que no escuchan. y eso cuando no es porno malo
    40 € / mes * 12 = 500 €
    joder la de pelis y discos que se pueden comprar con eso
    sigo pensando que no creo que ocurra, sencillamente porque el intercambio de bytes en sí mismo es imposible de controlar (llámese emule o platanitus), los grandes portales se financian mediante publicidad (vamos, como las revistas y los periódicos) y porque….. ya pagamos bastante por tan poco servicio, no creeis????
    el día que cierren wikipedia y haya que pagar…. monto yo otra alternativa. Queda dicho
    Por cierto, wikipedia en español tiene 240.000 articulos. Y subiendo. Búscame una en papel parecida

  7. “joder la de pelis y discos que se pueden comprar con eso”
    Pues con 500 euros al año puedes comprar 25 dvds.
    Tu razonamiento es el mismo que el que no se compra una tele porque por el mismo dinero va muchas veces al cine.

Los comentarios están cerrados.