Planeta Wikimedia

Novembro 05, 2009

Rei-artur

Jimmy Wales é premiado pela Fundação Nokia

A Fundação Nokia concedeu nesta terça-feira seu prêmio anual ao criador da Wikipedia, Jimmy Wales, “por suas contribuições para a evolução da Worl Wide Web como uma plataforma participativa e verdadeiramente democrática”, de acordo com comunicado da fundação.

Para a Fundação, Wales é “um indivíduo que tem contribuido de forma singular para acelerar a colaboração online e a interação de milhões de pessoas em todo o mundo, assim como para democratizar a troca de informações”.

Desde sua criação, em 2001, a Wikipedia evoluiu graças a colaborações espontâneas dos internautas, até converter-se em um dos sites mais consultados na internet, com uma média de 330 milhões de visitas ao mês.

fonte: Terra

by Rei-artur at Novembro 05, 2009 07:37

Novembro 04, 2009

Rei-artur

Habemus Papam

Foi hoje divulgado a acta da 1º assembleia geral da Wikimédia Portugal.

A associação recentemente criada e está a dar os seus primeiros passos, o início é sempre o mais complicado e o mais chato, tratar de burocracias legais.

Boa sorte a toda a direcção.

by Rei-artur at Novembro 04, 2009 09:27

Outubro 24, 2009

Wikiesfera

Wave Teste

Abaixo uma Wave Teste. Julgo que só pode ser vista se tiverem uma conta Google Wave activada.

by helix (noreply@blogger.com) at Outubro 24, 2009 07:15

Wikizine

Year: 2009 Week: 41-42 Number: 120

Technical newsRequest for help
  • [Perspectives from other projects] - the Wikipedia Signpost is calling for editors active in one or more non-English Wikipedias to write accounts comparing governance, process and policy, and editing culture across languages. The key questions are: how is it different working on another Wikipedia?; and what could English Wikipedia learn from that project—and vice versa?
Foundation
  • [Bookshelf Project: Manager Announced] - Frank Schulenburg (Head of Public Outreach) announced that Wikimedia's Bookshelf Project will be led by Marlita Kahn.  The Bookshelf project aims to develop a slate of basic educational materials -- print, online and video -- to attract new authors and editors to Wikipedia.
Community
  • [Nobel Prize] - when announcing the recipients of its Nobel Prize, the Nobel Prize committee used free photos from Wikimedia Commons to depict two of the prize winners.
  • [German ArbCom dissolves] - the German Wikipedia has dissolved its Arbitration Committee.  On projects that have them, the Arbitration Committee (or "ArbCom") is the final step in on-site dispute resolution.
  • [Wiktionary lookup gadget] - A new gadget is being developed on English Wikinews and slowly being spread to other wikis.  The gadget looks up the wiktionary definition for the language of the wiki you are reading, but what it returns is the definition in your user-preferences language.
Media
Did you know...
...about the proposal for global sysops on Meta-wiki?
http://meta.wikimedia.org/wiki/Global_sysop

Quote

"I really have no idea what most of those languages are, but I'm also super happy to support them." - Hampton Catlin, Mobile Wikipedia developer, after reporting the localization status of the Mobile Wikipedia site.

Editor(s): Casey, Alex Corrector(s): None Thanks to: Frank, Cary, Daniel, Philippe, Rodrigo, Liam, Infodisiac, Signpost, Tomasz, Sage, Michael Dale, Nimish, Bawolff, ShakataGaNai, ErikZ, Naoko, Arjun, Brianmc, Sage, Phoebe, Hampton, Sue, Jay, Luca, Erik, Greg Contact: reply or http://report.wikizine.org Website: http://www.wikizine.org

Wikizine.org makes no guarantee of accuracy, validity and especially but not limited to, correct grammar and spelling. Satisfaction is not guaranteed.Wikizine.org is published by [[meta:user:Walter]].
Wikizine is a irregular publication as long as there is noteworthy news (and time) Content is available under the GNU Free Documentation License http://www.gnu.org/copyleft/fdl.html and also the Creative Commons Attribution 2.5 Generic License http://creativecommons.org/licenses/by/2.5/

by Alex Zariv (Az1568) (noreply@blogger.com) at Outubro 24, 2009 01:10

Wikiesfera

Google Waves

Já ando a testar o Google Waves. Já li qualquer coisa sobre integração de ondas e projectos Wikimedia, mas não me recordo onde. Promete ser uma ferramenta interessante de colaboração, mesmo no universo Wikimedia.

Ele são gadgets, extensões, bots. Falando em bots, existe já um ligado às coisas da wikipédia. O wikifier-wave-bot:

A simple Google Wave robot that replaces specific text with a link to Wikipedia or the Wikipedia definition contained in the article

E isto é só mesmo o começo. Promete muito mais.

Entretanto, enquanto escrevia isto, lá cheguei a alguns links de interesse:

Extensão Google Wave
Uma extensão que permite colocar Waves embebidas no MediaWiki

Extensão MediaWiki-Wave
This extension provides a WYSIWYG interface where multiple people can edit the same MediaWiki article using Google Wave technology

Uma proposta na wiki da planeamento estratégico da Wikimedia

Para já é tudo.

by helix (noreply@blogger.com) at Outubro 24, 2009 01:06

Outubro 18, 2009

User:Nuno Tavares

Actualização das páginas órfãs

A pedido do Lijealso, aqui vai uma actualização das estatísticas incompletas da Wikipédia lusófona para o caso das páginas órfãs.

Constatou-se que o dump utilizado anteriormente era insuficiente, pelo que se descarregou a tabela pagelinks, desta vez do dump de 20091015. Para se excluir os redireccionamentos, importou-se também a tabela redirect.

Fartei-me entretanto de alternar entre o que estava a fazer e a lista de códigos de domínios, pelo que criei uma pequena tabela auxiliar:

MySQL:
  1. mysql> CREATE TABLE _namespaces ( id TINYINT NOT NULL, namespace VARCHAR(50), PRIMARY KEY (id) );
  2. Query OK, 0 rows affected (0.01 sec)
  3.  
  4. mysql> INSERT INTO _namespaces VALUES (-2,'Media'),(-1,'Especial'),(0,''),(1,'Discussão'),(2,'Usuário'),(3,'Usuário Discussão'),(4,'Wikipedia'),(5,'Wikipedia Discussão'),(6,'Ficheiro'),(7,'Ficheiro Discussão'),(8,'MediaWiki'),(9,'MediaWiki Discussão'),(10,'Predefinição'),(11,'Predefinição Discussão'),(12,'Ajuda'),(13,'Ajuda Discussão'),(14,'Categoria'),(15,'Categoria Discussão'),(100,'Portal'),(101,'Portal Discussão'),(102,'Anexo'),(103,'Anexo Discussão');
  5. Query OK, 22 rows affected (0.00 sec)
  6. Records: 22  Duplicates: 0  WARNINGS: 0

O resultado deu-me um incrível total de 769854 páginas órfãs, pelo que decidi separá-las por namespace para permitir prioritizar a análise:

MySQL:
  1. mysql> SELECT p.page_namespace,count(1) FROM page p
  2.     -> LEFT JOIN redirect  r
  3.     -> ON p.page_id = r.rd_from
  4.     ->
  5.     -> LEFT JOIN pagelinks pl
  6.     -> on pl.pl_namespace = p.page_namespace
  7.     -> and pl.pl_title = p.page_title
  8.     ->
  9.     -> WHERE r.rd_from IS NULL
  10.     -> AND pl.pl_from IS NULL
  11.     ->
  12.     -> GROUP BY p.page_namespace;
  13. +----------------+----------+
  14. | page_namespace | count(1) |
  15. +----------------+----------+
  16. |              0 |    12958 |
  17. |              1 |   103645 |
  18. |              2 |    16592 |
  19. |              3 |   568675 |
  20. |              4 |     1954 |
  21. |              5 |      856 |
  22. |              8 |      773 |
  23. |              9 |       17 |
  24. |             10 |     7522 |
  25. |             11 |     1014 |
  26. |             12 |        3 |
  27. |             13 |       27 |
  28. |             14 |    51735 |
  29. |             15 |     1315 |
  30. |            100 |     1190 |
  31. |            101 |      117 |
  32. |            102 |      173 |
  33. |            103 |     1288 |
  34. +----------------+----------+
  35. 18 rows in SET (20.90 sec)

O resultado do cruzamento das duas tabelas foi afixado aqui, com uma listagem de 15M para os 12958 artigos no domínio principal. Na verdade, esta listagem foi feita para colar numa página wiki, no entanto tenham em atenção que são 15M, pelo que não recomendo fazê-lo. Têm outras listas (como a mais simples, em formato pageid,namespace,title) nessa directoria.

by ntavares at Outubro 18, 2009 03:45

Outubro 17, 2009

Rei-artur

Deveres mais deveres e ainda mais deveres

Recentemente foi criada mais uma regra sem qualquer sentido, todos os administradores como menos de 50 edições administrativas nos últimos 180 dias perdem o cargo.

A lista do que perderam o cargo:

Eu fui um dos abrangidos, para ser honesto, eu claro que não gostei, como se costuma dizer,”Quem não se sente não é filho de boa gente”.

Mas neste processo houve especialmente duas desnomeações que eu considero ridículas, a do Waldir e da Belanidia. Retiram à Belanidia quando esta ainda era burocrata e o caso do Waldir é o “agradecimento” que a comunidade lhe deu pelo enorme trabalho que ele tem tido e ainda tem na criação da Wikimedia Portugal. Se ele não tivesse a trabalhar na criação da associação talvez tivesse tempo para fazer as edições.

Nos últimos tempo a Wikipédia está a sofre uma onda de deveres e burocracias desmedidas, actualmente tanto a nível de editor ou de administrador é quase necessário ler uma “biblia” de regras e obrigações. Nunca podemos esquecer que somos voluntários e como tal só podemos participar neste projectos nos nossos tempos livre.

E como disse o Daniel:

Precisa-se de Administrador. Requisições: Estatura moral e ética acima de qualquer profissão do planeta. Agora sem direito a férias. Salário: hein?

Pois é com tantos deveremos também devíamos de ter algum direito como o salário…

A Wikipédia está se a transformar num projecto para putos de 15 anos que não fazem nada na vida ou para pessoas que tem empregos onde pode editar. Se não querem as minhas vinte e tal edições administrativas (é o que o tempo me permite) o problema não é meu, mas sim da Wikipédia, eu tenho mais que fazer, prefiro gastar o meu pouco tempo livre em coisas que me dão prazer, a Wikipédia já não me dá…

by Rei-artur at Outubro 17, 2009 10:56

Outubro 16, 2009

Sir Lestaty de Lioncourt

Nada muda...

Faça uma Wikimedia mais feliz! Participe globalmente de seus projetos!

Estava pensando em escrever muita coisa, porém ao clicar em uma página aleatória do Wikiquote achei uma bela citação que acho ser suficiente pra retornar para a comunidade Wikimediana.

Quote:
"Acho que a primeira prova da grandeza de um homen é a sua humildade."
John Ruskin

by Sir Lestaty de Lioncourt (noreply@blogger.com) at Outubro 16, 2009 09:19

Outubro 13, 2009

Rei-artur

WikiReader: Wikipedia no bolso

Um novo dispositivo que começa a ser vendido nesta terça-feira promete levar 3,1 milhões de artigos da Wikipedia no bolso de quem o comprar.

É o WikiReader, que, por enquanto, só traz informações da enciclopédia online em inglês.

O WikiReader funciona com duas pilhas AAA e tem a tela sensível ao toque e apenas três botões na sua parte frontal: um para buscar informações, outro que acessa o histórico de artigos vistos e um randômico, que traz páginas ao acaso.

Fonte: Terra

by Rei-artur at Outubro 13, 2009 07:52

Outubro 12, 2009

Rei-artur

Os mais influentes

É a segunda vez que Steven Jobs assume o primeiro lugar do ranking dos mais influentes no sector da tecnologia mundial, o que aconteceu também em 2003.

Steve Jobs, director-executivo da Apple, é a pessoa mais influente da indústria tecnológica de acordo com a selecção da Agenda Setter 2009, divulgada pelo site Silicon.com.

Top Ten

  1. Steve Jobs – Apple CEO
  2. Evan Williams – Twitter CEO and co-founder
  3. Jimmy Wales – Wiki Media founder and co-founder of Wikipedia
  4. Eric Schmidt – Google CEO
  5. Rupert Murdoch – News Corp CEO
  6. Mark Zuckerberg – Facebook founder
  7. Barack Obama – US President
  8. Tim Berners-Lee – Father of the world wide web
  9. Nandan Nilekani – Head of the Unique Identification Authority of India and co-founder of Infosys
  10. Larry Ellison – Oracle CEO

fonte: pplware

by Rei-artur at Outubro 12, 2009 06:52

Outubro 10, 2009

Wikizine

Year: 2009 Week: 41 Number: 119

Technical news
  • [Labs: FlaggedRevs] - due to some miscommunications, a lot of people didn't realize that the FlaggedRevs labs test wiki has been active and waiting for people to poke at it for a month.  The developers need interested people to be set up as local administrators to try out the per-page stabilization settings (accessed via the "protect" tab); by default most pages do not activate FlaggedRevs in the configuration we're testing for English Wikipedia.
Foundation
Agenda
Community
Media
Stats
  • [ru.ws] - The Russian Wikisource has reached 50,000 texts.
  • [hy.wp] - The Armenian Wikipedia has reached 5,000 articles.
Other news
  • [WikipediaVision] - A student from Helsinki has created "WikipediaVision", a live visualization of anonymous edits to Wikipedia by location. The site combines Wikipedia's Recent Changes feed with Google Maps.  Although this seems to have been around for a while, the link has resurfaced after it was exhibited live at MFK in Bern (from April until August).
Did you know ...

...that you can even upload home movies to Wikipedia?  Wikipedia's video support is improving, Wikimedians have even been uploading videos of their children illustrating certain Wikipedia topics.
http://lists.wikimedia.org/pipermail/wikien-l/2009-September/104617.html
http://en.wikipedia.org/wiki/Moro_reflex

Quote
"A man is but the product of his thoughts what he thinks, he becomes." -- Mohandas Gandhi

Editor(s): Alex, Casey Corrector(s): Thanks to: Sue, Liam, Kat, jeblad, Rand, Judson, Belayet, Shizhao, bawolff, David, Brion, Otourly, Cary, Sage, Gerard, Signpost, @WikimediaDE, Andrew, Ziko, Erik, Philippe, Filip, Milos, Belayet, Jon, Platonides Contact: reply or http://report.wikizine.org Website: http://www.wikizine.org

Wikizine.org makes no guarantee of accuracy, validity and especially but not limited to, correct grammar and spelling. Satisfaction is not guaranteed.Wikizine.org is published by [[meta:user:Walter]].
Wikizine is a irregular publication as long as there is noteworthy news (and time) Content is available under the GNU Free Documentation License http://www.gnu.org/copyleft/fdl.html and also the Creative Commons Attribution 2.5 Generic License http://creativecommons.org/licenses/by/2.5/

by Alex Zariv (Az1568) (noreply@blogger.com) at Outubro 10, 2009 11:39

Outubro 06, 2009

User:Nuno Tavares

Revisita aos dumps da Wikipédia

Desta vez em português, decidi dar [alguma] continuidade ao que comecei há uns dias com a importação dos dumps da Wikipédia. Graças à dica do Rei-artur foi fácil extrair a lista de robôs, para excluir das estatísticas.

CODE:
  1. [myself@speedy ~]# wget 'http://pt.wikipedia.org/w/api.php?action=query&list=allusers&aufrom=A&augroup=bot&aulimit=500&format=txt' -q -O - > bots.tmp
  2.  
  3. [myself@speedy ~]# cat bots.tmp | grep '\[name\]' | sed 's,^.*\[name\] => ,,' > /tmp/bots.txt

Aproveitei e repesquei os user_id para simplificar as pesquisas sem fazer alterações na tabela user.

MySQL:
  1. mysql> CREATE TABLE user_bots ( bot_name VARCHAR(25) );
  2. Query OK, 0 rows affected (0.01 sec)
  3.  
  4. mysql> LOAD DATA INFILE '/tmp/bots.txt' INTO table user_bots;
  5. Query OK, 136 rows affected (0.00 sec)
  6. Records: 136  Deleted: 0  Skipped: 0  WARNINGS: 0
  7.  
  8.  
  9. mysql> ALTER TABLE user_bots add COLUMN bot_user_id INT;
  10. Query OK, 136 rows affected (0.01 sec)
  11. Records: 136  Duplicates: 0  WARNINGS: 0
  12.  
  13. mysql> ALTER TABLE user add index idx_t ( user_name );
  14. Query OK, 119134 rows affected (2.63 sec)
  15. Records: 119134  Duplicates: 0  WARNINGS: 0
  16.  
  17. mysql> UPDATE user_bots ub JOIN user u on user_name = bot_name SET ub.bot_user_id = u.user_id;
  18. Query OK, 134 rows affected (0.00 sec)
  19. Rows matched: 134  Changed: 134  WARNINGS: 0
  20.  
  21. mysql> ALTER TABLE user_bots add PRIMARY KEY (bot_user_id);
  22. Query OK, 136 rows affected, 1 warning (0.00 sec)
  23. Records: 136  Duplicates: 0  WARNINGS: 1
  24.  
  25. mysql> SHOW WARNINGS;
  26. +---------+------+---------------------------------------------------+
  27. | Level   | Code | Message                                           |
  28. +---------+------+---------------------------------------------------+
  29. | Warning | 1265 | Data truncated for COLUMN 'bot_user_id' at row 71 |
  30. +---------+------+---------------------------------------------------+
  31. 1 row in SET (0.00 sec)
  32.  
  33. mysql> UPDATE user_bots SET bot_user_id = -1 WHERE bot_user_id = 0;
  34. Query OK, 1 row affected (0.00 sec)
  35. Rows matched: 1  Changed: 1  WARNINGS: 0

Não tinha reparado que havia um utilizador/robô com o nome "MediaWiki default" mas, bem, depois de criar a Primary Key ficou com o bot_user_id=0 e, para evitar que coincidisse com o agregado para anonymous, dei-lhe o bot_user_id=-1.

Então agora já estamos prontos a completar a query onde ficámos no último dia (número de edições em artigos distintos em cada namespace por utilizador):

MySQL:
  1. mysql> EXPLAIN SELECT epn.user_name,epn.page_namespace,epn.edits
  2.     -> FROM edits_per_namespace epn
  3.     -> LEFT JOIN user_bots ub ON epn.user_id = ub.bot_user_id
  4.     -> WHERE ub.bot_user_id IS NULL
  5.     -> AND epn.user_id <> 0
  6.     -> ORDER BY edits desc limit 20;
  7. +----+-------------+-------+--------+---------------+---------+---------+----------------------+--------+--------------------------------------+
  8. | id | select_type | table | type   | possible_keys | key     | key_len | ref                  | rows   | Extra                                |
  9. +----+-------------+-------+--------+---------------+---------+---------+----------------------+--------+--------------------------------------+
  10. 1 | SIMPLE      | epn   | ALL    | NULL          | NULL    | NULL    | NULL                 | 187624 | USING WHERE; USING filesort          |
  11. 1 | SIMPLE      | ub    | eq_ref | PRIMARY       | PRIMARY | 4       | ntavares.epn.user_id |      1 | USING WHERE; USING index; NOT EXISTS |
  12. +----+-------------+-------+--------+---------------+---------+---------+----------------------+--------+--------------------------------------+
  13. 2 rows in SET (0.00 sec)
  14.  
  15. mysql> SELECT epn.user_name,epn.page_namespace,epn.edits
  16.     -> FROM edits_per_namespace epn
  17.     -> LEFT JOIN user_bots ub ON epn.user_id = ub.bot_user_id
  18.     -> WHERE ub.bot_user_id IS NULL
  19.     -> AND epn.user_id <> 0
  20.     -> ORDER BY edits desc limit 10;
  21. +----------------+----------------+-------+
  22. | user_name      | page_namespace | edits |
  23. +----------------+----------------+-------+
  24. | EMP,Nice poa   |              0 | 58138 |
  25. | Dantadd        |              0 | 44767 |
  26. | João Carvalho  |              3 | 44533 |
  27. | OS2Warp        |              0 | 43396 |
  28. | Yanguas,Sonlui |              0 | 37020 |
  29. | Lijealso       |              0 | 34157 |
  30. | Rei-artur      |              0 | 33863 |
  31. | Tumnus         |              3 | 33213 |
  32. | Nuno Tavares   |              0 | 31910 |
  33. | Bisbis         |              0 | 29886 |
  34. +----------------+----------------+-------+
  35. 10 rows in SET (0.76 sec)

Os resultados completos estão aqui.

Já agora, para finalizar, a tão afamada lista de wikipedistas por número de edições:

MySQL:
  1. mysql> CREATE TABLE edits_per_user SELECT rev_user,count(1) as counter FROM revision GROUP BY rev_user;
  2. Query OK, 119134 rows affected (12.61 sec)
  3. Records: 119134  Duplicates: 0  WARNINGS: 0
  4.  
  5. mysql> SELECT u.user_name,epu.counter
  6.     -> FROM edits_per_user epu
  7.     -> LEFT JOIN user_bots ub on ub.bot_user_id = epu.rev_user
  8.     -> JOIN user u on epu.rev_user = u.user_id
  9.     -> WHERE ub.bot_user_id IS NULL ORDER BY counter desc limit 10;
  10. +----------------+---------+
  11. | user_name      | counter |
  12. +----------------+---------+
  13. | anonymous      | 3119758 |
  14. | EMP,Nice poa   |  176338 |
  15. | OS2Warp        |  163751 |
  16. | Dantadd        |  105657 |
  17. | Lijealso       |   90025 |
  18. | Yanguas,Sonlui |   89152 |
  19. | Rei-artur      |   83662 |
  20. | Mschlindwein   |   75680 |
  21. | Bisbis         |   75361 |
  22. | Nuno Tavares   |   73141 |
  23. +----------------+---------+
  24. 10 rows in SET (0.05 sec)

Os resultados completos estão aqui.

by ntavares at Outubro 06, 2009 12:44

Outubro 03, 2009

User:Nuno Tavares

Revisita aos dados estruturados

Há alguns dias num mergulho profundo sobre a utilização de wikis em campos específicos deparei-me com uma "foto" da Wikipédia muito interessante, aqui, que ilustra, entre outras coisas, a actividade na Wikipédia, a vários níveis: Visualizing Science & Tech Activity in Wikipedia:


Fonte: A Beatiful WWW

O website, A Beatiful WWW, dedica-se à extracção e representação dos volumes de informação distintos que conhecemos hoje. Eu já tinha falado nisto e descobri, entretanto, que o Google disponibiliza uma API de representação de dados estruturados.

Consigo pensar numa série de brincadeiras para isto :) Imaginem, por exemplo, juntar isto tudo, logo agora que a Wikimedia vai estar empenhada em manter os conteúdos disponíveis no Amazon Public Data Sets!..

Olhem aqui um exemplo do que pode ser feito, desta vez com Hadoop e Hive: Hot Wikipedia Topics, Served Fresh Daily.

by ntavares at Outubro 03, 2009 02:36

Setembro 28, 2009

User:Nuno Tavares

Importing wikimedia dumps

We are trying to gather some particular statistics about portuguese wikipedia usage.
I proposed myself for import the ptwiki-20090926-stub-meta-history dump, which is a XML file, and we'll be running very heavy queries (it's my task to optimize them, somehow).

What I'd like to mention is that the importing mechanism seems to be tremendously simplified. I remember testing a couple of tools in the past, without much success (or robustness). However, I gave a try to mwdumper this time, and it seems it does it. Note however that there were schema changes from the last mwdumper release, so you should have a look at WMF Bug #18328: mwdumper java.lang.IllegalArgumentException: Invalid contributor which releases a proposed fix which seems to work well. Special note to its memory efficiency: RAM is barely touched!

The xml.gz file is ~550MB, and was converted to a ~499MB sql.gz:

1,992,543 pages (3,458.297/sec), 15,713,915 revs (27,273.384/sec)

I've copied the schema from a running (updated!) mediawiki to spare some time. The tables seem to be InnoDB default, so let's simplify I/O a bit (I'm on my laptop). This will also allow to speed up loading times a lot:

MySQL:
  1. mysql> ALTER TABLE `TEXT` ENGINE=Blackhole;
  2. Query OK, 0 rows affected (0.01 sec)
  3. Records: 0  Duplicates: 0  WARNINGS: 0
  4.  
  5. mysql> ALTER TABLE page DROP INDEX page_random, DROP INDEX page_len;
  6. Query OK, 0 rows affected (0.01 sec)
  7. Records: 0  Duplicates: 0  WARNINGS: 0
  8.  
  9. mysql> ALTER TABLE revision DROP INDEX rev_timestamp, DROP INDEX page_timestamp, DROP INDEX user_timestamp, DROP INDEX usertext_timestamp;
  10. Query OK, 0 rows affected (0.01 sec)
  11. Records: 0  Duplicates: 0  WARNINGS: 0

The important here is to avoid the larger I/O if you don't need it at all. Table text has page/revision content which I'm not interested at all. As regarding MySQL's configuration (and as a personal note, anyway), the following configuration will give you great InnoDB speeds:

CODE:
  1. key_buffer = 512K
  2. sort_buffer_size = 16K
  3. read_buffer_size = 2M
  4. read_rnd_buffer_size = 1M
  5. myisam_sort_buffer_size = 512K
  6. query_cache_size = 0
  7. query_cache_type = 0
  8. bulk_insert_buffer_size = 2M
  9.  
  10. innodb_file_per_table
  11. transaction-isolation = READ-COMMITTED
  12. innodb_buffer_pool_size = 2700M
  13. innodb_additional_mem_pool_size = 20M
  14. innodb_autoinc_lock_mode = 2
  15. innodb_flush_log_at_trx_commit = 0
  16. innodb_doublewrite = 0
  17. skip-innodb-checksum
  18. innodb_locks_unsafe_for_binlog=1
  19. innodb_log_file_size=128M
  20. innodb_log_buffer_size=8388608
  21. innodb_support_xa=0
  22. innodb_autoextend_increment=16

Now I'd recommend uncompress the dump so it's easier to trace the whole process if it's taking too long:

CODE:
  1. [myself@speedy ~]$ gunzip ptwiki-20090926-stub-meta-history.sql.gz
  2. [myself@speedy ~]$ cat ptwiki-20090926-stub-meta-history.sql | mysql wmfdumps

After some minutes on a Dual Quad Core Xeon 2.0GHz and 2.4 GB of datafiles we are ready to rock! I will probably also need later the user table, which Wikimedia doesn't distribute, so I'll rebuild it now:

MySQL:
  1. mysql> ALTER TABLE user modify COLUMN user_id INT(10) UNSIGNED NOT NULL;
  2. Query OK, 0 rows affected (0.12 sec)
  3. Records: 0  Duplicates: 0  WARNINGS: 0
  4.  
  5. mysql> ALTER TABLE user DROP INDEX user_email_token, DROP INDEX user_name;
  6. Query OK, 0 rows affected (0.03 sec)
  7. Records: 0  Duplicates: 0  WARNINGS: 0
  8.  
  9. mysql> INSERT INTO user(user_id,user_name) SELECT DISTINCT rev_user,rev_user_text FROM revision WHERE rev_user <> 0;
  10. Query OK, 119140 rows affected, 4 WARNINGS (2 min 4.45 sec)
  11. Records: 119140  Duplicates: 0  WARNINGS: 0
  12.  
  13. mysql> ALTER TABLE user DROP PRIMARY KEY;
  14. Query OK, 0 rows affected (0.13 sec)
  15. Records: 0  Duplicates: 0  WARNINGS: 0
  16.  
  17. mysql> INSERT INTO user(user_id,user_name) VALUES(0,'anonymous');
  18. Query OK, 1 row affected, 4 WARNINGS (0.00 sec)

It's preferable to join on INT's rather than VARCHAR(255) that's why I reconstructed the user table. I actually removed the PRIMARY KEY but I set it after the process. What happens is that there are users that have been renamed and thus they appear with same id, different user_name. The query to list them all is this:

MySQL:
  1. mysql> SELECT a.user_id,a.user_name FROM user a JOIN (SELECT user_id,count(1) as counter FROM user GROUP BY user_id HAVING counter > 1 ORDER BY counter desc) as b on a.user_id = b.user_id ORDER BY user_id DESC;
  2. ....
  3. 14 rows in SET (0.34 sec)
  4.  
  5. mysql> UPDATE user a JOIN (SELECT user_id,GROUP_CONCAT(user_name) as user_name,count(1) as counter FROM user GROUP BY user_id HAVING counter > 1) as b SET a.user_name = b.user_name WHERE a.user_id = b.user_id;
  6. Query OK, 14 rows affected (2.49 sec)
  7. Rows matched: 14  Changed: 14  WARNINGS: 0

The duplicates were removed manually (they're just 7). Now, let's start to go deeper. I'm not concerned about optimizing for now. What I wanted to run right away was the query I asked on Toolserver more than a month ago:

MySQL:
  1. mysql>  CREATE TABLE `teste` (
  2.     ->   `rev_user` INT(10) UNSIGNED NOT NULL DEFAULT '0',
  3.     ->   `page_namespace` INT(11) NOT NULL,
  4.     ->   `rev_page` INT(10) UNSIGNED NOT NULL,
  5.     ->   `edits` INT(1) UNSIGNED NOT NULL,
  6.     ->   PRIMARY KEY (`rev_user`,`page_namespace`,`rev_page`)
  7.     -> ) ENGINE=INNODB DEFAULT CHARSET=latin1 ;
  8. Query OK, 0 rows affected (0.04 sec)
  9.  
  10. mysql> INSERT INTO teste SELECT r.rev_user, p.page_namespace, r.rev_page, count(1) AS edits FROM revision r JOIN page p ON r.rev_page = p.page_id GROUP BY r.rev_user,p.page_namespace,r.rev_page;
  11. Query OK, 7444039 rows affected (8 min 28.98 sec)
  12. Records: 7444039  Duplicates: 0  WARNINGS: 0
  13.  
  14. mysql> CREATE TABLE edits_per_namespace SELECT STRAIGHT_JOIN u.user_id,u.user_name, page_namespace,count(1) as edits FROM teste JOIN user u on u.user_id = rev_user GROUP BY rev_user,page_namespace;
  15. Query OK, 187624 rows affected (3.65 sec)
  16. Records: 187624  Duplicates: 0  WARNINGS: 0
  17.  
  18. mysql> SELECT * FROM edits_per_namespace ORDER BY edits desc limit 5;
  19. +---------+---------------+----------------+--------+
  20. | user_id | user_name     | page_namespace | edits  |
  21. +---------+---------------+----------------+--------+
  22. |   76240 | Rei-bot       |              0 | 365800 |
  23. |       0 | anonymous     |              0 | 253238 |
  24. |   76240 | Rei-bot       |              3 | 219085 |
  25. |    1740 | LeonardoRob0t |              0 | 145418 |
  26. 170627 | SieBot        |              0 | 121647 |
  27. +---------+---------------+----------------+--------+
  28. 5 rows in SET (0.09 sec)

Well, that's funny Rei-artur's bot beats all summed anonymous edits on the main namespace :) I still need to setup a way of discarding the bots, they usually don't count on stats. I'll probably set a flag on the user table myself, but this is enough to get us started..

by ntavares at Setembro 28, 2009 01:48

Setembro 27, 2009

Wikizine

Year: 2009 Week: 37 Number: 118

Technical news
Request for help
Foundation
  • [Wikimedia and OneWebDay] - September 22 was OneWebDay, a day that aims to highlight the critical importance of protecting the values and principles of an open, participatory web.  In a blog post, Jay Walsh used the OneWebDay initiative to thank Wikimedia's huge volunteer force.
Agenda
  • [Wikimedia Staff office hours] - after the success of the Strategic Planning "Office Hours", the Wikimedia Foundation has decided to hold its own as well.  Sue Gardner, the Executive Director, will be online to answer questions in #wikimedia-office on freenode.  The "office hours" will be between 15:30 and 16:30 PDT (UTC 22:30 to 23:30) on Friday, September 25, 2009.
Community
Media
Stats
  • [hi.wp] - The Hindi Wikipedia has reached 50,000 articles.
  • [cbk-zam] - The Zamboanga Chavacano Wikipedia has reached 1,000 articles.
  • [Forget articles, it's editors] - Erik Zachte, the maintainer of Infodisiac (the Wikimedia statistics website), wrote a blog post about how we should stop focusing on the article count.  Instead, we should be focusing on the number of editors the site has (and other aspects of community participation).
Other news
  • [WikiMarriage] - two Wikimedians got married this weekend: Arne Klempert (akl) and Delphine Ménard (notafish).  Arne is currently a member of the Board of Trustees and Delphine is the former Chapters coordinator and current Treasurer of Wikimédia France.  Congratulations to the new WikiNewlyweds!

Did you know ...

...that the Wikipedia Mobile interface provides anonymous statistics about its use?  The stats page provides total traffic, average page serving speed, and more.
http://stats.m.wikipedia.org/

Quote

"I am not asking you to explain Wikipedia here, I'm asking for a vision!" - Femke Halsema

(The Chair of the Netherlands's Green Party interrupted the presentation of the new government budget to Parliament with that when the Prime Minister referred to the many committees that are going to search for potential budget cuts.)

Editor(s): Alex, Casey, Thanks to: Sue, Sage, Brianna, Leinad, Pharos, Dcljr, Hampton, Sj, Erik Z, Lodewijk, Rjd, Brion, Cary, Submarine, Philippe, Eugene, Gerard, Janson, Anders, Nihiltres, Frank, Amgine, David, Contact: reply or http://report.wikizine.org, Website: http://www.wikizine.org

Wikizine.org makes no guarantee of accuracy, validity and especially but not limited to, correct grammar and spelling. Satisfaction is not guaranteed.Wikizine.org is published by [[meta:user:Walter]].Wikizine is a irregular publication as long as there is noteworthy news (and time) Content is available under the GNU Free Documentation License http://www.gnu.org/copyleft/fdl.html  and also the Creative Commons Attribution 2.5 Generic License http://creativecommons.org/licenses/by/2.5/

by Alex Zariv (Az1568) (noreply@blogger.com) at Setembro 27, 2009 01:48

Setembro 17, 2009

Wikizine

Year: 2009 Week: 36 Number: 117

Technical news
  • [Mobile survey] - the Wikipedia Mobile team is running a survey, hoping to get feedback on their progress so far and suggestions for future additions.
Foundation
  • [Usability Beta Status] - Naoko Komura, Program Manager for the Usability Initiative, gave an update on the status of the usability updates (the "Try Beta" link).  She also included statistics on how often they were enabled/kept enabled.
Legal
Community
  • [Restoration Discovery] - Durova, one of the people on Commons who works on restoring images, received a pleasant surprise.  While restoring a photo, she discovered that there was actually human remains in picture.  This discovery has been noted in the Montreal Museum of Fine Arts and the Library of Congress even credited her in its bibliographic record.
Media

Stats
  • [th.wp] - the Thai Wikipedia has reached 50,000 articles.
Other news
Did you know ...

...the first public cell phone call was made on April 3, 1973 by Martin Cooper?

Quote

"Far and away the best prize that life has to offer is the chance to work hard at work worth doing." -- Theodore Roosevelt

Editor(s): Casey, Alex, Corrector(s): Rjd0060, Thanks to: Ainali, Mike, WikimediaMobile, infodisiac (Erik Z), Hampton, Mathias, Sj, Gerard, Durova, Austin, Sue, Marcin, Rand, Frieda, Tanvir, David, Phoebe, Naoko, Brion, Kat, Signpost, Mxn, and Daniel Contact: reply or http://report.wikizine.org
Website: http://www.wikizine.org Wikizine.org makes no guarantee of accuracy, validity and especially but not limited to, correct grammar and spelling. Satisfaction is not guaranteed. 

Wikizine.org is published by [[meta:user:Walter]]. Wikizine is a irregular publication as long as there is noteworthy news (and time) Content is available under the GNU Free Documentation License http://www.gnu.org/copyleft/fdl.html  and also the Creative Commons Attribution 2.5 Generic License http://creativecommons.org/licenses/by/2.5/  

by Alex Zariv (Az1568) (noreply@blogger.com) at Setembro 17, 2009 02:30

Setembro 16, 2009

Wikiesfera

Setembro 05, 2009

Rei-artur

Direitos contra Direitos

Vai decorrer amanhã (dia 6 de Setembro) no Porto, uma conferência sobre direitos de autor, é uma pena é que Wikimedia Portugal ainda não está a 100%, seria interessante participar.

Mesmo assim quem poder passe por lá… Conta com a presença de eurodeputados e de especialista no assunto.

aqui está o programa

by Rei-artur at Setembro 05, 2009 08:42

Setembro 04, 2009

Rei-artur

Wikipédia mobile

Tive a testar a versão mobile da wikipedia e gostei, é a melhor maneira para ver a wikipedia no telemóvel/celular. Fica aqui a algumas screenshot do smartphones htc magic. nos próximos dias irei fazer mais posts semelhantes com outras aplicações disponíveis no Android Market.

screen_1

screen_2

screen_3

screen_4

screen_5

by Rei-artur at Setembro 04, 2009 08:49

Wikiesfera

Agosto 29, 2009

Wikizine

Year: 2009 Week: 34-35 Number: 116

Technical news
  • [SmartWikiSearch] - Smart Wiki Search, a "concept similarity" search, tries to make your Wikipedia search experience better by finding other Wikipedia pages that discuss the same or similar concepts to the one you searched for.

Request for help
  • [GLAM-WIKI Recommendations] - now that the GLAM-WIKI conference is over, Liam Wyatt (the conference coordinator) has compiled a list of recommendations to "GLAM", to Wikimedia, and to the government.  This list is based on the discussions and findings at the conference.
  • [Chapcom membership update] - the Chapters committee (those charged with coordinating the chapters, especially with getting new chapters started) welcomes two new members.  Milos Rancic and Lodewijk Gelauff replace the seats of Carlos Barcenilla and Michael Bimmler, who recently resigned.
Awards
Media
  • [Inkblot Poster] - remember the controversy on the English Wikipedia because there were copies of the Rorschach inkblot tests in the article?  Well, according to the New York Times, te doctor who helped publish the 10 inkblots is being investigated by his local doctors? organization after it received complaints that his actions were unprofessional.
Stats
Other news
  • [Wikipedia Diver] - a new Firefox add-on gives you a visual history of everywhere you've been on Wikipedia, and organizes it down to the day, order, and session in which you visited the sites, making it easy to revisit old entries.

Editor(s): Casey, Alex, Corrector(s): MarkW, Thanks to: Too many to name. Contact: reply or http://report.wikizine.org
Website: http://www.wikizine.org Wikizine.org makes no guarantee of accuracy, validity and especially but not limited to, correct grammar and spelling. Satisfaction is not guaranteed. 

Wikizine.org is published by [[meta:user:Walter]]. Wikizine is a irregular publication as long as there is noteworthy news (and time) Content is available under the GNU Free Documentation License http://www.gnu.org/copyleft/fdl.html  and also the Creative Commons Attribution 2.5 Generic License http://creativecommons.org/licenses/by/2.5/  

by Alex Zariv (Az1568) (noreply@blogger.com) at Agosto 29, 2009 04:16

Agosto 25, 2009

Wikiesfera

O dinheiro faz o mundo girar?

Omidyar Network today announced a grant of up to $2 million over two years to the Wikimedia Foundation, the non-profit organization that operates Wikipedia, one of the world’s top 5 most visited websites. The Wikimedia Foundation has also appointed Matt Halprin, a partner at Omidyar Network, to its Board of Trustees.

Já está a dar que falar...por exemplo na lista electrónica da Wikimedia Foundation.

Esta combinação de 2 frases dá muito que pensar.

Assumam a boa-fé.

by helix (noreply@blogger.com) at Agosto 25, 2009 11:11

Agosto 24, 2009

Rei-artur

Agosto 21, 2009

Rei-artur

Wikipedia recebe US$ 500 mil

A organização sem fins lucrativos que opera a maior enciclopédia online do mundo, a Wikipedia, recebeu uma doação no valor de 500 mil dólares da gigante The William and Flora Hewlett Foundation.

O aporte visa a ajudar na expansão do trabalho da Fundação Wikimedia em levar conteúdo educacional gratuito para pessoas em todo o mundo.

Segundo a agência Associated Press, a Hewlett Foundation declarou que a Wikipedia tem um importante papel em tornar a informação acessível. A fundação já recebeu mais de 100 milhões de dólares em doações desde 2001 para promover material educacional de alta qualidade, acessível a qualquer pessoa e sem qualquer custo.

Recentemente, a Fundação Wikimedia declarou que quer tornar seus serviços ainda mais fáceis de usar, desenvolvendo materiais de treinamento para engajar novos editores voluntários e implantar métricas que rastreiem o impacto da organização.

Em 2008, a enciclopédia colaborativa recebeu a maior doação individual de toda sua história: 3 milhões de dólares da Alfred P. Sloan Foundation.

fonte: idgnow

by Rei-artur at Agosto 21, 2009 03:43

Agosto 17, 2009

Wikiesfera

IPs

Já foram relatados vários casos de edição em artigos por parte de IPs que geraram alguma controvérsia, nomeadamente por causa de conflitos de interesse, por virem de redes de alguma forma relacionadas com os artigos.

De vez em quando detecto alguns.

Desta vez, foi um artigo que tentei salvar das páginas para eliminar, tentando colocar o máximo de referências possível.

A edição em causa, retirou todas as referências do artigo, eliminando também a última frase da biografia (por sinal, a mais referenciada de todas).

Estranhando a situação, decido fazer, como muitas vezes acontece, fazer um WHOIS ao IP.

E desta vez saiu BINGO.

O que vale é que não é um PM, presidente de um banco, ou afins.

by helix (noreply@blogger.com) at Agosto 17, 2009 04:31

Agosto 15, 2009

Rei-artur

DUMP wikipedia

Já a alguns meses que não fazia o download dos dump da wikipedia, e foi com muito agrado que vejo que finalmente já funciona com deve ser, foram anos consecutivos a dar problemas.

fica aqui em baixo a evolução dos dumps (pelo menos daqueles que eu tenho), desde 2007 até hoje

Dump wikipedia

by Rei-artur at Agosto 15, 2009 06:40

Agosto 14, 2009

Wikizine

Year: 2009 Week: 33 Number: 115

Technical news 
  • [clone $brion;] - Brion Vibber, the current Foundation CTO, announced that they want to split his position into two.  There will be a new Chief Technical Officer and Brion will become the "Senior Software Architect"; more information about the responsibilities of each can be found on the blog post.
  • ["Try Beta"] - Have you noticed the new "Try Beta" link at the top of Wikimedia project sites?  The usability team is proud to introduce the new skin, Vector, and the newly enhanced edit toolbar. Check it out and give them your feedback!

Request for help

  • [BBC & Wikimania] - this is a weird request for help, because it doesn't come from the community.  The BBC's "Digital Revolution", an open and collaborative documentary on the way the web is changing our lives, wants to come to Wikimania 2009 but can't make it!  They're looking for people to film some content for them, are you going to Wikimania and interested?  Visit the blog post for more information and contact them ASAP.

Proposals


Foundation


Agenda


Community


Media


Stats

  • [sr.wn 10k] - the Serbian Wikinews has reached 10,000 articles and is now the second largest Wikinews.
  • [pt.wp 500k] - following closely behind the Spanish Wikipedia (es), the Portuguese Wikipedia has also reached 500,000 articles!

Quote


"Anger makes you smaller, while forgiveness forces you to grow beyond what you were." - Cherie Carter-Scott


Editor(s): Alex, Casey, Corrector(s): Ryan, MarkW, Thanks to: Techman224, Wpedzich, Naoko, Erik, Brion, Milos, Pharos, @wikipedian, private musings, Sage, Siebrand, Julien, NuclearWarfare, Liam, Lijealso, Gerard, Contact: reply or http://report.wikizine.org
Website: http://www.wikizine.org, Wikizine.org makes no guarantee of accuracy, validity and especially but not limited to, correct grammar and spelling. Satisfaction is not guaranteed. 

Wikizine.org is published by [[meta:user:Walter]]. Wikizine is a irregular publication as long as there is noteworthy news (and time) Content is available under the GNU Free Documentation License http://www.gnu.org/copyleft/fdl.html  and also the Creative Commons Attribution 2.5 Generic License http://creativecommons.org/licenses/by/2.5/  

by Alex Zariv (Az1568) (noreply@blogger.com) at Agosto 14, 2009 05:53

Agosto 13, 2009

Rei-artur

Wikipédia lusófona chega aos 500 mil artigos

Mais de 500 mil artigos deram entrada, até esta quinta-feira, na Wikipédia em português ou lusófona. A Wikipédia é uma enciclopédia livre, na Internet, totalmente escrita por voluntários e mantida por uma fundação sem fins lucrativos chamada Wikimedia Foundation.

Das 267 versões em várias línguas, a Wikipédia lusófona foi a quinta a ser criada, em Maio de 2001, e encontra-se agora em nono lugar em relação às restantes, na questão do tamanho.

Trata-se de uma enciclopédia, onde qualquer pessoa tem o direito de editar ou criar um artigo, sem a necessidade de qualquer tipo de autorização ou de se identificar, explica a Wikipédia, em comunicado.

Em particular, a versão portuguesa é visualizada, em média, mais de 280 mil vezes por hora, e em geral, o domínio wikipedia.org é o sétimo mais visitado no mundo, o 16º mais visitado no Brasil e o 14º em Portugal, de acordo com o site Alexa Internet.

O convívio multicultural, proporcionado pela Wikipédia, é uma mais-valia salientada pelos utilizadores e colaboradores, que variam desde a imprensa ao meio académico.

O registo pode ser feito por qualquer pessoa, que poderá escolher um nome de utilizador para se identificar e ser reconhecido pelos restantes wikipedistas, denominação dos editores frequentes da enciclopédia livre.

Verifica-se uma ajuda mútua entre a comunidade de utilizadores. É o caso de um utilizador que ainda não domine o sistema e decide então passar pelo programa de tutoria, através do qual recebe ajuda de um utilizador experiente, de forma a poder familiarizar-se com a Wikipédia e todo o sistema de editoria.

Fonte: iol

Post to Twitter Tweet This Post

by Rei-artur at Agosto 13, 2009 07:46

Agosto 11, 2009

Wiking

"A" votação ou "A" hora

Há muito tempo em conversa informal que uma votação do fair use deveriam ser verificadas todas as contas votantes... para se averiguarem quais os fantoches que por ali andariam.

De acordo com a heurística do rei-artur à partida muitos fantoches estão identificados, mas, daquilo que vi em termos de distúrbio mental enquanto fui verificador,  acredito que muitos se deram ao trabalho de conquistar o direito ao voto com proxys diferentes. E à partida palpitaria para resultados semelhantes aos do rei-artur, ambos os lados têm gente apanhada mas o pró dominaria. Sim, é discriminação e não sei que mais...

 

Citei, há muitos posts, e por outras palavras, que pela wiki.pt como na vida, "se queres ser bom, morre ou ausenta-te", há sempre os bons, os maus e os que se foram embora e são deificados.

Só há meses passei a ter net em casa, editei sempre do trabalho. Editei com o braço partido, editei do estrangeiro, editei quando estava de férias, editei quando estava a trabalhar durante o suposto período de férias, e com directas em cima, editei quando tinha dois trabalhos, e muitas outras gabarolices...

 

Foi giro. Não gosto muito do que leio, não suporto muito do que se passa, e como não tenho força nem um milionésimo do entusiasmo inicial, só mesmo o vício que me faz ler as polémicas e não os artigos, prefiro, como tantos outros, ir. A wiki.pt é grande, vai continuar a crescer, e eu, espero definhar de pequenino...

by EP at Agosto 11, 2009 08:57

Agosto 10, 2009

User:Nuno Tavares

A importância da Wikipédia enquanto fonte de dados e não [tanto] de informação

Tão cedo comecei a ganhar destreza na Wikipédia, não pude evitar lamentar-me com o desperdício, em termos de esforço, da criação de artigos em texto corrido a partir de dados na forma bruta - não havia, aparentemente, grande forma de contornar. Com efeito, os artigos da Wikipédia são pautados por relações intrínsecas de dados sobre determinado assunto, e digeridos numa determinada língua para que nos sejam facultados na forma de informação, o que faz com que se tornem mais ou menos eloquentes, menos brutos, mas menos isolados, menos reutilizáveis. Por exemplo, IIRC Jorge, um dos pioneiros da Wikipédia lusófona, teve um esforço imenso em criar as Freguesias e Municípios de Portugal, em pequenos, sucintos, artigos com tanto português quanto se poderia gerar a partir de alguns dados do INE. O problema é que os anos iriam passar, e não haveria forma de actualizar esta informação a não ser fazendo-o manualmente um a um, porque entretanto alguém mudaria o formato do português. Mais tarde, no projecto da criação dos municípios brasileiros, orientado IIRC pelo E2m, alguém se terá apercebido desta dificuldade, e surgiram então os artigos com horríveis marcações (exemplo), provavelmente para alimentar bots que fariam parsing dos dados e fariam a substituição. Mas neste caso, como alguém barafustou meses mais tarde, a edição tornava-se terrível especialmente para os novatos, que se a medo editavam, então quando viam aquelas marcações fugiam!

Demorar-me-ia apenas 6 meses a aprender a trabalhar com bots e a perceber a utilidade das predefinições - a tal ponto que era conhecido pelo maluquinho das predefinições [desculpem não facultar referências, mas teria que procurá-las nos primórdios dos meus milhares de edições...] - para convencer-me que "já que perdemos tempo a fazer isto, faça-mo-lo de forma estruturada, aproximando-nos da linguagem das máquinas, sem prejuízo para a edição, e lancei-me no esforço de fazer isso mesmo: ressuscitando as freguesias e municípios com dados estrutrados.

Terminada esta tarefa, foi altura de iniciar a criação de artigos com base na informação estruturada, mantendo-a siponível (na verdade, houve séries de artigos que foram mesmo feitos com predefinições e, com uma passagem final, foram instanciados com subst:). Mas a informação estruturada iria agora manter-se, e mesmo que não constasse no texto corrido, seria sempre acessível (e facilmente actualizável) nos quadros informativos - basta correr um bot com um simples search & replace por dados actualizados.

Creio que hoje, quiçá por estar mais normalizado em termos de estética (o pessoal, sem querer, foi-se habituando a estes quadros informativos) do que pelos benefícios tecnológicos, já poucos ousam fazer qualquer artigo deste género (do género que se baseia em dados estruturados para constituir informação) sem uma predefinição: temos as Cidades, os Animais (sempre difíceis devido às várias formas de classificação, mas enfim..), os Asteróides, etc.

Mas isto porquê? Porque hoje descobri um projecto interessantíssimo: a DBpedia que, segundo a visão do Tim Berners-Lee, o autor da World Wide Web, é o primeiro passo para aquilo que ele chama de Linked Data: chegámos a um ponto em que as interrelações de informação estão mais do que estabelecidas - mas e as interrelações de dados? O engraçado é que somos vários a pensar assim: OK, uma página web tem, de facto, informação, mas como é que podemos usá-la fora do contexto dessa página - e em grandes quantidades? Será que esses dados - e o esforço de publicá-los - estão condenados a serem só aquilo: inúteis para terceiros? É que extrair informação de páginas de múltiplas fontes não-estruturadas é virtualmente impossível (pode bastar mudar uma vírgula ou uma cor de texto para que o parsing falhe) e obrigar cada pessoa que deseje usar a informação a ter que construir mecanismos que extraia essa informação parece-me um gigantesco desperdício de recursos.. aliás, uma das aplicações que se projectava para o XML/XSL é que ele substituísse o HTML mais tarde ou mais cedo, mas parece que isso nunca vai acontecer.

Então o que Tim Berners-Lee propõe é que a disseminação da informação seja complementada com os dados em bruto que a gerou - ou disponibilizada de forma a que estes possam ser reutilizáveis. E isto é particularmente importante num momento em que há imensas comunidades a gerar conteúdo - é curioso como do trabalho humano passámos para o PC e evoluímos para arquitecturas distribuídas e de escala, e destas evoluímos para plataformas distribuídas em que o factor humano pode ser também (novamente) gerador de substância a uma escala muito, muito maior... mas isto é outro post, noutro dia..

Deixo-vos este artigo interessante sobre a Web semântica, onde se expõem várias formas de relacionamento de dados que se podem obter da web, de forma semântica, e como eles estão (ou podem vir) a ser utilizados:

Vale a pena ver, especialmente para quem, como eu, acha que vivemos numa era dos diabos em que tudo pode acontecer, inclusivé uma

Web [in which computers] become capable of analyzing all the data on the Web

Tim Berners-Lee, 1999

by ntavares at Agosto 10, 2009 02:08