j

16:56, Monday, 06 2020 January UTC

Hello world!

16:54, Monday, 06 2020 January UTC

Welcome to WordPress. This is your first post. Edit or delete it, then start writing!

figure_1.png

 

Na elaboração da listagem dos artigos mais editados em 2016 surgiu a curiosidade de saber até que ponto haveriam artigos relacionados a Portugal na lista dos mais editados, então fui desenvolvendo um sistema que permitisse de forma simples uma filtragem dos artigos mais editados por país. A solução adoptada foi criar uma listagem de todas as subcategorias de Categoria:Portugal, até um nível de profundidade 6, e comparar com as presentes nos artigos. Existem ainda pormenores a aprimorar, contudo os resultados são já convincentes.

 

E se já é sabido que Eleições autárquicas portuguesas de 2017 foi, de acordo com a lista de artigos mais editados em 2017, o artigo mais editado de 2017, a lista dos 25 artigos mais editados relacionados com Portugal é a seguinte:

  1.  Eleições autárquicas portuguesas de 2017 (2063 edições)
  2.  Festival Eurovisão da Canção 2018 (847 edições)
  3.  Santuário de Fátima (676 edições)
  4.  Soy Luna (675 edições)
  5.  Ouro Verde (telenovela) (507 edições)
  6.  Jogo Duplo (telenovela) (500 edições)
  7.  A Herdeira (telenovela) (456 edições)
  8.  XXI Governo Constitucional de Portugal (450 edições)
  9.  Raven's Home (401 edições)
  10.  Pabllo Vittar (390 edições)
  11.  Seleção Portuguesa de Futebol (357 edições)
  12.  Amor Maior (352 edições)
  13.  Primeira Liga de 2017–18 (338 edições)
  14.  Discografia de Anitta (338 edições)
  15.  Cristiano Ronaldo (331 edições)
  16.  Primeira Liga de 2016–17 (328 edições)
  17.  Club de Regatas Vasco da Gama (324 edições)
  18.  A Impostora (320 edições)
  19.  Copa das Confederações FIFA de 2017 (313 edições)
  20.  Sporting Clube de Portugal (303 edições)
  21.  The Voice Portugal (5.ª edição) (299 edições)
  22.  Grey's Anatomy (288 edições)
  23.  Agarra a Música (288 edições)
  24.  Maia (275 edições)
  25.  Lista de prêmios e indicações recebidos por Anitta (271 edições)

 

 

No caso do brasil, adaptando o script, a listagem é a seguinte:

  1.  2017 na televisão brasileira (1503 edições)
  2.  Big Brother Brasil 17 (1367 edições)
  3.  A Fazenda: Nova Chance (1234 edições)
  4.  Campeonato Brasileiro de Futebol de 2017 - Série A (960 edições)
  5.  Campeonato Brasileiro de Futebol de 2017 - Série B (768 edições)
  6.  Operação Lava Jato (189 edições)
  7.  A Força do Querer (749 edições)
  8.  Miss Brasil 2017 (730 edições)
  9.  Campeonato Brasileiro de Futebol de 2017 - Série D (641 edições)
  10.  Temporada do Sport Club Corinthians Paulista de 2017 (633 edições)
  11.  Temporada do Clube de Regatas do Flamengo de 2017 (612 edições)
  12.  Copa do Brasil de Futebol de 2017 (581 edições)
  13.  Figueirense Futebol Clube (556 edições)
  14.  Copa do Nordeste de Futebol de 2017 (556 edições)
  15.  Os Dias Eram Assim (531 edições)
  16.  Olavo de Carvalho (230 edições)
  17.  Exathlon Brasil (511 edições)
  18.  Nenê (futebolista) (510 edições)
  19.  Ouro Verde (telenovela) (507 edições)
  20.  Resultados do primeiro turno do Campeonato Brasileiro de Futebol de 2017 - Série A (502 edições)
  21.  Associação Chapecoense de Futebol (486 edições)
  22.  Barreiras (482 edições)
  23.  Pega Pega (478 edições)
  24.  Campeonato Brasileiro de Futebol de 2017 - Série C (469 edições)
  25.  Governo Michel Temer (159 edições)

Política, televisão e futebol são os temas mais editados em 2017.

E há um editor a tentar elevar Dostoiévski a destacado!

 

wp.png

 

Todos os dias, milhares de editores voluntários dedicam parte do seu tempo a editar a wikipédia, ajudando a manter e expandir o maior projecto cultural do mundo. É a soma de todas essas pequenas contribuições que fazem crescer o projecto, e permite igualmente verificar quais foram os artigos e os tópicos que receberam mais atenção, pelo menos em termos de número de edições. E se 2017 começou com cerca de 950 000 artigos no domínio principal, chega ao fim do ano com mais de 985 000, um acréscimo de cerca de 35 000 artigos.

 

 

   Este ano, o artigo sobre as  Eleições autárquicas portuguesas de 2017 foi o mais editado, 2063 edições no total, sendo o único artigo do Top 5 não relacionado com programas televisivos. No grupo dos 10 artigos mais editados, temos as autárquicas portuguesas, o Campeonato Brasileiro de Futebol de 2017 - Série A e Fiódor Dostoiévski intrometidos numa listagem de 7 artigos sobre programas televisivos.

 

 

    No caso de Fiódor Dostoiévski, julgo que o artigo se encontra em desenvolvimento para ser declarado conteúdo destacado, vamos ver o que 2018 lhe reserva.

 

   Com dados de 1 de Janeiro até 27 de Dezembro, os 20 artigos mais editados na wikipédia Lusófona foram os seguintes:

 

  1.  Eleições autárquicas portuguesas de 2017 (2063 edições)
  2.  2017 na televisão brasileira (1503 edições)
  3.  Big Brother Brasil 17 (1367 edições)
  4.  Miss Universo 2017 (1289 edições)
  5.  A Fazenda: Nova Chance (1234 edições)
  6.  Campeonato Brasileiro de Futebol de 2017 - Série A (960 edições)
  7.  The Leftovers (932 edições)
  8.  Lista de episódios de Steven Universe (927 edições)
  9.  Fiódor Dostoiévski (881 edições)
  10.  Festival Eurovisão da Canção 2018 (847 edições)
  11.  Recordes da Copa do Mundo FIFA (789 edições)
  12.  Campeonato Paulista de Futebol de 2017 - Série A1 (773 edições)
  13.  Campeonato Brasileiro de Futebol de 2017 - Série B (768 edições)
  14.  Operação Lava Jato (751 edições)
  15.  Lista de episódios de Miraculous (750 edições)
  16.  A Força do Querer (749 edições)
  17.  Miss Brasil 2017 (730 edições)
  18.  Santuário de Fátima (676 edições)
  19.  Soy Luna (675 edições)
  20.  Loona (banda) (670 edições)

Os dados relativos a 2016 podem ser vistos em Televisão, política e Futebol ocupam lugares cimeiros nos artigos mais editados da Wikipédia Lusófona

Processo de impeachment de Dilma Rousseff

 O artigo Processo de impeachment de Dilma Rousseff foi o terceiro mais editado no ano de 2016, apenas suplantado por programas de televisão.

Diáriamente, os editores da Wikipédia fazem milhares de edições para manter e expandir os conteúdos da wikipédia, e 2016 não fugiu à regra. Este exército de voluntários criou cerca de 50 000 novos artigos no último ano, terminando o ano com cerca de 950 000 artigos no domínio principal. Aqui apresentamos a lista dos 50 artigos mais editados em 2016 na Wikipédia Lusófona, com artigos relacionados com televisão, desporto e política a destacarem-se.

 

impeachment de Dilma Rousseff intrometeu-se num top 10 dividido entre tv e futebol, com 5 artigos relativos ao desporto rei a dividirem essa classificativa com 4 sobre tv. 

 

  1. Lista de episódios de Steven Universe 2431 edições
  2. 2016 na televisão 1385 edições
  3. Processo de impeachment de Dilma Rousseff 1226 edições
  4. Campeonato Brasileiro de Futebol de 2016 - Série A 1163 edições
  5. Campeonato Europeu de Futebol de 2016 1106 edições
  6. Temporada do São Paulo Futebol Clube de 2016 1018 edições
  7. Êta Mundo Bom! 1010 edições
  8. Big Brother Brasil 16 968 edições
  9. Os Under-Undergrounds 966 edições
  10. Campeonato Brasileiro de Futebol de 2016 - Série D 952 edições
  11. Operação Lava Jato 944 edições
  12. Bangtan Boys 907 edições
  13. Lista de episódios de One Piece 906 edições
  14. Temporada do Club de Regatas Vasco da Gama de 2016 893 edições
  15. Copa do Brasil de Futebol de 2016 882 edições
  16. Lista de filmes de maior bilheteria 880 edições
  17. Paysandu Sport Club 859 edições
  18. Temporada de Fórmula 1 de 2016 858 edições
  19. A Quinta: O Desafio 783 edições
  20. Yo soy Franky 765 edições
  21. Haja Coração 761 edições
  22. Secret Story - Casa dos Segredos (6.ª edição) 761 edições
  23. Sandy 760 edições
  24. Copa União 749 edições
  25. Campeonato Paulista de Futebol de 2016 - Série A1 738 edições
  26. Campeonato Brasileiro de Futebol de 2016 - Série B 732 edições
  27. Velho Chico (telenovela) 729 edições
  28. Totalmente Demais (telenovela) 727 edições
  29. Santa Cruz Futebol Clube 724 edições
  30. Lista de líderes em home runs da Major League Baseball 715 edições
  31. Steven Universe 703 edições
  32. Campeonato Brasileiro de Futebol de 1987 692 edições
  33. Seleção Portuguesa de Futebol 691 edições
  34. Túlio Maravilha 688 edições
  35. Copa Libertadores da América de 2016 658 edições
  36. BLACKPINK (banda) 646 edições
  37. Brasil nos Jogos Olímpicos de Verão de 2016 646 edições
  38. Lista de jogadores de voleibol do Brasil 643 edições
  39. TWICE 637 edições
  40. Real Madrid Club de Fútbol 619 edições
  41. Seleção Brasileira de Futebol 616 edições
  42. Miss Universo 2016 613 edições
  43. Clássico das Multidões (Recife) 612 edições
  44. 2016 598 edições
  45. Spider-Man: Homecoming 596 edições
  46. Copa São Paulo de Futebol Júnior de 2016 596 edições
  47. Campeonato Brasileiro de Futebol de 2016 - Série C 593 edições
  48. Eleição municipal de São Paulo em 2016 584 edições
  49. Copa Libertadores da América de 2017 583 edições
  50. The Voice Portugal (4.ª edição) 577 edições

 

n.d.r. Este artigo era suposto ter sido publicado no inicio do ano de 2017, tendo ficado como rascunho, provavelmente aguardando a adição de mais informações. Uma vez que não faz muito sentido perder mais tempo, desde já é publicado sem revisão completa.

Presidenciais 2016 em Portugal na Wikipédia

22:58, Tuesday, 26 2016 January UTC

    Este último fim de semana decorreram as eleições Presidenciais em Portugal, e conforme a tradição, o que foi escrito ao longo do período de pré-campanha nas páginas da wiki tiveram relevo. Dai surgiu a curiosidade de tentar perceber o efeito eleições <-> wikipédia, e neste primeiro tópico começo a debruçar-me sobre as visualizações, aproveitando a nova API RESTBase que fornece os dados das visualizações dos artigos, de uma forma mais aperfeiçoada em relação à ferramenta que aparece no histórico das páginas, o http://stats.grok.se/.

 

    Os primeiros dados são interessantes, começando a análise a 10 de Outubro do ano passado temos o gráfico seguinte:

 Visualização das visitas às páginas dos candidatos à Presidência da República durante o período eleitoral e pré-eleitoral.

Por Alchimista (Obra do próprio) [CC BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0 )], undefined. Origem: https://commons.wikimedia.org/wiki/File:P2016_2m.png

 Nos primeiros dias ainda se apanha um pouco da entorpia causada pelas eleições,com as visualizações a estabilizarem até meio de Dezembro, e a partir dessa altura temos outra vizualização mais pormenorizada na figura seguinte.

 

     Visualização das visitas às páginas dos candidatos à Presidência da República durante o período eleitoral.

Por Alchimista (Obra do próprio) [CC BY-SA 4.0 (http://creativecommons.org/licenses/by-sa/4.0 )],  undefined. Origem: https://commons.wikimedia.org/wiki/File:P2016_2m.png

    O primeiro grande pico de visualizações ocorreu pelo dia 17, curiosamente no dia em que Marisa Matias formaliza a candidatura há o referido pico, onde Sampaio da Nóvoa tem grande destaque. Na sema seguinte, logo nos dias posteriores ao Natal Marisa Matias e Sampaio da Nóvoa têm mais um pico de visualizações, com Marisa Matias a destacar-se com o dobro das visualizações, que vão acalmando com o aproximar da passagem de ano. Sobressai igualmente que no periodo de campanha eleitoral, a visualização dos candidatos aumentou significativamente, com as visualizações de Sampaio da Nóvoa em grande destaque.

    Curiosamente o artigo sobre Marcelo Rebelo de Sousa, que acabou por vencer as presidenciais, apresentou valores de vizualizações muito discretas comparando com os outros candidatos mais mediáticos, e o artigo de Maria de Belém teve valores de visualizações discretos. Esta disparidade pode dever-se à maior ou menor penetração nas faixas mais jovens, onde a internet tem um papel mais preponderante, mas é algo difícil de comprovar.

    Edgar Silva formalizou a sua candidatura no dia 7 de dezembro de 2015, e a sua página foi criada somente 3 dias depois. Até ao dia 10 de Dezembro de 2015, a página Edgar Silva era um redirecionamento para  Edgar Bruno Silva, "um futebolista brasileiro que actua como atacante, atualmente defende o Al Shabab Al Arabi Club."

 

[Notas técnicas: Jorge Sequeira e Cândido Ferreira, ambos candidatos, não surgem na análise por até à data não terem artigo da wikipédia.

    A análise aqui feita é uma primeira abordagem e baseia-se em dados publicos disponibilizados pela Fundação Wikimédia relativa aos artigos. ]

Tutorial de pywikipediabot - IV

18:12, Friday, 18 2013 January UTC

No wikivoyage.org houve necessidade de mover uma enorme quantidade de páginas que estavam no formato "JAMGuides:" para "Wikivoyage:", não deixando para trás redirecionamentos, algo que se revelou extremamente simples. O pormenor foi a flag temporária de administrador que o bot recebeu, para poder não deixar redirecionamentos, pois isso é basicamente uma eliminação automática dos mesmos. Como o projecto tem ainda poucas páginas, e era uma operação básica, a listagem das páginas foi obtida pela lista de páginas totais no domínio principal, caso contrário teria de ser usada uma outra opção, e, além do mais, a opção mais lógica, que é a busca por páginas começadas por uma determinada string não estava a funcionar correctamente, portanto seguiu-se esta via. O script em sí é básico, e creio, facilmente entendível:

  

#!/usr/bin/env python
# -*- coding: utf-8 -*-

import wikipedia as pywikibot
import pagegenerators


def main():

    # Definir o site, e obter a listagem de todas as páginas do domínio principal.
    site = pywikibot.getSite("pt","wikivoyage")
    gen = pagegenerators.AllpagesPageGenerator(site=site,includeredirects=False)
    for i in gen:

        # Aqui filtramos os títulos que começam por "JAMGuides", separando primeiro

        # o título tendo por base o ":", e, caso tenha o ":", verificar se antes da ocorrência

        # o texto é "JAMGuides".
        if i.title().split(":")[0] == u'JAMGuides':

            # Criação do novo título, a segunda parte é igual, logo compõem-se o novo título fácilmente
            ntitle = u"Wikivoyage:%s" % i.title().split(":")[1]
            print u"old title: ", i.title(), u" |--->  new title: ", ntitle, u" |--> afluentes: "
            try:

                # E por fim move-se a página para o novo título.
                i.move(ntitle, leaveRedirect=False, reason=u"[[Wikivoyage:BOT|BOT]]: A mover páginas para título correcto.")
            except:
                print u"error"
        else:
            pass

if __name__ == "__main__":
    try:
        main()
    finally:
        pywikibot.stopme() 

https://github.com/alchimista/pywikipedia-tutorial

 

 


Tutorial de pywikipediabot - III

13:56, Thursday, 20 2012 September UTC

Neste tópico abordaremos outras funcionalidades interessantes do pywikipediabot, nomeadamente a obtenção no namespace de uma página, quer no formato numérico, quer no nome do namespace. Veremos igualmente como obter o título da página principal, ou seja, por exemplo no caso wikipedia:Ajuda/edição, obter wikipedia:Ajuda, ou então somente Ajuda. Há outras formas de filtrar os artigos, por exemplo, se apenas pretendesse-mos os artigos do domínio wikipéda da categoria !Robótica, o módulo pagegenerators tem opções para isso, mas para já, iremos aumentando a complexidade aos poucos.

 

Informação sobre os namespaces pode ser encontrada em Mediawiki.org:Manual:Namespaces, ou Mediawiki.org:Namespaces. Nos projectos locais é frequente usarem para além dos namespaces padrão, formas personalisadas, e, na wikipédia Lusófona por exemplo, a documentação pode ser encontrada em Wikipédia:Domínio.

 

 

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#
#          
#          (C) 2012 Alchimista <alchimistawp@gmail.com>
#                
#               Distributed under the terms of the GNU GPL license.

import sys, os

import wikipedia
import catlib
import pagegenerators

def main():
        site = wikipedia.Site("pt", "wikipedia")
        cat = catlib.Category(site, u"!Robótica")
        ''' Como explicado anteriormente, temos definido o site e a categoria
                podendo então passar-mos a obter a listagem das páginas,
                onde desta vez usaremos o pagegenerators. Uma opção mais rápida será
                usar igualmente o preloadingGen, bastando para isso
                fazer algo como 
                pages = pagegenerators.PreloadingGenerator(pagegenerators.CategorizedPageGenerator(cat))
                Isto faz com que as páginas sejam carregadas no início, ao contrário
                do script actual, que carrega à medida que forem necessárias. 
        '''
        pages = pagegenerators.CategorizedPageGenerator(cat)
        for page in pages:
                '''Agora que temos a iteração vamos primeiro obter o título
                '''
                print page.title()
                
                ''' Com o page.namespace() obtemos o namespace da página
                        embora no formato canonico, ou seja, número. Para obter
                        o nome do namespace, fazemos o site.namespace().
                        Para fazer tudo junto, basta substituir as duas linhas por
                        namespace = site.namespace(page.namespace())
                '''
                
                pageNamespaceNumber = page.namespace()
                namespace = site.namespace(pageNamespaceNumber)
                if namespace == u"Ajuda":
                        ''' Aqui filtramos as páginas que pertencem ao namespace Ajuda
                                e obteremos o nome do namespace, assim como as predefinições
                                contidas nas páginas. '''
                        print len(page.get())
                        print u"namespace: ", site.namespace(page.namespace())
                        print u"templates: ", page.templates()
                elif namespace == u"Wikipédia":
                        ''' Neste bloco, apenas os artigos do namespace wikipédia são filtrados,
                                e obteremos o namespage e o título do artigo, sem namespace ou subpáginas
                                (resumidamente, o título do artigo principal)
                        '''
                        print u"namespace: ", site.namespace(page.namespace())
                        print u"Página principal (título sem subpágina): ", page.sectionFreeTitle()
                        print u"Página principal sem título nem namespace: ", page.title(withNamespace=False)
                        
                        
if __name__ == "__main__":
        try:
                main()
        finally:
                wikipedia.stopme()      

https://github.com/alchimista/pywikipedia-tutorial 

Tutorial de pywikipediabot - II

14:15, Wednesday, 19 2012 September UTC

 

No primeiro post vimos como de uma forma básica se pode obter o conteúdo de uma página. Infelizmente, na sua utilização tradicional, os bots são utilizados para edições massiças, ou então para obter informação de um grande número de páginas pelo que o script anterior não nos seve, então vamos interagir com categorias. Há um pormenor importante a realçar: caso se trate de obter informação de um grande número de páginas, é extremamente aconselhado usar dumps, que podem ser obtidos em http://dumps.wikimedia.org/,por exemplo. Mais informação pode ser obtida em Meta:Data dumps.

 

No script seguinte, contaremos os artigos de uma categoria. Obteremos o título dos artigos, e contaremos os elementos. Relativamente ao script do primeiro post, o código ficará dentro de uma definição ( def main()) para tirar-mos vantagem do wikipedia.stopme(), que basicamente informa o servidor de que o script fez o seu trabalho, interrompendo a ligação.

 

 

 #!/usr/bin/env python
# -*- coding: utf-8 -*-
#
#          
#          (C) 2012 Alchimista <alchimistawp@gmail.com>
#                
#               Distributed under the terms of the GNU GPL license.

import sys, os

import wikipedia
import catlib
import pagegenerators

def main():
        ''' Esta é a def onde o nosso script vai estar '''
        
        site = wikipedia.Site("pt", "wikipedia") # definimos que o site é a pt.wp
        
        '''De seguida, definimos a categoria Ambiente
         e obtemos a listagem dos títulos dos artigos.
         Na demonstração o código está por extenso para
         mais fácil percepção, na prática, bastaria
         pages = catlib.Category(site, u"Ambiente").articles()
         para se obter a listagem         
        '''
        cat = catlib.Category(site, u"Ambiente") # Aqui definimos a categoria Ambiente. 
        catList = cat.articlesList()


        '''Agora que temos uma listagem,
         e antes de contar os elementos,
         vamos ver os títulos que constam na catList.
         
         Esta abordagem serve bem para ilustrar este exemplo,
         caso fosse para interagir directamente com os artigos,
         como veremos noutro post, há abordagens mais eficientes.
 
         O primeiro print, ou seja, no caso o objecto page,
         é um objecto python, enquanto que o segundo print,
         o do page.title(), já tem o formato de unicode.
        '''
        
        for page in catList:
                print u"página (objecto):", page
                print u"Título da página: ", page.title() # mostra o título do artigo


        ''' Por fim, fazemos a contagem dos artigos     '''
        
        print u"\n Nº de artigos na categoria: ", len(catList)
        
if __name__ == "__main__":
        try:
                main()
        finally:
                wikipedia.stopme()      

https://github.com/alchimista/pywikipedia-tutorial

Tutorial de pywikipediabot - I

14:10, Wednesday, 19 2012 September UTC

Não há muitos developers de bots na pt.wp, na verdade, contam-se pelos dedos das mãos aqueles que criam regularmente scripts próprios. A verdade é que nunca houve um grupo activo dedicado ao pywp, contrariamente por exemplo, ao que acontece com os gadjects, ou scripts em javascript.

 

Com isso em mente, há há agum tempo que planeio criar um tutorial para que os primeiros passos sejam mais fáceis, pois a verdade é que não há propriamente um ponto de partida que contenha informação suficientemente desenvolvida para que possa ser um verdadeiro manual introdutório. Enquanto não arranjo tempo e vontade para escrever um manual explicativo e bem estruturado, espero ir colocando aqui informações avulsas que possam ajudar, e, quem sabe, no final compilar tudo num tutorial final, na wikipédia.

 

Pois bem, o primeiro exemplo de um script pywp terá como finalidade colocar um texto numa página da wikipédia. Estes primeiros passos vão ser explicados com mais detalhe, porque a verdade é que na esmagadora maioria dos meus scripts, o pywp ocupa apenas uma pequena parte, e é sensivelmente sempre a mesma, ou seja, para as tarefas do quotidiano, conhecer meia dúzia de classes e definições é quanto baste para criar scripts úteis no dia a dia wikipédico.

 

No script seguinte, vamos obter o texto de Wikipédia:Página de testes/4  e substitui-lo por "Olá Mundo! Isto é um teste de edição :D". Presume-se que tenham conhecimentos básicos de python, caso haja dificuldade em compreender algo, a secção de comentários está á disposição.

 

 

#!/usr/bin/env python
# -*- coding: utf-8 -*-
#
#       
#       (C) 2012 Alchimista <alchimistawp@gmail.com>
#         
#        Distributed under the terms of the GNU GPL license.

import sys, os

try:
        sys.path.append(os.environ['HOME'] + '/wp/bots/pywikipedia')
except:
        pass

''' 
 Primeiro importamos o módulo wikipedia, o qual nos trará as soluções mais básicas,
 e ao mesmo tempo grande parte das que normalmente são necessárias para interagir com
 o mediawiki. '''

import wikipedia

''' O primeiro passo antes de interagir com a API do mediawiki, é definir
qual o projecto/site com que estamos a lidar, para isso usamos:
'''
site= wikipedia.Site("pt", "wikipedia") # definimos que o site é a pt.wp

''' Agora, vamos estabelecer as definições de uma página, neste caso,
 a página de testes/4: '''

wpage = wikipedia.Page(site, u"wikipédia:Página de testes/4")

''' Agora que definimos a página, vamos obter o texto da página: '''
wpagetext = wpage.get()

print wpagetext # print ao conteúdo da página

''' Tendo o conteúdo, e ignorando-o por completo, vamos então substituir
 por um novo texto.
'''
newtext = u"Olá Mundo! Isto é um teste de edição :D" # definimos o novo texto

wikipedia.showDiff(wpagetext, newtext) # mostra o diferencial da edição sem salvar

Recentemente constactei uma agradável surpresa, a Aleth_Bot encontra-se já listada no top 10 dos bots com mais edições de sempre da Wikipédia Lusófona, e se tiver-mos em conta bots operados por operadores locais, está em 4º Lugar.

 

A lista é liderada pelo Rei-Bot, que apesar de não editar desde Setembro de 2010, conta com 1137298 edições, e é operado pelo Rei Artur. Tanto o bot como o operador sã figuras mais do que históricas, autênticas lendas vivas.

 

No que toca à Aleth, são 356797 edições repartidas por várias tarefas, todas elas efectuadas por scripts desenvolvidos específicamente para a pt.wp, e que rodam de forma totalmente autónoma no Toolserver, aproveitando os recurosos disponibilizados, especialmente os de Job scheduling. Para se ter noção da relativa complexidade de manutenção, para além da manutenção dos scripts, são dois crontabs, um para fazer correr os scripts de curta duração como o envio de mensagens ou arquivamento de páginas de discução, que corre num servidor normal, e outro crontab para controlar os scripts que irão correr por largos períodos, dias e afins.

 

Para estes scripts que necessitam correr por longos periodos, há um server próprio, que irá escolher qual o servidor com recursos disponíveis que irá acolher o script. Além disso, há sempre a necessidade de manter o consumo de recursos em níveis aceitáveis, manter o consumo de memória baixo, ou os mesmos irão parar ou apresentar erros, ou a memória física disponível.

 

 

 

Como juntar a Wikipédia, web semántica, data mining e robôs numa única apresentação? Exacto, estou a falar da apresentação do Eduardo Pinheiro no Encontro Nacional de Estudantes de Informática, na Faculdade de Ciências da Universidade de Lisboa. Link aqui!

10º Aniversário da Wikipédia Lusófona

18:31, Wednesday, 11 2011 May UTC

Ouvir com webReader

200px-10yrs-contributing_k-text-pt-whitesvg
Já saíram os resultados do 8º WikiConcurso, realizado a propósito do 10º Aniversário da Wikipédia lusófona!

O Oitavo WikiConcurso foi um concurso organizado pelos Wikipedistas para promover a qualidade dos artigos considerados essenciais na Wikipédia e, pela primeira vez, serão atribuídos prémios reais, palpáveis, pela Wikimedia Portugal e pelo grupo Wikimedia Brasil. A data do Concurso foi alinhada para coincidir também com o décimo aniversário da Wikipédia Portuguesa, tendo sido por isso decidido pela Wikimedia Portugal oferecer aos concorrentes prémios de participação (T-shirts, pins e autocolantes que faziam parte do kit oferecido pela WMF para a comemoração do 10º aniversário da Wikipédia) e 3 flash drives com o software WikiTwooGO para os primeiro classificados.

O objectivo do concurso foi, nesta edição do WikiConcurso, melhorar a qualidade dos artigos considerados essenciais para qualquer enciclopédia, e que são usados como comparação entre as Wikipédias de várias línguas e entre a Wikipédia e várias enciclopédias tradicionais. Além disso, pretendeu ser uma forma de mostrar apreço pelas contribuições dos voluntários promovendo uma competição amigável entre os editores mais produtivos da Wikipédia, festejando os 10 anos da Wikipédia com melhorias ao próprio conteúdo da enciclopédia.

Em termos de iniciativa por parte da Wikimedia Portugal, a iniciativa encontra-se descrita na página de projecto respectiva, e decorreu sobre a orientação do colega Gonçalo Themudo, a quem deixo os parabéns pelo resultado.

Wiki Loves Monuments… e há imensos!

02:35, Monday, 02 2011 May UTC

Ouvir com webReader

352px-lusitana_wlm_2011_dsvg
Em 2011 a edição do Wiki Loves Monuments (WLM) sai da esfera Neerlandesa (ou Holandesa, como diria a maior parte das pessoas). O ano passado, praticamente metade dos monumentos dos Países Baixos tiveram fotografias, e este ano as câmeras estão focadas nos monumentos de grande parte da Europa. O WLM já tem logótipo estabelecido — foi concebido por uma portuguesa (parabéns Lusitana!) — e a organização já decorre há algum tempo. Em Portugal, está a ser organizado pela Wikimedia Portugal (WMP), como é óbvio.

Setembro é o mês em que estará tudo a postos; podem ver o planeamento no Commons. Claro que podem já a começar a tirar fotos mas, para essas fotografias poderem concorrer, só poderão ser carregadas no Commons em Setembro. Se nunca utilizou o Commons, agora é uma boa altura para aprender. Se tem fotografias que nunca carregou para lado nenhum, Setembro será uma boa altura para submetê-las…. no Commons :-) Para esse efeito, será disponibilizado um formulário simplificado, para que seja ainda mais simples carregar múltiplas fotografias.

Os monumentos a fotografar não estarão apenas em países com Capítulos (associações equivalentes à WMP de outros países); por exemplo, se viajar para a Bélgica, que também participa, porque não levar uma câmera, e concorrer para os dois países. Para Portugal, a lista já está disponível e a ser compilada com toda a informação disponibilizada pelo IGESPAR e SIPA/IHRU.

Em Portugal, espera-se uma cerimónia de entrega de prémios, e uma nova oportunidade de conhecer e reencontrar Wikipedistas lusos.

Aqui fica um vídeo de apresentação para esta iniciativa:

Uma enciclopédia mantida por robôs

18:03, Thursday, 27 2011 January UTC

Desconhecidos por muitos, especialmente por quem não conhece os bastidores da enciclopédia livre, os robôs, ou bots funcionam ininterruptamente em tarefas várias, para manter o mínimo de salubridade e operar em inúmeras alterações nas diversas páginas. Um dos mais conhecidos da wikipédia lusófona, até pela função que desempenha, é precisamente o Salebot, o bot local que ajuda a combater os vandalismos. Infelizmente, na wikipédia lusófona as tarefas levadas a cabo por bots são ainda poucas quando comparadas com a en.wp, ou a de.wp, onde a comunidade de programadores e operadores de bot é relativamente maior, e onde novos scripts surgem com frequência. Basta verificar os exemplos que dão na documentação da en.wp, para constactar as diferenças. Mas enfim, aos poucos assistimos a um crescimento, embora não propriamente sustentado do número de robôs na wp.pt, embora limitados essencialmente ao uso do AWB, e para tarefas que muitas vezes poderiam ser efectuadas em conjunto, numa só edição.

10º Aniversário Wikipédia

22:06, Tuesday, 11 2011 January UTC

Ouvir com webReader

Caros, mais do que explicar-vos do que se trata, vejam o outdoor que fizémos! Aproveito para deixar o link para o site do evento. Participem e ajudem a divulgar! Basta clicar na imagem, imprimir e afixar algures! :-)

cartaz-escuro150dpi500x.

Parabéns Wikipédia!

Ouvir com webReader

Berlin, Germany - Wikimedia Chapters Meeting 2010

These have been busy days! At the same time the first Portuguese Wikipedia Academy was running I was supposed to be in Berlin to the 2010 Wikimedia Chapters Meeting. I actually got there, indeed, but we were in the air when the massive ash cloud from the Eyjafjallajökull glacier/vulcano spread above Central Europe, and we got stuck as soon as we landed in Frankfurt. But I won’t regret catching a 10h train to Berlin, arriving in the morning, except for missing the whole morning at the Meeting. The fellow mates around the world are just awesome people, and doing a great job, and they have just shown how excellent fellows they are to work with.

Here is the wrapup photo we took in the end (after 20min trying to position ourselfs according to the Mapa Mundi and.. well.. having given up :)):

29421_400584147744_150775207744_4074764_4005963_n

Picking a train to Portugal was very risky as the French saw an excellent opportunity to put up a strike (I was told some frieds took 3 days from Netherlands to Portugal, so I’m glad we considered the odds)! While stranded, along with a lot of (mainly) intercontinental fellows, we spent the days getting to know Berlin and the famous Bratwurst. I won’t definitelly forget the trio I had near Charlottenburg, yummm.. :P

Wikimedia Deutchland has proven to be an excellent hoster for such an event. Everything we handled smoothly, Don and Anjia were also great facilitators, being careful enough to document in detail each session.

A special remark to the strange title of this post, I think no one will forget the good laughs we gave around some expressions… like VulcanoCon… hrm hrm :)

Hugs to everyone I met, I hope you arrived safely (AFAIK, you *did* arrived…). Hope to see you all next year, or maybe at Wikimania.

Porto, Portugal - Wikipedia Academy

As we already confirmed in person in the last WMP General Assembly (GA), the First Wikipedia Academy was definitely a success. The media push was spectacular and, of course, it had to give some results. We got an increase of associates right there on the GA, with more people willing to help on the tasks. I thank all the participants all the input, it was really great, and I would also like to thank the opportunity of exposing everything we learned at the Chapters Conferece (above). We also discussed the plan for the upcoming year, now, more than ever, targetting specific goals from the list of ideas we have been summing up - I’ll be participating in a specific GLAM project (more on this later), I’ll be the IT lead, I’ll try to help Gil on a joint Communication project targetting Transportation companies, and I’ll be trying to push forward a possible UMIC partnership (more on this later).

A verdade, segundo a Wikipédia

10:19, Saturday, 22 2010 May UTC

Jimmy Wales deu a entrevista, este mês, à Exame Informática, sobre a Wikipédia.

Foi um entrevista sobre Wikipédia no geral, nada falou sobre a Wikipédia Lusófona, nem da Wikipédia Portugal.

click na imagem para ampliar

Academia Wikipédia: está quase!

02:00, Saturday, 10 2010 April UTC

Ouvir com webReader

O evento resulta de uma parceria entre a Faculdade de Engenharia da Universidade do Porto e a Associação Wikimédia Portugal, contando com o apoio da EXPONOR e da DRI.

O objectivo é sensibilizar e promover o uso da Wikipédia. O seminário decorrerá, entre as 9h30 e as 18 horas do dia 16 de Abril, na QUALIFICA e terá ligação por videoconferência à 2010 Wikimedia Conference, que decorrerá em Berlim, e onde estarei com a Susana a contribuir com a experiência portuguesa e, simultaneamente, a fazer as entrevistas.

Para além da palestra de Kul Takanao Wadhwa, Head of Business Development da Wikimedia Foundation, haverá espaço para o debate de temas como a qualidade e a fiabilidade da Wikipédia, o uso da Wikipédia nas aulas, a Wikipédia como instrumento de protecção e promoção de línguas minoritárias, a Wikipédia na investigação e ainda informação detalhada sobre edição de conteúdos, licenciamento e ligações a projectos. A sessão está aberta ao público em geral, desde estudantes, professores, investigadores e outros especialistas do meio académico.

A participação na Academia Wikipédia é gratuita, mas com inscrição obrigatória. Poderá fazer a sua inscrição online aqui:
http://academia-wikipedia.org/inscricao.php.


Se és dos que vão à Wikipédia antes de fazer um trabalho, ou enquanto pesquisas profissionalmente, então este evento tem entrada livre, realiza-se a 16 de Abril, na Exponor, e parece ideal para ti!

Academia Wikipédia

19:20, Monday, 05 2010 April UTC

A Academia Wikipedia realiza-se pela primeira vez em Portugal, na Exponor, Porto, a 16 de Abril, sendo uma parceria entre a Associação Wikimedia Portugal e a Faculdade de Engenharia da Universidade do Porto.

Irá contar com diversos oradores (programa), onde se conta, por exemplo, Kul Takanao Wadhwa, Head of Business Development da Wikimedia Foundation. Docentes universitários, investigadores, editores e empresários compõem o restante painel.

A inscrição é gratuita, obrigatória e online. Mais perguntas? Página de contacto e no mail press@wikimedia.pt

Novo design da Wikipedia será lançado dia 5 de abril

14:29, Saturday, 27 2010 March UTC

O site Wikipedia está próximo de um novo formato. As páginas terão uma diagramação diferente da que tem sido usada atualmente. Quem lidera a modificação é o artista Nako Komura. A nova fórmula entra em ação à partir do dia 5 de abril de 2010.

A nova diagramação, conhecida até o momento como Vector, foi programada para dar mais comodidade aos leitores da enciclopédia virtual. A página parece responder com mais veocidade ao tentar abrir, como se fosse mais leve. As ferramentas de busca ficarão na parte de cima da tela, e não mais ao lado.

Os responsáveis pelo novo design disseram que este novo desenho foi feito pois a aparência do antigo dava a impressão de ser muito antigo e não atraía muito o olhar das pessoas. O que será lançado em abril pode não ser exatamente algo muito moderno, mas tira mesmo a sensação de ter sido feita há mais de dez anos.


fonte: Pop News

Mas a ultima frase do artigo nem merece ser citado…

Academia Wikipédia: Call for Papers

21:49, Thursday, 25 2010 February UTC

Ouvir com webReader

Está aberta a Chamada a Oradores para o primeiro evento organizado pela Associação Wikimedia Portugal (WMP)!

A Wikimedia Portugal, em conjunto com a Faculdade de Engenharia da Universidade do Porto (FEUP), está a organizar o primeiro Workshop em Portugal intitulado “Academia Wikipédia” no Porto/Exponor, a realizar em simultâneo com a “Qualifica”- Feira de educação, formação, juventude e emprego, no dia 16 de Abril.

Aqui está um pequeno descritivo da Academia:
Academia Wikipédia

As apresentações deverão ser em português, sempre que possível, e devem demorar entre 20min a 30min, com alguns minutos para perguntas e respostas. Se houver necessidade de estender este tempo penso que não será impossível.

Sou eu que estou a organizar o programa, e estou a criar uma maquete aqui: Programa da Academia Wikipédia. Enviem temas que gostavam de ver abordados, se os apresentados (a título de exemplo) não vos puxa para falar. Entrem em contacto comigo, ou usem a página de contactos da WMP.

Início das actividades da Wikimedia Portugal

23:48, Sunday, 24 2010 January UTC

Ouvir com webReader

Este post já deveria ter chegado há muito mais tempo. Mas o tempo não o permitiu…

Não deve ser novidade que a Wikimedia Portugal (WMP) já arrancou o Plano de Actividades para 2010-11. A primeira actividade oficial foi uma apresentação num seminário no Instituto Superior Técnico promovido pela Presidência do Departamento de Engenharia Informática, a convite do prof. José Borbinha, que gostámos muito de conhecer e a quem agradecemos o apoio e disponibilidade que demonstrou para connosco.

A Susana fez uma exposição da Wikimedia Foundation, do nosso contexto WMP, do processo editorial, da estrutura interna dos projectos (utilizadores, categorias, etc), da manutenção, licenciamento, etc.

A apresentação está aqui:
http://wikimedia.pt/download/Wikimedia_Slideshow.pps

Eu juntei-me à festa, atendendo a um público de informática, e apresentei brevemente a plataforma da WMF (servidores, software, arquitectura) mas o grosso da minha mini-apresentação foi para falar de predefinições, dados estruturados e seus benefícios na Wikipédia e, por fim, divaguei um bocadinho até à Web Semântica, conceito para o qual a Wikipédia está a ser bastante utilizada (os tópicos estão resumidos em 2 posts que já tinha feito no blog [1][2]).

A apresentação está aqui:
http://wikimedia.pt/download/Wikimedia_Web_Semantica.pps

Wikipédia consegue arrecadar U$7,5 milhões em 2009

21:30, Monday, 04 2010 January UTC

O Wikipédia anunciou nesta semana que atingiu seu objetivo de arrecadar 7,5 milhões de dólares em 2009.

“Obrigado a todos que fizeram doações!” celebrou em um comunicado o co-fundador do site, Jimmy Wales.

O dinheiro será usado para cobrir os custos operacionais da empresa, que inclui manutenção de servidores e pagamentos de salários.

É interessante que desde sua fundação o site nunca teve propagandas, em uma tentativa de impedir que a “enciclopédia livre” fosse tendenciosa.

in jornaltecnologia

Um projecto vivo que dá vida

01:20, Friday, 11 2009 December UTC

Desesperado ao perceber que sua esposa acabava de entrar em trabalho de parto em casa, o britânico Leroy Smith resolveu contar com a ajuda da internet, mais especificamente do Google. O futuro papai digitou então no mecanismo de busca “how to deliver a baby” (ou “como fazer um parto”, em português) para saber por onde começar

(…)

Depois de seguir o guia detalhado que encontrou na Wikipédia, Emma deu à luz em segurança uma menina, de 2,8 Kg, que ganhou o nome de Mahalia Merita Angela Smith.

fonte

Actualização das páginas órfãs

03:45, Sunday, 18 2009 October UTC

Ouvir com webReader

A pedido do Lijealso, aqui vai uma actualização das estatísticas incompletas da Wikipédia lusófona para o caso das páginas órfãs.

Constatou-se que o dump utilizado anteriormente era insuficiente, pelo que se descarregou a tabela pagelinks, desta vez do dump de 20091015. Para se excluir os redireccionamentos, importou-se também a tabela redirect.

Fartei-me entretanto de alternar entre o que estava a fazer e a lista de códigos de domínios, pelo que criei uma pequena tabela auxiliar:

MySQL:
  1. mysql> CREATE TABLE _namespaces ( id TINYINT NOT NULL, namespace VARCHAR(50), PRIMARY KEY (id) );
  2. Query OK, 0 rows affected (0.01 sec)
  3.  
  4. mysql> INSERT INTO _namespaces VALUES (-2,'Media'),(-1,'Especial'),(0,''),(1,'Discussão'),(2,'Usuário'),(3,'Usuário Discussão'),(4,'Wikipedia'),(5,'Wikipedia Discussão'),(6,'Ficheiro'),(7,'Ficheiro Discussão'),(8,'MediaWiki'),(9,'MediaWiki Discussão'),(10,'Predefinição'),(11,'Predefinição Discussão'),(12,'Ajuda'),(13,'Ajuda Discussão'),(14,'Categoria'),(15,'Categoria Discussão'),(100,'Portal'),(101,'Portal Discussão'),(102,'Anexo'),(103,'Anexo Discussão');
  5. Query OK, 22 rows affected (0.00 sec)
  6. Records: 22  Duplicates: 0  WARNINGS: 0

O resultado deu-me um incrível total de 769854 páginas órfãs, pelo que decidi separá-las por namespace para permitir prioritizar a análise:

MySQL:
  1. mysql> SELECT p.page_namespace,count(1) FROM page p
  2.     -> LEFT JOIN redirect  r
  3.     -> ON p.page_id = r.rd_from
  4.     ->
  5.     -> LEFT JOIN pagelinks pl
  6.     -> on pl.pl_namespace = p.page_namespace
  7.     -> and pl.pl_title = p.page_title
  8.     ->
  9.     -> WHERE r.rd_from IS NULL
  10.     -> AND pl.pl_from IS NULL
  11.     ->
  12.     -> GROUP BY p.page_namespace;
  13. +----------------+----------+
  14. | page_namespace | count(1) |
  15. +----------------+----------+
  16. |              0 |    12958 |
  17. |              1 |   103645 |
  18. |              2 |    16592 |
  19. |              3 |   568675 |
  20. |              4 |     1954 |
  21. |              5 |      856 |
  22. |              8 |      773 |
  23. |              9 |       17 |
  24. |             10 |     7522 |
  25. |             11 |     1014 |
  26. |             12 |        3 |
  27. |             13 |       27 |
  28. |             14 |    51735 |
  29. |             15 |     1315 |
  30. |            100 |     1190 |
  31. |            101 |      117 |
  32. |            102 |      173 |
  33. |            103 |     1288 |
  34. +----------------+----------+
  35. 18 rows in SET (20.90 sec)

O resultado do cruzamento das duas tabelas foi afixado aqui, com uma listagem de 15M para os 12958 artigos no domínio principal. Na verdade, esta listagem foi feita para colar numa página wiki, no entanto tenham em atenção que são 15M, pelo que não recomendo fazê-lo. Têm outras listas (como a mais simples, em formato pageid,namespace,title) nessa directoria.

Revisita aos dumps da Wikipédia

00:44, Tuesday, 06 2009 October UTC

Ouvir com webReader

Desta vez em português, decidi dar [alguma] continuidade ao que comecei há uns dias com a importação dos dumps da Wikipédia. Graças à dica do Rei-artur foi fácil extrair a lista de robôs, para excluir das estatísticas.

CODE:
  1. [myself@speedy ~]# wget 'http://pt.wikipedia.org/w/api.php?action=query&list=allusers&aufrom=A&augroup=bot&aulimit=500&format=txt' -q -O - > bots.tmp
  2.  
  3. [myself@speedy ~]# cat bots.tmp | grep '\[name\]' | sed 's,^.*\[name\] => ,,' > /tmp/bots.txt

Aproveitei e repesquei os user_id para simplificar as pesquisas sem fazer alterações na tabela user.

MySQL:
  1. mysql> CREATE TABLE user_bots ( bot_name VARCHAR(25) );
  2. Query OK, 0 rows affected (0.01 sec)
  3.  
  4. mysql> LOAD DATA INFILE '/tmp/bots.txt' INTO table user_bots;
  5. Query OK, 136 rows affected (0.00 sec)
  6. Records: 136  Deleted: 0  Skipped: 0  WARNINGS: 0
  7.  
  8.  
  9. mysql> ALTER TABLE user_bots add COLUMN bot_user_id INT;
  10. Query OK, 136 rows affected (0.01 sec)
  11. Records: 136  Duplicates: 0  WARNINGS: 0
  12.  
  13. mysql> ALTER TABLE user add index idx_t ( user_name );
  14. Query OK, 119134 rows affected (2.63 sec)
  15. Records: 119134  Duplicates: 0  WARNINGS: 0
  16.  
  17. mysql> UPDATE user_bots ub JOIN user u on user_name = bot_name SET ub.bot_user_id = u.user_id;
  18. Query OK, 134 rows affected (0.00 sec)
  19. Rows matched: 134  Changed: 134  WARNINGS: 0
  20.  
  21. mysql> ALTER TABLE user_bots add PRIMARY KEY (bot_user_id);
  22. Query OK, 136 rows affected, 1 warning (0.00 sec)
  23. Records: 136  Duplicates: 0  WARNINGS: 1
  24.  
  25. mysql> SHOW WARNINGS;
  26. +---------+------+---------------------------------------------------+
  27. | Level   | Code | Message                                           |
  28. +---------+------+---------------------------------------------------+
  29. | Warning | 1265 | Data truncated for COLUMN 'bot_user_id' at row 71 |
  30. +---------+------+---------------------------------------------------+
  31. 1 row in SET (0.00 sec)
  32.  
  33. mysql> UPDATE user_bots SET bot_user_id = -1 WHERE bot_user_id = 0;
  34. Query OK, 1 row affected (0.00 sec)
  35. Rows matched: 1  Changed: 1  WARNINGS: 0

Não tinha reparado que havia um utilizador/robô com o nome "MediaWiki default" mas, bem, depois de criar a Primary Key ficou com o bot_user_id=0 e, para evitar que coincidisse com o agregado para anonymous, dei-lhe o bot_user_id=-1.

Então agora já estamos prontos a completar a query onde ficámos no último dia (número de edições em artigos distintos em cada namespace por utilizador):

MySQL:
  1. mysql> EXPLAIN SELECT epn.user_name,epn.page_namespace,epn.edits
  2.     -> FROM edits_per_namespace epn
  3.     -> LEFT JOIN user_bots ub ON epn.user_id = ub.bot_user_id
  4.     -> WHERE ub.bot_user_id IS NULL
  5.     -> AND epn.user_id <> 0
  6.     -> ORDER BY edits desc limit 20;
  7. +----+-------------+-------+--------+---------------+---------+---------+----------------------+--------+--------------------------------------+
  8. | id | select_type | table | type   | possible_keys | key     | key_len | ref                  | rows   | Extra                                |
  9. +----+-------------+-------+--------+---------------+---------+---------+----------------------+--------+--------------------------------------+
  10. 1 | SIMPLE      | epn   | ALL    | NULL          | NULL    | NULL    | NULL                 | 187624 | USING WHERE; USING filesort          |
  11. 1 | SIMPLE      | ub    | eq_ref | PRIMARY       | PRIMARY | 4       | ntavares.epn.user_id |      1 | USING WHERE; USING index; NOT EXISTS |
  12. +----+-------------+-------+--------+---------------+---------+---------+----------------------+--------+--------------------------------------+
  13. 2 rows in SET (0.00 sec)
  14.  
  15. mysql> SELECT epn.user_name,epn.page_namespace,epn.edits
  16.     -> FROM edits_per_namespace epn
  17.     -> LEFT JOIN user_bots ub ON epn.user_id = ub.bot_user_id
  18.     -> WHERE ub.bot_user_id IS NULL
  19.     -> AND epn.user_id <> 0
  20.     -> ORDER BY edits desc limit 10;
  21. +----------------+----------------+-------+
  22. | user_name      | page_namespace | edits |
  23. +----------------+----------------+-------+
  24. | EMP,Nice poa   |              0 | 58138 |
  25. | Dantadd        |              0 | 44767 |
  26. | João Carvalho  |              3 | 44533 |
  27. | OS2Warp        |              0 | 43396 |
  28. | Yanguas,Sonlui |              0 | 37020 |
  29. | Lijealso       |              0 | 34157 |
  30. | Rei-artur      |              0 | 33863 |
  31. | Tumnus         |              3 | 33213 |
  32. | Nuno Tavares   |              0 | 31910 |
  33. | Bisbis         |              0 | 29886 |
  34. +----------------+----------------+-------+
  35. 10 rows in SET (0.76 sec)

Os resultados completos estão aqui.

Já agora, para finalizar, a tão afamada lista de wikipedistas por número de edições:

MySQL:
  1. mysql> CREATE TABLE edits_per_user SELECT rev_user,count(1) as counter FROM revision GROUP BY rev_user;
  2. Query OK, 119134 rows affected (12.61 sec)
  3. Records: 119134  Duplicates: 0  WARNINGS: 0
  4.  
  5. mysql> SELECT u.user_name,epu.counter
  6.     -> FROM edits_per_user epu
  7.     -> LEFT JOIN user_bots ub on ub.bot_user_id = epu.rev_user
  8.     -> JOIN user u on epu.rev_user = u.user_id
  9.     -> WHERE ub.bot_user_id IS NULL ORDER BY counter desc limit 10;
  10. +----------------+---------+
  11. | user_name      | counter |
  12. +----------------+---------+
  13. | anonymous      | 3119758 |
  14. | EMP,Nice poa   |  176338 |
  15. | OS2Warp        |  163751 |
  16. | Dantadd        |  105657 |
  17. | Lijealso       |   90025 |
  18. | Yanguas,Sonlui |   89152 |
  19. | Rei-artur      |   83662 |
  20. | Mschlindwein   |   75680 |
  21. | Bisbis         |   75361 |
  22. | Nuno Tavares   |   73141 |
  23. +----------------+---------+
  24. 10 rows in SET (0.05 sec)

Os resultados completos estão aqui.

Revisita aos dados estruturados

14:36, Saturday, 03 2009 October UTC

Ouvir com webReader

Há alguns dias num mergulho profundo sobre a utilização de wikis em campos específicos deparei-me com uma "foto" da Wikipédia muito interessante, aqui, que ilustra, entre outras coisas, a actividade na Wikipédia, a vários níveis: Visualizing Science & Tech Activity in Wikipedia:


Fonte: A Beatiful WWW

O website, A Beatiful WWW, dedica-se à extracção e representação dos volumes de informação distintos que conhecemos hoje. Eu já tinha falado nisto e descobri, entretanto, que o Google disponibiliza uma API de representação de dados estruturados.

Consigo pensar numa série de brincadeiras para isto :) Imaginem, por exemplo, juntar isto tudo, logo agora que a Wikimedia vai estar empenhada em manter os conteúdos disponíveis no Amazon Public Data Sets!..

Olhem aqui um exemplo do que pode ser feito, desta vez com Hadoop e Hive: Hot Wikipedia Topics, Served Fresh Daily.

"A" votação ou "A" hora

08:57, Tuesday, 11 2009 August UTC

Há muito tempo em conversa informal que uma votação do fair use deveriam ser verificadas todas as contas votantes... para se averiguarem quais os fantoches que por ali andariam.

De acordo com a heurística do rei-artur à partida muitos fantoches estão identificados, mas, daquilo que vi em termos de distúrbio mental enquanto fui verificador,  acredito que muitos se deram ao trabalho de conquistar o direito ao voto com proxys diferentes. E à partida palpitaria para resultados semelhantes aos do rei-artur, ambos os lados têm gente apanhada mas o pró dominaria. Sim, é discriminação e não sei que mais...

 

Citei, há muitos posts, e por outras palavras, que pela wiki.pt como na vida, "se queres ser bom, morre ou ausenta-te", há sempre os bons, os maus e os que se foram embora e são deificados.

Só há meses passei a ter net em casa, editei sempre do trabalho. Editei com o braço partido, editei do estrangeiro, editei quando estava de férias, editei quando estava a trabalhar durante o suposto período de férias, e com directas em cima, editei quando tinha dois trabalhos, e muitas outras gabarolices...

 

Foi giro. Não gosto muito do que leio, não suporto muito do que se passa, e como não tenho força nem um milionésimo do entusiasmo inicial, só mesmo o vício que me faz ler as polémicas e não os artigos, prefiro, como tantos outros, ir. A wiki.pt é grande, vai continuar a crescer, e eu, espero definhar de pequenino...

Duas perguntas...

09:00, Friday, 17 2009 July UTC

Quem apoia a ideia de que o Quintinense (leia-se Dbc2004, Joao666, Missigno, Quintinense) é/foi o maior caso de SP da wiki.pt? Só se forem os mesmos que acham que o Bizuim é/foi o maior troll da wiki.pt.

 

Quem acha que o Ozalid deve voltar e bloquear por infinito o Madeirense? Todos os que se riram da primeira pergunta.

 

E uma terceira, de retórica, quem será o Madeirense? Os mesmos de antes sabem perfeitamente a resposta a esta pergunta, os "jovens" nem sonham o que está por trás.

 

A wiki.pt é dos poucos locais onde o ambiente ficou menos poluído nos últimos anos. Espero que não tenha sido por ter saído :S

 

 

Older blog entries