Observatório, 16.setembro.2003
ARQUIVO DE NOTÍCIAS
Reportagem auxiliada por computador – 3 (*)
Paulo Rebêlo (**)
No capítulo anterior [veja remissão abaixo] aprendemos como usar palavras-chave para nomear os arquivos que farão parte do arquivão digital de notícias, para que lá na frente a gente consiga encontrá-los mais facilmente. Usamos exemplos práticos com reportagens da Folha de S.Paulo e com diferentes datações.
Os jornais diários publicam bastante conteúdo descartável e a maioria das reportagens envelhecem rápido. Cabe a você usar sua perícia em filtragem para saber o que pode vir a servir no futuro.
Por “servir” entenda não apenas como base para futuras matérias, mas sobretudo como fonte de conhecimento histórico na palma da mão. Particularmente, acho bem interessante salvar todos os obituários que leio em jornais, sobretudo aqueles com matérias especiais falando sobre vida e obra do falecido.
A cada ano, se produz mais e mais notícias. Ao ler uma reportagem do ano passado sobre determinado assunto, não raro temos a impressão de que o texto parece ter sido escrito há bem mais tempo. Então, agora que aprendemos a nomear os arquivos a partir de palavras-chave e datas, resta a pergunta: como vamos salvar os textos? Em que formato?
Existem várias maneiras de proceder, sem necessidade de usar planilhas eletrônicas ou banco de dados. O recurso mais adotado internacionalmente é o PDF, a partir de um software chamado Acrobat, da Adobe – a mesma por trás do Photoshop. É possível salvar em PDF a partir de outros programas, alguns gratuitos, porém com menos opções de personalização.
Os arquivos PDF não ocupam muito espaço e reproduzem com fidelidade exatamente aquilo que você vê na tela. Entretanto, não obstante todas as maravilhas do PDF, trata-se de um formato mais útil para imprimir do que para consultar no monitor.
Uma opção bem interessante, desde que você tenha certeza de que continuará usando Windows e não migrará para outras plataformas (Linux, MacOS etc), é salvar o conteúdo a partir do Internet Explorer, pela opção “Salvar como…” e escolhendo a alternativa “Arquivo da web, arquivo simples”. O Internet Explorer irá salvar toda a página em um único arquivo com extensão .MHT, contendo todo o material necessário para ler o texto offline, onde quiser.
MHT – Prós
** Arquivos .MHT podem ser lidos em qualquer computador com Internet Explorer e Outlook Express instalados, ou seja, a imensa maioria.
** O mais interessante e útil é que ele não realiza nenhum tipo de conversão, a exemplo do que ocorre no PDF – que converte o HTML do site para um formato próprio (o PDF em si).
** Ao não converter nada para outro formato, o MHT conserva toda a estrutura original do HTML, isto é, mantém ativo os links, as propagandas, as imagens com animação, banners etc.
** O arquivo se ajusta automaticamente à resolução do monitor que for usado na hora de abrir o documento pelo Internet Explorer. Não é preciso dar zoom out ou zoom in.
MHT – Contras
** Você só pode gravar MHT a partir do Internet Explorer. Outros navegadores (Opera, Netscape, Mozilla, Firebird etc) não possuem recurso similar. O que os outros navegadores fazem é salvar apenas o HTML principal (um pequeno arquivo .htm) ou salvar toda a página criando pastas e subpastas com dezenas de arquivos relacionados, o que gera uma enorme confusão e não atende aos nossos resquisitos para pesquisas rápidas.
** MHT só pode ser lido em computadores Windows e, mais especificamente, pelo Internet Explorer ou Outlook Express. Programas concorrentes não reconhecem o MHT.
** Não é possível salvar várias matérias em um mesmo MHT. Caso a reportagem tenha um link para ler a página seguinte, por exemplo, você terá que salvar a primeira página em um MHT e a segunda página em outro MHT. Na internet, os sites geralmente separam por links os grandes blocos de textos, então às vezes uma única reportagem pode exigir vários MHT. Você terá que nomeá-los de forma a entender onde começa e onde termina.
PDF – Prós
** É um formato universal, pode ser lido em qualquer sistema operacional e em praticamente qualquer ambiente, inclusive naqueles portáteis tipo handheld, palmtop etc. Desde que, claro, a pessoa tenha o Acrobat Reader (gratuito) instalado para ler os documentos.
** Você pode salvar várias páginas e reportagens dentro de um mesmo arquivo PDF, diferentemente do que ocorre com MHT.
** Hoje em dia, o Acrobat Reader (programa que apenas lê PDF, mas não grava) é bastante comum. Mais cedo ou mais tarde, todo mundo vai precisar tê-lo instalado.
** Além de servir para consulta offline, fica mais fácil imprimir PDF, se for um dia for preciso. A fidelidade é maior na impressora com PDF do que com o MHT.
** Existem vários programas e utilitários que gravam em PDF, muitos dos quais são gratuitos e de código aberto, facilmente encontrados no Google. Não é 100% necessário ter uma versão oficial do Acrobat para gravar no formato, apesar de ser recomendado por causa da extensa lista de opções e personalização.
** Você não é obrigado a usar Internet Explorer para salvar PDF. Pode ser em qualquer navegador.
PDF – Contras
** No modo “padrão” (mais rápido), você perde a estrutura de hipertexto (links) da página. Os arquivos são salvos de forma estática, como se fosse um pedaço de papel. Não dá para clicar em cima do papel, não é?
** O problema acima foi resolvido com a nova versão 6.0 do Acrobat, porém, só funciona no Internet Explorer e, mesmo assim, com algumas restrições técnicas. Em outros navegadores, salvar em PDF é como salvar em papel, estático. Mas, se você usa Internet Explorer, tudo bem.
** A geração/conversão de um PDF é mais lenta do que um MHT.
** Querendo ou não, o Acrobat e o Acrobat Reader são programas bem mais pesados do que o Internet Explorer. Ou seja, leva mais tempo pesquisar em PDF do que em MHT se você tiver um esquema de nomenclatura de arquivos já bem definido mentalmente.
Por fim, um último adendo: como o MHT é apenas o HTML gravado em um único grande bloco, sempre é possível fazer a conversão de MHT para PDF quando quiser. O caminho inverso não dá.
No próximo capítulo, vamos ver como arquivar reportagens a partir do papel — jornais, revistas etc – de forma rápida e eficiente. Afinal, tempo é tudo que a gente não tem.