A evolução dos sistemas de gestão de acervos digitais (parte II)

ARTIGO

Nº 155 – Out /Nov 2015

por Fabio Tsuzuki e José Olairson Valentim

Nesta edição da Revista da SET avançamos com a segunda parte do artigo que analisa os sistemas de gestão de acervos digitais. Na edição anterior foram analisados a infraestrutura e os formatos de arquivos que podem ser utilizados nos sistemas MAM

Oarquivamento de conteúdo na nuvem é outra opção que o radiodifusor pode ter na hora de decidir onde guardará os seus arquivos digitais. A Amazon é a empresa líder de mercado em tecnologia de nuvem. Para armazenar 1.000hs de conteúdo (21,97TB), com possibilidade de acesso imediato usando Amazon S3, deve ser cobrado um valor de US$ 664,94 por mês.

A própria Amazon oferece outra categoria de arquivamento – Amazon Glacier – onde existe um tempo mínimo de 4 horas para recuperar um dado conteúdo, neste caso o custo para armazenar 1.000hs de conteúdo (21,97TB) deve ser US$ 225,28 por mês.
É importante observar que salvar um arquivo no Amazon S3 bem como no Amazon Glacier corresponde a realizar 3 cópias do mesmo arquivo em diferentes locais físicos. Não é simples fazer um comparativo com o custo estimado em termos de mídias, pois neste caso o custo engloba alguns aspectos operacionais referentes ao suporte e manutenção da infra-estrutura de armazenamento.
Fazer uma análise da nuvem apenas pelo custo de armazenamento é bastante superficial, uma vez que os principais recursos que a nuvem disponibiliza são: poder de processamento, banda para transferência de arquivos e capacidade de armazenamento. Esses recursos são disponibilizados de maneira que eles nunca faltam, existe uma abundância de recursos para serem explorados.
Aplicações que exploram bem essa fartura de recursos são categorizadas como aplicações com elasticidade, são aplicações que tem capacidade de requisitar novos recursos computacionais conforme a carga operacional.Essa carga precisa ser gerenciada por uma fila. O conceito de gestão por fila é comum para ambas implementações, implementação on-premises e implementação na nuvem. Existe uma grande diferença em como essa fila é tratada. Em data-center dedicado, on-premises, a quantidade de recursos computacionais é limitada de forma que o processamento da fila deve ser tal que opere dentro dos limites de carga. Na nuvem não existe esse limite e assim a aplicação pode requisitar novos recursos sempre que houver um aumento na carga de trabalho.

Outra diferença fundamental é o fato do sistema em nuvem ter processos alternativos para recuperação de falhas. Muitas falhas são internas ao sistema e assim todas essas falhas internas devem ser automaticamente corrigidas. Se simularmos a queda de um equipamento físico, então um conjunto de serviços fica inoperante, isso significa uma diminuição no poder computacional e o sistema gestor da nuvem detecta essa diminuição com uma falta de fluidez na fila, automaticamente le-vanta novos serviços que substituem os serviços que foram derrubados.
É fácil entender que o conceito de elasticidade está relacionado com o conceito de alta disponibilidade, e não são equivalentes entre si sendo que a elasticidade é bem mais abrangente do que a alta disponibilidade.
Nas tabelas de aquisição das mídias o custo é referente apenas à aquisição das mídias, não foi contabilizado o custo para salvar o arquivo nessas mídias nem o custo total de operação, que pode incluir exaustivas migrações de dados. Enfim, existe um custo operacional que deve englobar a operação efetiva, e ainda o custo para montar toda a infraestrutura que permite manipular as mídias para arquivamento permanente de conteúdo. Essa infraestrutura é composta por servidores, storages e sistemas robotizados. Ainda existe o custo para manter essa infraestrutura atualizada e operacional. Após contabilizar todos estes custos será possível avaliar os custos de arquivamento em nuvem.
A simples comparação dos valores apresentados neste tópico sobre arquivamento em nuvem com as tabelas que apresentam o custo para aquisição de mídias para arquivamento digital pode induzir a interpretações superficiais. Para obter conclusões mais efetivas é necessário elaborar uma análise dos custos de aquisição, operação e manutenção de um sistema on-premises, onde as mídias são utilizadas.
Os custos referentes à nuvem apresentados neste tópico, abrangem apenas o armazenamento em storage, é uma primeira referência. Para uma comparação mais efetiva também deve ser levado em consideração o custo da Amazon referente aos outros componentes: tráfego e poder de processamento.
As novas tecnologias desenvolvidas para possibilitar a exploração de grandes infra-estruturas de data-centers no modelo de nuvem têm-se mostrado mais abrangentes, flexíveis e alinhadas com negócios que exigem uma operação contínua, e os sistemas de broadcast são os melhores exemplos destes sistemas de operação contínua.
É observada uma dificuldade na assimilação destas novas tecnologias na esfera administrativa, pois os sistemas de nuvem são modelados de forma que o custo seja proporcional ao uso: quanto maior o uso mais se paga, quanto menor o uso menos se paga. Este modelo exige uma maior governança dos recursos utilizados: “Porque foi usado mais do que o estimado?” ou “Porque foi usado menos que o estimado?”. Esta são perguntas que precisam ser respondidas rapidamente, e por falta de governança as perguntas ficam sem resposta. Na ausência de uma boa governança a contratação dos serviços de nuvem é feita em valores pré-fixados o que, de certa forma, limita a exploração das características da elasticidade da nuvem. Um exemplo simples de como essa limitação pode ser prejudicial é justamente quando o portal de vendas da empresa é baseado na tecnologia de nuvem, mas contratado no modelo engessado de valores pré-fixados.
Por alguma circunstância um dos itens vendidos pelo Portal se torna um hit de vendas e então sem poder aproveitar a elasticidade da nuvem, a tecnologia é usada para frear o processo de vendas. Um fato realmente pre-judicial ao negócio. A verdade é que não apenas o portal precisa ter elasticidade, mas todos os departamentos: a produção, a logística, e inclusive a administração. Somente assim a administração será capaz de assimilar esta nova cultura de elasticidade nos negócios.

Virtualização de servidores e storages virtualizados
Os conceitos relacionados com virtualização estão se consolidando com o surgimento de servidores cada vez mais potentes. Esses servidores são resultados de um grande avanço no desenvolvimento de servidores baseados em CPUs cada vez mais poderosas. Estes conceitos de virtualização e de computação em nuvem são bastante relacionados e está fortalecendo a fabricação de servidores cada vez mais poderosos. Nesses servidores é possível criar uma grande quantidade de servidores virtuais e distribuir a carga sobre um pequeno conjunto de servidores físicos muito poderosos. O dimensionamento da carga é uma tarefa bastante complexa e tipicamente é resultado de muita experiência. Uma regra importante nesse processo de dimensionamento de carga consiste em ter um poder computacional suficiente para atender toda carga mesmo que um servidor venha a apresentar problemas. Aplicando esta regra é possível criar uma alta disponibilidade sem a necessidade de replicar completamente todos os servidores.Essa disponibilidade pode ser melhorada considerando, por exemplo, um poder computacional suficiente para atender toda carga mesmo que dois servidores apresentem problemas.
Um servidor pode falhar em algum momento, mas ao considerar um Datacenter com milhares de servidores, aumenta a probabilidade de ocorrerem falhas ao longo de um dia. Nessa escala de milhares de servidores está surgindo uma nova IT, hoje designada por web-scale IT.
Neste universo, web-scale, os servidores e os storages são efetivamente componentes de software com uma inteligência capaz de corrigir falhas sem que seja necessária uma intervenção humana. Os sistemas se auto corrigem. Os sistemas web-scale precisam ser independentes de características específicas de componentes físicos e assim possibilitam um crescimento gradual e sem a necessidade de um upgrade de toda infra-estrutura física.
Gartner apresentou o termo web-scale em 2013 e segundo as pesquisas conduzidas recentemente, foi previsto que, por volta de 2017, a infra-estrutura web-scale será utilizada pela maioria das grandes empresas multinacionais.

Neste novo universo as aplicações deixam de ser isoladas e operam de forma completamente integrada demonstrando uma superconectividade que pode ser traduzida como uma grande facilidade para troca de dados e arquivos entre as diferentes aplicações estabelecendo uma ecologia entre sistemas.
Uma demonstração interessante desta superconectividade pode ser observada ao comprar um novo celular. Basta configurar a sua conta de e-mail que todos dados do celular antigo ficam sincronizados com o celular novo.
Esta facilidade de troca de informações e arquivos nesses ambientes web-scale será extremamente explorado pelos sistemas de MAM, pois a troca de arquivos entre diferentes empresas é um dos grandes problemas que precisa ser solucionado.

Transporte de arquivos
O transporte de conteúdo é um problema bastante comum na indústria de broadcast, pois os arquivos precisam se trafegados com agilidade e garantia de entrega. É possível observar diferentes soluções para resolver este problema. Algumas soluções transportam o conteúdo em banda base através de uma rede satelital e outras soluções são baseadas em redes IPs. A distribuição de vídeos em redes IPs está alterando o perfil de uso das mesmas.
No caso de transporte de arquivos de vídeos em redes IPs existem alguns casos particulares:
* Transporte ponto a ponto;
* Distribuição de conteúdo ao vivo em tempo real para uma grande audiência;
* Distribuição de conteúdo sob demanda para uma grande audiência.
Retomando as etapas de trabalho para elaboração do conteúdo: captação, edição, exibição e arquivamento. Veja que o transporte ponto a pronto é um problema da etapa de captação e da exibição, fase prévia da exibição.
A integração da etapa de exibição com CDN para distribuição de conteúdo ao vivo em tempo real para uma grande audiência é uma combinação perfeita.
Finalmente distribuir um acervo sob demanda para uma grande audiência é outra combinação perfeita. Um sistema de MAM mais abrangente capaz de integrar todas as etapas de trabalho, está diretamente e indiretamente relacionado com todas diferentes maneiras de transportar arquivos em redes IPs.

Existem redes de distribuição de conteúdo muito eficientes, são as Content Delivery Network (CDN) ou Content Distribution Network. A CDN é uma vasta rede de servidores distribuídos em vários datacenters integrados pela internet. Ela facilita a distribuição de conteúdo na internet e otimiza o tráfego de conteúdo distribuindo o mesmo nessa vasta rede de servidores.
O transporte do arquivo é uma parte de um trabalho mais amplo que é a distribuição de conteúdo. Uma vez apresentado esse aspecto técnico do transporte é possível abordar outros aspectos relacionados com a finalidade desse transporte. É um novo enfoque e justifica a necessidade desse transporte: por exemplo, distribuir em redes sociais, publicar no portal da empresa, publicar em um acervo de aulas, publicar em um sistema de internet TV etc. Trata-se da distribuição em novas mídias e novas maneiras de apresentar o conteúdo e tornar a experiência mais interessante e atrativa através do uso de novos recursos tais como interatividade. Este assunto está em constante evolução acompanhando os novos comportamentos relacionados com o consumo de conteúdo principalmente pela audiência jovem.
Os sistemas de MAM têm uma vocação natural para integrar com todas as técnicas de transporte, mas caso esta integração seja feita integrada com a efetiva distribuição desse conteúdo, não importando qual seja a finalidade, então o ganho operacional será bastante elevado, pois o conteúdo rapidamente sai da linha de produção e é entregue para ser distribuído e consumido.

Finalidade dos sistemas de MAM
Os sistemas de MAM têm uma primeira finalidade de integrar processos e permitir uma melhor gestão tanto dos processos, como dos conteúdos e ainda da própria infra-estrutura. Realmente são muitos aspectos envolvidos.
Indiretamente estão relacionados com processos de preservação de acervos. A preservação é resultado de uma melhor gestão. Uma melhor gestão consiste em requisitar um acesso à mídia física apenas quando realmente for necessário.
Muitas empresas estão digitalizando o seu acervo físico de conteúdos: slides, películas, livros raros, ilustrações etc. e disponibilizando um acesso eletrônico a este acervo. Obras que somente seriam acessadas por pesquisadores podem ser acessadas por um público muito mais amplo e diverso. Ingestando esses arquivos digitalizados em sistemas de MAM, permite uma boa gestão do acervo no formato digital e garante um acesso ainda mais restrito para o original físico. Os sistemas de MAM apoiam os trabalhos de arquivamento e formação de um grande acervo de conteúdo. Normalmente o acervo é utilizado dentro da própria corporação, pois na etapa de edição é interessante resgatar um conteúdo antigo, já arquivado, para contextualizar um conteúdo novo que está sendo produzido.
Existe um movimento para preservação de acervos culturais e a melhor maneira de preservar é estabelecer uma finalidade. Dentre as finalidades, a mais espetacular, é a integração dos acervos com fins educacionais. É um slogan: Preservar para educar!
A própria educação está passando por uma revolução e os métodos tradicionais já não são capazes de educar a grande diversidade de público que existe hoje. O ensino à distância, o uso de vídeos e outras tecnologias são cada vez mais aplicados e aprimorados. A integração de um sistema de MAM em processos da indústria da educação vai ocorrer.
A questão do transporte do conteúdo está intrinsecamente relacionada com este perfil de uso da indústria da educação distribuir conteúdo para um público estudantil. Essa distribuição pode ocorrer nas diferentes modalidades: ao vivo ou sob demanda.
Se os processos de distribuição estiverem modelados e permitirem uma gestão será muito natural integrar essa gestão com sistemas de MAM diretamente ou indiretamente através de um sistema que controle a distribuição de conteúdo, que em tese são os sistemas que gerenciam a grade curricular.

Técnicas de documentação
Após a apresentação sobre vários aspectos dos sistemas de MAM é ainda tem a etapa de arquivamento. O simples arquivamento do conteúdo não garante a sua recuperação. É necessário qualificar, catalogar e indexar esse conteúdo para facilitar a sua recuperação. Trata-se da elaboração de uma documentação mínima que deve estar associada com o item gerenciado.
Os trabalhos de documentação são executados por bibliotecários. Para pequenos acervos basta uma ficha com um conjunto de campos que descrevem sucintamente o conteúdo. Os campos podem ser de vários tipos: caixas para texto livre, caixas de seleção, campos de datas, campos de duração, etc.
Esses campos correspondem aos metadados do item gerenciado. Para sistemas com foco nas etapas de produção e exibição observa-se um conjunto relevante de metadados para gerenciar essas atividades: quando o material bruto chegou, quando iniciou a edição, quando finalizou a edição, quando foi exibido, quantas vezes foram exibidas, etc. Esses metadados não descrevem o conteúdo do arquivo, mas apoiam o processo de gestão.
Os dados que descrevem o conteúdo são metadados descritivos, tipicamente tem os nomes dos repórteres, cinegrafistas, entrevistados etc.
As caixas de seleção permitem uma rápida classificação do conteúdo segundo categorias. Essas categorias podem representar gênero, núcleo de produção envolvido, equipamentos utilizados na captura do conteúdo, etc. O uso de caixas de seleção para nomes de pessoas, tais como cinegrafistas e repórteres, não é interessante, pois após muitos anos de operação o sistema pode estar com centenas senão milhares de nomes, e a seleção de um nome em uma caixa de seleção é bastante vulnerável a erros. Permitir a livre digitação também é vulnerável a erros de digitação, realmente, erro de digitação de nomes, é bastante comum. O uso de uma caixa de seleção permite um melhor controle, mas por outro lado dificulta muito a operação quando a lista de nomes é muito extensa.

A melhor solução consiste em um sistema com auto completar para nomes de pessoas. O operador inicia a digitação do nome e então os nomes aparecem para que o operador escolha o nome correto. Os sistemas com auto completar normalmente são integrados a um dicionário controlado.
O dicionário controlado é composto por duas grandes listagens. A primeira listagem são as Identidades, que podem ser nomes de pessoas, lugares, músicas, títulos de obras etc. A segunda listagem são de thesaurus, que é uma listagem de palavras que tem um relacionamento estabelecido entre si. Os principais tipos de relacionamentos em um thesaurus são:
RT: Indicação de termo relacionado:
Por exemplo: o termo casa é relacionado com casarão
UF: Indicação de termo oficial:
Por exemplo: O termo oficial para casa de câmbio é instituição financeira.
BT: Indicação de termo com significado mais abrangente
Por exemplo: O termo arquitetura abrange o termo casaArtigoArtigo
NT: Indicação de termo com significado mais específicoPor exemplo: O termo real (Moeda) é mais específico que o termo dinheiro.
Um thesaurus elaborado para documentação de conteúdos de cunho geral como as matérias jornalísticas deve ter em torno de 20.000 palavras. A lista de identidades cresce ilimitadamente.
Os dicionários mais práticos estabelecem novos tipos de relacionamentos entre as palavras gerenciadas, e um dos relacionamentos mais relevantes é justamente a associação de uma identidade com um termo do thesaurus. A aplicação desta técnica nas pesquisas facilita a recuperação de itens de forma mais efetiva.

Exemplo: São Paulo é uma identidade que precisa ser qualificada: Estado, cidade, estádio, santo, time de futebol etc.Outro exemplo interessante é:Getúlio Vargas que é uma identidade pode ser qualificado por: Deputado estadual, deputado federal, ministro da fazenda, governador, presidente da República.
Neste exemplo todos os qualificadores se referem a uma mesma identidade enquanto que no exemplo anterior a qualificação ajuda na distinção das identidades.
Pequenos acervos não necessitam de técnicas aprimoradas de indexação, pois um título bem elaborado pode ser suficiente. Acervos de tamanho médio já precisam de campos específicos de metadados para facilitar a catalogação, e o uso de técnicas baseadas em dicionário controlado começam a fazer diferença nas pesquisas mais específicas. Para acervos muito grandes a aplicação destas técnicas é essencial pois permite pesquisas que retornem com os itens que realmente fazem sentido.
Neste tópico é interessante avaliar outros pontos tais como a aplicação de engines que transcrevem o áudio para texto permitindo pesquisas sobre o texto transcrito. O uso deste recurso permite pesquisar sobre um acervo que ainda não foi devidamente tratado e catalogado. É um recurso complementar ao uso do dicionário controlado. Além deste engine de transcrição é possível aplicar outros engines analíticos conforme já foi descrito anteriormente (componentes lógicos dos sistema de MAM).
Os recursos disponibilizados por um dicionário controlado são efetivos e permitem pesquisas com resultados muito mais limpos e próximos do desejado. É possível fazer um paralelo com as pesquisas de pessoas no Facebook versus as pesquisas com nome de pessoas no Google. O Facebook já ultrapassou o Google quando se fala em “encontrar pessoas”, pois o Google executa pesquisas sobre um grande conjunto de informações textuais e não estabelece uma relação entre quem pesquisa e quem está sendo pesquisado. O Facebook efetivamente reconhece as pessoas e estabelece relação entre elas, essa é a natureza da rede social. Esse relacionamento estabelecido entre as pessoas funciona como um processo avançado de indexação e catalogação. É um processo similar à indexação oferecida pela Amazon: “quem comprou o livro de interesse também comprou estes outros livros”, e também é similar ao processo estabelecido através do uso de um dicionário controlado, é bom lembrar da lista de identidades de um dicionário controlado! As pessoas estão muito melhor indexadas e catalogadas no Facebook!

Conclusão
Os sistemas de MAM não apenas se propõem gerenciar o conteúdo independente do seu formato. Ele deve ter uma visão completa do ciclo de vida do conteúdo apoiando as atividades nas etapas de captação, edição, exibição, distribuição e arquivamento. Estes, também podem estar integrados com sistemas de distribuição de conteúdo em novas mídias.
O mercado de sistemas na nuvem está demonstrando a real necessidade de um sistema que integre vários sistemas e engines criando um grande ecossistema gerenciado. Os sistemas de MAM com sua competência em gerenciamento é uma peça chave nesse ecossistema de nuvem.
A gestão do acervo digital é apenas a ponta do iceberg de um grande ecossistema digital
.

Fabio de Sales Guerra Tsuzuki é engenheiro eletrônico e mes-tre em engenharia pela Escola Politécnica da Universidade de São Paulo, doutor em engenha-ria pela Universidade de Tóquio. Sócio fundador da Media Portal Soluções Ltda.


José Olairson Valentim é enge-nheiro da computação graduado pela Universidade Unisantana de São Paulo, com experiência em emissoras de Televisão nas áreas de Treinamento, Projeto e Imple-mentação de sistemas de TV.Especialista em Media Asset Ma-nagement. Membro da SET desde 1999, tendo participado também dos grupos de trabalho do Fórum Brasileiro de TV Digital. Gerente de Projetos da Videodata, na Divisão de Arquitetura Digital.

Post Tags: