Projecto IMS - Pedro Ferraz de Abreu

O Sistema

Componentes do Sistema | Interface Interactiva | Base de Dados Multimedia | Base de Conhecimentos

Base de Conhecimentos

Elementos de uma Base de Conhecimentos | Categorias de Conhecimento | Unidades de Conhecimento | Representação de Conhecimentos | Motores de Inferência

Elementos de uma Base de Conhecimentos (BC)

Uma Base de Conhecimentos integra informação base (conhecimentos), uma estrutura representacional (nivel semântico), e um ou mais mecanismos de raciocinio formal (motores de inferência). No protótipo IMS, a unidade de conhecimentoelementar é o vocábulo , o modelo de representação de conhecimentosdominante é o Taxonómico , e o motor de inferênciapreviligiado é o encadeamento em sentido directo

Base de Conhecimentos no Protótipo IMS

Estrutura

(Representação de Conhecimentos)

Conteudo

(Unidades de Conhecimento)

Taxonomia de Assuntos (Classes de FAQ*)

Taxonomia de Dominios

Descritores Metadata (Niveis de Dificuldade Técnica, Sequências de Perguntas, Classificação Taxonómica, Apontadores Multimedia)

Vocabulos (Definindo elementos de Dominio, Assunto e Palavras-Chave)

Unidades 'pergunta-resposta' (FAQ, Glossário, Ficheiros Multimedia Acoplados)

Regras

Motores de Inferência

"Forward Chaining" (Sequênciação de Perguntas, Encadeamento de Regras)

Estrutura (Representação de Conhecimentos)	Conteudo (Unidades de Conhecimento)
Taxonomia de Assuntos (Classes de FAQ*) Taxonomia de Dominios Descritores Metadata (Niveis de Dificuldade Técnica, Sequências de Perguntas, Classificação Taxonómica, Apontadores Multimedia)	Vocabulos (Definindo elementos de Dominio, Assunto e Palavras-Chave) Unidades 'pergunta-resposta' (FAQ, Glossário, Ficheiros Multimedia Acoplados) Regras
Motores de Inferência "Forward Chaining" (Sequênciação de Perguntas, Encadeamento de Regras)

*FAQ - Frequently Asked Questions: Lista de conjuntos pergunta-resposta mais solicitados

Categorias de Conhecimento

Para ser possivel capturar e representar conhecimentos em computador, é indispensável adoptar um formalismo que permita identificar os tipos de conhecimento de forma não ambigua, por forma a encontrar a melhor estrutura e representação para cada caso. A minha proposta de uma "forma canónica" de listar categorias de conhecimento encontra - se no quadro seguinte:

Categorias de Conhecimento

Termo:

· Palavra ou frase curta;

· Representa um elemento de vocabulario técnico, cientifico ou cultural; ou uma variavel numa expressão algebrica;

· Pode ser traduzido em linguagem mais simples e menos técnica (Glossário);

· Não precisa de longas explicações ou fundamentos teoricos complexos;

· Tradução pode conter apenas outros termos.

Conceito:

· Palavra ou frase;

· Representa uma ideia ou abstracção, técnica, cientifica ou cultural, ou um dominio de conhecimento (classe, sub-classe, dominio);

· Pode ser explicado em linguagem mais comum, recorrendo eventualmente a fundamentos teoricos mais ou menos complexos;

· Explicação pode conter termos ou outros conceitos, de igual ou menor complexidade.

Definição:

· Uma ou mais frases;

· Representa a explicação rigorosa, não ambigua de um termo ou conceito; ou estabelece um axioma, que nesse caso deve ser considerado um termo ou conceito;

· Pode haver mais do que uma definição por conceito, e podem ou não contradizer-se;

· Explicação pode conter outros termos ou conceitos, que não o objecto de definição, de igual ou menor complexidade.

Modelo:

· Uma ou mais expressões algebricas (conjunto de variaveis relacionadas por operadores algebricos ou logicos);

· Pode estabelecer um axioma, (as variaveis devem ser igualmente consideradas termos).

Regra:

· Expressão regular [SE antecedente ENTÃO consequente], em que antecedente e consequente são um conjunto de uma ou mais condições conectadas pelo operador logico E, e em que condição é um 3-tuplo variavel-operador algebrico-valor;

· Representa uma relação causal ou de dependencia entre fenomenos, resultante de investigação e não por determinação arbitraria.

Norma:

· Expressão regular [SE antecedente ENTÃO consequente], em que antecedente é um conjunto de condições conectadas pelo operador logico E, condição é um 3-tuplo variavel-operador algebrico-valor, e consequente pode ser um conjunto de condições ou um conjunto de procedimentos;

· Representa uma relação causal resultante de determinação arbitraria.

Procedimento:

· Uma ou mais frases ou imagens;

· Representa uma sequencia de um ou mais actos (operações, intervenções) por um ou mais agentes incidindo sobre um ou mais objectos-alvo (pessoas, coisas, entidades, etc);

· É condicionado por regras ou normas.

Metodologia:

· Conjunto de normas e procedimentos.

Descrição:

· Uma ou mais frases, imagens ou sons;

· Representa factualmente coisas, pessoas, entidades, locais, acontecimentos ou estados; · Pode conter modelos, termos, conceitos e outras descrições.

Categorias de Conhecimento

Termo:
· Palavra ou frase curta; · Representa um elemento de vocabulario técnico, cientifico ou cultural; ou uma variavel numa expressão algebrica; · Pode ser traduzido em linguagem mais simples e menos técnica (Glossário); · Não precisa de longas explicações ou fundamentos teoricos complexos; · Tradução pode conter apenas outros termos.

Conceito:
· Palavra ou frase; · Representa uma ideia ou abstracção, técnica, cientifica ou cultural, ou um dominio de conhecimento (classe, sub-classe, dominio); · Pode ser explicado em linguagem mais comum, recorrendo eventualmente a fundamentos teoricos mais ou menos complexos; · Explicação pode conter termos ou outros conceitos, de igual ou menor complexidade.

Definição:
· Uma ou mais frases; · Representa a explicação rigorosa, não ambigua de um termo ou conceito; ou estabelece um axioma, que nesse caso deve ser considerado um termo ou conceito; · Pode haver mais do que uma definição por conceito, e podem ou não contradizer-se; · Explicação pode conter outros termos ou conceitos, que não o objecto de definição, de igual ou menor complexidade.

Modelo:
· Uma ou mais expressões algebricas (conjunto de variaveis relacionadas por operadores algebricos ou logicos); · Pode estabelecer um axioma, (as variaveis devem ser igualmente consideradas termos).

Regra:
· Expressão regular [SE antecedente ENTÃO consequente], em que antecedente e consequente são um conjunto de uma ou mais condições conectadas pelo operador logico E, e em que condição é um 3-tuplo variavel-operador algebrico-valor; · Representa uma relação causal ou de dependencia entre fenomenos, resultante de investigação e não por determinação arbitraria.

Norma:
· Expressão regular [SE antecedente ENTÃO consequente], em que antecedente é um conjunto de condições conectadas pelo operador logico E, condição é um 3-tuplo variavel-operador algebrico-valor, e consequente pode ser um conjunto de condições ou um conjunto de procedimentos; · Representa uma relação causal resultante de determinação arbitraria.

Procedimento:
· Uma ou mais frases ou imagens; · Representa uma sequencia de um ou mais actos (operações, intervenções) por um ou mais agentes incidindo sobre um ou mais objectos-alvo (pessoas, coisas, entidades, etc); · É condicionado por regras ou normas.

Metodologia:
· Conjunto de normas e procedimentos.

Descrição:
· Uma ou mais frases, imagens ou sons; · Representa factualmente coisas, pessoas, entidades, locais, acontecimentos ou estados; · Pode conter modelos, termos, conceitos e outras descrições.

Unidades de Conhecimento

A unidade estrutural elementar da base de conhecimentos e' o vocábulo.

Os vocábulos podem definir elementos da taxonomia de dominios, da taxonomia de assuntos, ou representar palavras-chave (que também podem se agrupar em classes de objectos, independentes das duas taxonomias), ou ainda representar variáveis em modelos e sistemas periciais. Este vocabulário (associado a um glossário) constitui em si mesmo uma componente chave da base de conhecimentos do sistema (IMS); cada elemento de vocabulário corresponde assim a uma unidade de conhecimento. No protótipo IMS foram incluidos 1160 vocábulos.

IMAGE imgs/sistema23.jpg

Módulo IMS para Vocabulário

O corpo principal de unidades de conhecimento consiste nas unidades "pergunta - resposta".

O conjunto destas unidades corresponde a uma lista de perguntas-tipo, que se admitia poderem vir a ser colocadas durante o processo de avaliação do EIA, incluindo a consulta publica (de acordo com o modelo "FAQ" - "Frequently Asked Questions"). Estas perguntas foram compiladas por mim com o apoio de um painel independente de peritos deste projecto, e de diversos agentes intervenientes do processo (Comissão de Avaliação, Valorsul, Associações de Defesa do Ambiente). No total, foram compiladas 445 perguntas. Embora a maioria destas perguntas tenha apenas como resposta extractos baseados no EIA apresentado pela Valorsul, houve também 17peritos e decisores que contribuiram com multiplas respostas, permitindo que, para um universo de cerca de 90 perguntas, houvesse mais de uma resposta para cada pergunta.

Outro tipo e unidade de conhecimento incluido no protótipo IMS é o glossáriode termos. Contudo, este tipo não é senão um caso particular do modelo "pergunta-resposta", em que a pergunta se refere ao termo ("O que é ... ?") e a resposta consiste na respectiva definição. Foram definidos 247 termos.

Finalmente, a titulo experimental , foram incluidas um conjunto de regras, capturando formas de raciocinio condicional, implicando causalidade (SE - ENTÃO).

Estas regras, integradas no módulo "IMS Expert System", abrangem temáticas de infra- estrutura, ambiente e economia. Conforme descrito neste relatório, embora este tipo de unidades de conhecimento seja perfeitamente relevante para o tipo de problema que o projecto aborda (avaliação de EIA em gestão de residuos urbanos), verificou-se uma maior dificuldade em construir, em tempo útil, um conjunto suficientemente significativo de regras capturando o essencial dos raciocinios do tipo causa-consequência que os vários agentes intervenientes no processo manifestaram. Assim sendo, as 66 regras incluidas serviram sobretudo para testar o conceito de integração sistema pericial - sistema multimedia subjacente ao modelo do protótipo IMS.

Representação de Conhecimentos

A representação de conhecimentos no protótipo IMS é baseado em dois tipos de estruturas: Descritores e Taxonomias .

Descritores Metadata

Qualquer sistema inteligente tem forçosamente de dispôr de sólida informação caracterizadora dos dados incluidos no sistema, isto é, dados sobre dados, ou metadata . Por isso desenvolvi um sistema de descritores de metadata [Ferraz de Abreu 95], que testei no protótipo IMS.

Estes descritores estão associados a cada unidade de conhecimento, e contêm informação sobre:

Niveis de Dificuldade Técnica (e.g. de uma resposta a uma pergunta, ou de uma
definição de um termo);
Sequências de Perguntas (e.g. que outras perguntas vêm a propósito de um
determinado tema, ou de uma resposta a uma pergunta);
Apontadores Multimedia (e.g. ficheiros de fotografias, tabelas, mapas, video, sons
que ilustram melhor uma resposta a uma pergunta ou uma explicação de um
conceito);
Classificação Taxonómica (e.g. em que classe de dominios cientificos ou de
problemas cabe uma resposta a uma pergunta)

Para esse efeito criei um modelo de estrutura-padrão para cada unidade "pergunta- resposta", que permitisse recolher de forma consistente toda a metadata essencial a cada unidade:

Unidade de conhecimento "pergunta-resposta": Estrutura padrão

@nivelP: Nivel de dificuldade técnica da pergunta

@codigo: Codigo identificador da pergunta na sintaxe de assuntos (Classe, Sub-Classe, Assunto)

@pergunta: Texto da pergunta

@autor: Nome do(s) autor(es)

@tipo: Indicador se a resposta é dada a titulo particular, ou em representação da entidade a que pertencem, nesse caso com identificação da entidade.

@nivelR: Nivel de dificuldade técnica da resposta

@data: Data da resposta

@sumario: Resumo do texto da resposta (aparece no "expert card")

@citacoes: Extractos do Estudo de Impacte Ambiental em discussão

@resposta: Corpo principal do texto da resposta á pergunta

@sequenciais: Lista de codigos de perguntas que estão na sequência natural desta, incluindo os respectivos niveis de dificuldade técnica ("information trails").

@chaves: Palavras-chave associadas á resposta (e, por defeito, à pergunta)

@links: Nomes de ficheiros multimedia associados à resposta, com possibilidade de serem automáticamente incorporados no texto, ou figurarem como "hyperlink"

@fim Identificador de fim do ficheiro (eof), para tratamento automatico ("parsing")

@nivelP:	Nivel de dificuldade técnica da pergunta

@codigo:	Codigo identificador da pergunta na sintaxe de assuntos (Classe, Sub-Classe, Assunto)

@pergunta:	Texto da pergunta

@autor:	Nome do(s) autor(es)

@tipo:	Indicador se a resposta é dada a titulo particular, ou em representação da entidade a que pertencem, nesse caso com identificação da entidade.

@nivelR:	Nivel de dificuldade técnica da resposta

@data:	Data da resposta

@sumario:	Resumo do texto da resposta (aparece no "expert card")

@citacoes:	Extractos do Estudo de Impacte Ambiental em discussão

@resposta:	Corpo principal do texto da resposta á pergunta

@sequenciais:	Lista de codigos de perguntas que estão na sequência natural desta, incluindo os respectivos niveis de dificuldade técnica ("information trails").

@chaves:	Palavras-chave associadas á resposta (e, por defeito, à pergunta)

@links:	Nomes de ficheiros multimedia associados à resposta, com possibilidade de serem automáticamente incorporados no texto, ou figurarem como "hyperlink"

@fim	Identificador de fim do ficheiro (eof), para tratamento automatico ("parsing")

Como exemplo, veja-se a tabela seguinte:

Unidade de conhecimento "pergunta-resposta": Exemplo

@nivelP: 1

@codigo: D XIII 2

@pergunta: Qual o nível de tráfego de camiões de resíduos sólidos induzido pela incineradora?

@autor: Maria João Leite

@tipo: resposta com base no EIA, seguido de opinião pessoal

@nivelR: 1

@data: 96/03/27

@sumario:
Esta resposta tem como base os dados constantes do EIA, embora contenha uma avaliação pessoal dos impactes.

O EIA apenas refere valores de acréscimo de tráfego para a variante à EN10 (caso venha a ser construída) ou para a via de acesso directo à incineradora (via colectora da CP), sendo expectáveis impactes negativos significativos para o período nocturno (+ 35 veículos/hora em 1998 e +57 veículos/hora em 2010). É plausivel esperar um impacte negativo significativo particularmente nos nós da A1, Portela e Santa Iria da Azoia, dada a confluência de tráfego de veículos de recolha de lixo.

@citacoes:

@resposta:
O EIA apenas refere valores de acréscimo de tráfego para a variante à EN10 (caso venha a ser construída) ou para a via de acesso directo à incineradora (via colectora da CP) (ver Quadro 1-Valores de aumento de tráfego de veículos pesados, expressos em veículos/hora).

[@tabela:aumento trafego D XIII]

De acordo com o Quadro 1 são expectáveis impactes negativos significativos para o período nocturno 0H00-6H00 (+ 35 veículos/hora em 1998, e +57 veículos/hora em 2010). É plausivel esperar um impacte negativo significativo particularmente nos nós da A1, Portela e Santa Iria da Azoia, dada a confluência de tráfego de veículos de recolha de lixo.

Para além do aumento de veículos de transporte de lixo induzido pela CTRSU, há ainda a considerar outras fontes geradoras de tráfego.

[@texto: fontes trafego]

Se pretender mais informação, pode consultar ainda uma análise comparativa de quilómetros totais gastos por cada uma das duas alternativas à CTRSU (alternativa 1-três aterros controlados de grandes dimensões; alternativa 2-instalação de uma unidade de compostagem complementada por um aterro controlado)

@sequenciais: 1 D XIII 1,1 D XIII 3,1 D XIII 8,1 F 5

@chaves: transporte de residuos solidos urbanos,estradas

@links: kilometros D XIII 2+texto,fontes trafego+texto,aumento trafego D XIII+tabela,zona CTRSU+foto

@fim

De salientar neste exemplo apontadores como "[@tabela:aumento trafego D XIII]", que permitem ao sistema quer integrar os ficheiros referenciados no momento de chamada do ficheiro principal, quer gerar automaticamente uma conexão ("hyperlink") que permite ao utilizador de seguir essa pista e assim abordar mais em detalhe alguns componentes da resposta. O protótipo IMS contém 618 ficheirosprincipais deste tipo (incluidos em anexo), e mais de uma centena de ficheiros multimedia complementares.

Taxonomias

As Taxonomias são formas de organização hierarquica de um dominio. Neste caso, optou-se por desenvolver duas taxonomias:

Uma, de tópicos ou assuntos , mais ligada ao problema concreto em questão (avaliação de EIA em projectos de gestão de resíduos urbanos);
Outra, de áreas ou domínios cientificos , mais estável e fácil de transitar de um tipo de problema para outro, facilitando a re-utilização do sistema.

Tanto num caso como no outro, as taxonomias constroiem-se com base nos vocábulos do sistema, e na sua classificação respectivamente por assunto, ou por dominio cientifico.

Quanto á taxonomia deassuntos:

Para efeitos da classificação dos assuntos relevantes para consulta técnica e consulta publica (e respectiva discussão), o IMS (Sistema Multimedia Inteligente) esta' estruturado da seguinte forma: classes(de assuntos ou tópicos de consulta), sub-classes, e assuntos. Assunto é assim entendido como um aspecto, topico ou tema concreto em questão , nomeadamente em relação ao qual haverá uma ou mais decisões a tomar ; grupos afins de assuntos (tópicos directamente relacionados entre si) constituem uma sub-classe , e as sub-classes agrupam-se em classes , correspondendo estas aos grandes temas em estudo, discussão e decisão.

Quanto á taxonomia do dominio cientifico e técnico:

Para efeitos da classificação de dados e conhecimentos relevantes para consulta técnica e consulta publica, o protótipo IMS esta' estruturado da seguinte forma: classes(de dominios de conhecimento), sub-classes, e dominios. Dominio é assim entendido

como uma área especializada de conhecimento cientifico ou técnico , ou uma área de especialização profissional ; grupos afins de dominios (áreas directamente relacionadas) constituem uma sub-classe , e as sub-classes agrupam-se em classes , correspondendo estas ás grandes areas cientificas e técnicas.

Quanto á classificação do vocabulário:

A classificação do vocabulário incide principalmente sobre os seguintes aspectos:

a) A que categoria de conhecimento (ver acima; termo, conceito, regra, etc) pertence cada elemento ?
b) A que classe, sub-classe ou dominio cientifico, cultural e técnico pertence cada elemento (se aplicável)?
c) A que classe, sub-classe ou assunto (tópico) pertence cada elemento?
d) Que elementos do vocabulário são meros sinonimos ou variações proximas?
e) Que elementos do vocabulário estão estreitamente associados entre si (relação "pai-filho" ou "irmão", em termos de taxonomia e hierarquia de classes) ?

Na figura seguinte pode ver-se como o módulo "IMS Vocabulary" serviu de suporte para este trabalho de classificação:

IMAGE imgs/sistema26.jpg

Módulo "IMS Vocabulary"

Também constitui informação util os seguintes aspectos sobre cada vocábulo:

a) Quais os peritos mais relacionados com cada elemento?
b) Que entidades publicas ou privadas estão mais associadas a cada elemento, ou ao que representa ?
c) Qual a definição / explicação para cada elemento (se aplicável) ?

Papel das taxonomias e da Classificação de Vocábulos

A Taxonomia serve para:

Classificar ("Carimbar") documentos (texto, imagem, video, som);
dentificar especialização (responsabilidades) de pessoas;
Identificar competências (responsabilidades) de entidades ( e sub-divisões de entidades);
Referenciar (catalogar) perguntas e respostas;
Encaminhar (catalogar) correspondencia , comentarios e opiniões

Um vocábulo deve existir na taxonomia se ele for indispensável para uma destas funções.

Além dos vocábulos presentes na taxonomia (e que o estão apenas num "sitio" da estrutura), poderão existir outros que funcionarão como palavras-chave("Keywords"), e que podem estar associados a um ou mais vocabulos da taxonomia, a qualquer nivel.

Estes vocábulos "keywords " servem para:

Aumentar a riqueza do glossário do sistema;
Facilitar cruzamento de referências na pesquisa de documentos e segmentos de respostas para responder a uma pergunta "não-prevista";
Resolver conflitos de multi-interpretação (por exemplo, interpretação dependente de contexto).

Uma vez completa a classificação de vocábulos, passa-se a dispôr de uma estrutura que pode servir para classificar ficheiros multimedia (metadata associada a ficheiros). Para o efeito o protótipo inclui um módulo dedicado a esta classificação:

IMAGE imgs/sistema27.jpg

Módulo de Gestão da Metadata na Base de Conhecimentos

Na secção seguinte apresentam-se as principais taxonomias (assuntos e dominios) construidas para o protótipo IMS.

Motores de inferência

O motor de inferência privelegiado é uma implementação de encadeamentoem sentido directo ("forward chaining"), a sequênciação por "hyperlinks" de perguntas e elementos multimedia acoplados. Existe contudo outro motor de inferência implementado ("forward chaining"), associado á activação de condições (tuplos variavel-operador-valor) presentes em regras (Se -> Então). Como as unidades de conhecimento representadas sob o paradigma representacional de regra incluidas neste protótipo estão apenas relacionadas de forma muito indirecta com o caso da CTRSU de S. João da Talha, este ultimo motor de inferencia não desempenhou um papel de relevo (embora incluido no protótipo, em CD-ROM).

@nivelP:	1

@codigo:	D XIII 2

@pergunta:	Qual o nível de tráfego de camiões de resíduos sólidos induzido pela incineradora?

@autor:	Maria João Leite

@tipo:	resposta com base no EIA, seguido de opinião pessoal

@nivelR:	1

@data:	96/03/27

@sumario:	Esta resposta tem como base os dados constantes do EIA, embora contenha uma avaliação pessoal dos impactes. O EIA apenas refere valores de acréscimo de tráfego para a variante à EN10 (caso venha a ser construída) ou para a via de acesso directo à incineradora (via colectora da CP), sendo expectáveis impactes negativos significativos para o período nocturno (+ 35 veículos/hora em 1998 e +57 veículos/hora em 2010). É plausivel esperar um impacte negativo significativo particularmente nos nós da A1, Portela e Santa Iria da Azoia, dada a confluência de tráfego de veículos de recolha de lixo.

@citacoes:

@resposta:	O EIA apenas refere valores de acréscimo de tráfego para a variante à EN10 (caso venha a ser construída) ou para a via de acesso directo à incineradora (via colectora da CP) (ver Quadro 1-Valores de aumento de tráfego de veículos pesados, expressos em veículos/hora). [@tabela:aumento trafego D XIII] De acordo com o Quadro 1 são expectáveis impactes negativos significativos para o período nocturno 0H00-6H00 (+ 35 veículos/hora em 1998, e +57 veículos/hora em 2010). É plausivel esperar um impacte negativo significativo particularmente nos nós da A1, Portela e Santa Iria da Azoia, dada a confluência de tráfego de veículos de recolha de lixo. Para além do aumento de veículos de transporte de lixo induzido pela CTRSU, há ainda a considerar outras fontes geradoras de tráfego. [@texto: fontes trafego] Se pretender mais informação, pode consultar ainda uma análise comparativa de quilómetros totais gastos por cada uma das duas alternativas à CTRSU (alternativa 1-três aterros controlados de grandes dimensões; alternativa 2-instalação de uma unidade de compostagem complementada por um aterro controlado)

@sequenciais:	1 D XIII 1,1 D XIII 3,1 D XIII 8,1 F 5

@chaves:	transporte de residuos solidos urbanos,estradas

@links:	kilometros D XIII 2+texto,fontes trafego+texto,aumento trafego D XIII+tabela,zona CTRSU+foto

@fim