WordNet es una base de datos de palabras súper genial. Lo he estado investigando yo mismo. Enumeraré mis hallazgos a continuación, y espero que te ayude a comprender mejor las tablas.
La mesa Synset La tabla synsets es una de las tablas más importantes de la base de datos. Es responsable de albergar todas las definiciones dentro de WordNet. Cada fila en la tabla synset tiene un synsetid, una definición, un pos (campo de partes del discurso) y un lexdomainid (que enlaza con la tabla lexdomain). Hay 117373 synsets en la base de datos de WordNet.
La tabla de palabras WordNet también tiene una tabla de "palabras", que solo tiene dos campos:un ID de palabra y un "lema". La tabla de palabras es responsable de albergar todos los lemas (palabras base) dentro de la base de datos de Wordnet. Hay 146625 entradas en esta tabla
Entonces... ¿cómo se vinculan estas dos tablas? ¿La respuesta? ¡La mesa de los sentidos!
La mesa de los sentidos La tabla de sentidos es responsable de vincular palabras (en la tabla de palabras), con definiciones (en la tabla de conjuntos sintéticos). es un significado completo de una palabra - un "sentido de la palabra".
Hay un total de 206,354 sentidos de palabras en la base de datos de WordNet.
La tabla Lexdomains La tabla Lexdomains está referenciada por la tabla de sentidos y se utiliza para definir a qué dominio léxico pertenece un par palabra-sentido. Hay 45 dominios léxicos en la tabla lexdomains. Por lo tanto, la tabla lexdomain es la forma en que WordNet "etiqueta" un par de sentido de palabra. Sin embargo, es bastante limitado, porque un par palabra-sentido solo puede pertenecer a UN dominio léxico.
Los 45 dominios léxicos incluyen:
Adjetivos: todo, pert
Adverbios todos
Sustantivos tapas, acto, animal, artefacto, atributo, cuerpo, cognición, comunicación, evento, sentimiento, comida, grupo, ubicación, motivo, objeto, persona, fenómeno, planta, posesión, proceso, cantidad, linkdef, forma, estado, sustancia, tiempo,
Verbos cuerpo, cambio, cognición, comunicación, competencia, consumo, contacto, creación, emoción, movimiento, percepción, posesión, social, estativo, clima, ppl
La tabla de palabras con mayúsculas y minúsculas Algunas palabras dentro de la tabla de palabras tienen naturalmente la primera letra en mayúscula, es decir:"Equipo A". Dado que la tabla de palabras almacena todas las palabras en minúsculas, WordNet usa esta tabla para especificar la versión en mayúsculas de la palabra. Hay 40313 entradas en esta tabla.
Hay muchas otras tablas en WordNet DB, una vez que las haya investigado, las publicaré nuevamente.
Encontrar tus sinónimos Para responder a su pregunta sobre sinónimos, debe hacer lo siguiente.
Supongamos que desea encontrar los sinónimos de la palabra "Carry". Para hacerlo, primero buscaría en la tabla de palabras un lema que coincida con la palabra "llevar". Esto produciría el ID de palabra 21253. Luego buscaría en la tabla de sentidos para encontrar todos los pares de sentido de palabra para la palabra llevar. Esto produce 41 resultados:cada resultado enumera el ID de palabra 21253 y un ID de sentido (que es el índice del par de sentido de palabra) y un ID de sinset.
Ahora, deberá consultar la tabla synset para cada uno de los synsetid devueltos para poder acceder al campo de definición asociado en la tabla synset.
Por último, para encontrar los sinónimos de cada uno de los synsets enumerados, simplemente necesita buscar en la tabla de sentidos otros pares de palabras y sentidos que compartan el mismo synset.
Ejemplo:uno de los 41 pares de palabras y sentidos para la palabra "llevar" se enumera a continuación:Si buscamos la definición de este synsetid 202083512, encontrará "transmitir o servir como medio de transmisión"
Para encontrar todos los sinónimos de esta definición, busque en la tabla de sentido el mismo synsetid 202083512. Esto produce sinónimos:canal, conducta, transmisión, impartición y transmisión (nota:deberá unir a la izquierda la tabla de palabras para obtener los lemas reales)
Espero que esto ayude a desmitificar WordNet para ti... Me parece bastante genial...