public marks

PUBLIC MARKS from parmentierf with tag corpus

2009

2008

INIST au 19ème Festival International de Géographie - Institut de l’Information Scientifique et Technique

Développée par le service Veille de l’INIST/CNRS, l’application NIPPOGEO permet une consultation dynamique de corpus hétérogènes : - 764 notices bibliographiques issues de la Bibliographie Géographique Internationale - BGI, le domaine Géographie de la base FRANCIS de l’INIST / CNRS, - et 185 images (plaques de verres, diapositives et photographies numériques) fournies par les chercheurs de PRODIG. Accessible librement sur Internet, NIPPOGEO offre non seulement un accès à des données bibliographiques et bibliométriques aux spécialistes du domaine, mais participe également à la diffusion de l’information scientifique auprès du grand public.

DLFP: JeuxDeMots : un jeu en ligne pour produire des données lexicales libres

(via)
Outre son aspect ludique, l'intérêt de JeuxDeMots réside dans le fait qu'il produit un réseau lexical en fonction des réponses données par les joueurs

Benoît Sagot - WOLF

Le WOLF (Wordnet Libre du Français) est une ressource lexicale sémantique (wordnet) libre pour le français.

2007

Europeana

by 15 others (via)
Europeana est un prototype de bibliothèque en ligne développé par la Bibliothèque nationale de France, dans le cadre du projet de Bibliothèque numérique européenne. Europeana rassemble environ 12 000 documents libres de droits issus des collections de la BnF, de la Bibliothèque Nationale Széchényi de Hongrie et de la Bibliothèque nationale du Portugal.

dbpedia.org - Using Wikipedia as a Web Database

by 7 others
dbpedia.org is a community effort to extract structured information from Wikipedia and to make this information available on the Web. dbpedia allows you to ask sophisticated queries against Wikipedia and to link other datasets on the Web to Wikipedia data.

2006

Official Google Research Blog: All Our N-gram are Belong to You

by 1 other (via)
Here at Google Research we have been using word n-gram models for a variety of R&D projects, such as statistical machine translation, speech recognition, spelling correction, entity detection, information extraction, and others. While such models have usually been estimated from training corpora containing at most a few billion words, we have been harnessing the vast power of Google's datacenters and distributed processing infrastructure to process larger and larger training corpora. We found that there's no data like more data, and scaled up the size of our data by one order of magnitude, and then another, and then one more - resulting in a training corpus of one trillion words from public Web pages.

2005

Textes en accès libre

by 4 others (via)
Liens vers des sites qui offrent des textes gratuits!

start [WaCky]

(via)
The WaCky Project is a nascent effort (I always liked the expression nascent effort) by a group of linguists to build or gather tools to use the web as a linguistic corpus.

2004

Natural Language Toolkit

(via)
The Natural Language Toolkit is a suite of Python packages and data for natural language processing; it comes with extensive API documentation and tutorials. NLTK-Lite is the version under active development.

La Bibliothèque électronique du Québec

by 1 other
La Bibliothèque met en ligne des textes d'auteurs du monde entier, appartenant au domaine public.

parmentierf's TAGS related to tag corpus

accès libre +   bibliographie +   chat +   cnrs +   culture +   dictionnaire +   documents +   francophone +   français +   gnu/fdl +   gnu/gpl +   google +   gratuit +   ia +   image +   inist +   jeu +   langue +   libre +   ontologie +   open source +   org +   python +   science +   search +   SERV'IST +   sémantique +   statistiques +   taln +   text/processing +   texte +   veille +   web +   wikipedia +