Екстракција информација из текста (ИСПР4)

Универзитет у Београду

ЕСПБ: 11.0

Садржај теоријске наставе

Екстракција информација и проналажење информација. Екстракција информација у оквиру обраде природног језика. Прецизност и одзив. Препознавање именованих ентитета. Приступ заснован на правилима. Приступ заснован на машинском учењу. Метода скривених Марковљевих модела. Метода максималне ентропије. Нормализација именованих ентитета. Вишејезична евалуација - НЕРозета. Препознавање релација међу именованим ентитетима. Екстракција информација без надзирања. Конференције о разумевању порука (MUC). Каскадни коначни аутомати: систем FASTUS и Cassys (Unitex). Коначни трансдуктори и њихове примене у препознавању именованих ентитета и релација међу њима. Улога речника у дефинисању правила. Систем GATE (GATE toolkit) и његове JAPE-граматике.

Садржај практичне наставе

Предуслов

Процесирање природних језика

Циљ

Упознавање са методама и техникама екстракције информација и могућностима за њихову примену

Литература

#Poibeau, T.; Saggion, H.; Piskorski, J.; Yangarber, R. (Eds.): Multi-source, Multilingual Information Extraction and Summarization. Springer, 2013. #Cunningham, et al. Text Processing with GATE (Version 6). University of Sheffield Department of Computer Science. 15 April 2011 #Sébastien Paumier. Unitex 3.0 User Manual. October 2011 #S. Sekine and E. Ranchold (Eds.): Named Entities - Recognition, classification and use, Benjamins Current Topics 19, John Benjamins Publishing Company, 2009. #Eugene Agichtein and Luis Gravano. Snowball: Extracting relations from large plain-text collections. In Proceedings of the 5th ACM Conference on Digital Libraries, pp. 85–94, 2000. #Oliver Bender, Franz Josef Och, and Hermann Ney. Maximum entropy models for named entity recognition. In Proceedings of the 7th Conference on Natural Language Learning, 2003.

Тип испитивања

Методе извођења наставе

групни, индивидуални и практични

Наставници