Unter dem Begriff Text- und Datamining (TDM) werden Verfahren zusammengefasst, die zur automatisierten Extraktion von Informationen aus großen Mengen von Texten oder Daten (Korpora) angewendet werden. Die Extraktion kann aus unstrukturierten oder schwach strukturierten Textdaten (Text Mining) oder aus strukturierten Daten (Data Mining) erfolgen.
Rechtliche Informationen
Die Ressourcen und ihre Zugänge unterliegen verschiedenen rechtlichen und technischen Nutzungsbedingungen. Wenn Sie für Ihre Forschung Inhalte aus von der Bibliothek lizenzierte Ressourcen analysieren möchten, beachten Sie, dass das automatisierte, massenhafte Herunterladen von Volltexten oder Informationen per Crawler, Script, Bot etc. nicht gestattet ist und zur Sperre des Zugangs führen kann.
Datenquellen
Viele Anbieter ermöglichen den Zugang über spezielle Schnittstellen (APIs). Die lizenzierten Inhalte können zur wissenschaftlichen (nicht kommerziellen) Nutzung für TDM-Projekte verwendet werden. Allerdings muss im Vorfeld die Zustimmung der Anbieter für das konkrete TDM-Projekt eingeholt werden. Die Kontaktinformation finden Sie auf den verlinkten Websites.
Auf dieser Seite finden Sie eine Übersicht über Ressourcen, bei denen das Text- und Datamining möglich ist. Benötigen sie organisatorische Unterstützung für den Datenzugang, kontaktieren Sie uns gerne per E-Mail.
Kommerzielle Anbieter
Lizenzierte Inhalte können für TDM zu wissenschaftlichen Zwecken genutzt werden.
Anbieter | Inhalt | Informationen zur Nutzung |
AAAS - American Association for the Advancement of Science | Die AAAS veröffentlicht sechs Fachzeitschriften. Die TU Wien hat Science und Science Robotics lizenziert. | keine API verfügbar |
American Chemical Society (ACS) | ACS Publications veröffentlicht mehr als 75 Zeitschriften im Bereich der Chemie und verwandter Gebiete. | Keine API. Lokales TDM-Agreement erforderlich |
Cambridge University Press | Cambridge University Press veröffentlicht mehr als 420 Zeitschriften in den Geistes- und Sozialwissenschaften sowie Wissenschaft, Technik und Medizin. | Keine API verfügbar |
Elsevier | Elsevier veröffentlicht über 2.300 Zeitschriften in den Natur- und Ingenieurwissenschaften, Lebenswissenschaften, Sozial- und Geisteswissenschaften und Gesundheit. | Zugriff über Elsevier-API oder auch CrossRef-TDM-API möglich |
Emerald | Emerald veröffentlicht Zeitschriften in den Bereichen Technik, angewandte Wissenschaft und Technologie sowie Management, Bibliotheks- und Informationsdienste. | Keine API verfügbar |
JSTOR Labs | JSTOR hostet mehr als 2.800 wissenschaftliche Zeitschriften aus den Bereichen Geistes-, Sozial- und Naturwissenschaften. JSTOR arbeitet mit fast 1.200 Verlagen aus mehr als 57 Ländern zusammen, um deren Inhalte zu bewahren und digital verfügbar zu machen. | Diverse APIs und Open-Source-Projekte stehen zur Verfügung |
Oxford University Press | Oxford University Press veröffentlicht über 500 von Experten begutachtete Zeitschriften mit Fachgesellschaften aus allen Disziplinen, hervorzuheben sind Naturwissenschaften und Mathematik, Sozialwissenschaften, Kunst und Geisteswissenschaften, Medizin und Gesundheit. | Keine API verfügbar |
Royal Society of Chemistry | Die Royal Society of Chemistry veröffentlicht 52 Zeitschriften aus der Chemie und verwandten Bereichen. | Keine API. Lokales TDM-Agreement erforderlich |
SAGE | Die TU Wien Bibliothek hat rund 25 Zeitschriften von SAGE aus den Bereichen Raumplanung, Maschinenbau und Informatik lizenziert. | Zugriff über CrossRef-TDM-API |
Springer Nature | Springer veröffentlicht über 2.900 Zeitschriften aus den Bereichen Wissenschaft, Technik, Medizin (STM) und Geisteswissenschaften. | Zugriff über Springer-API. Lokales TDM-Agreement für lizenzierte Zeitschriften und Lecture notes abgeschlossen. |
Taylor & Francis | Über 2.700 begutachtete Zeitschriften aus verschiedensten Fachbereichen | Keine API verfügbar |
Wiley | Wiley bietet über 1.600 Zeitschriften aus den Lebens-, Gesundheits- und Naturwissenschaften sowie der Sozial- und Geisteswissenschaften an. Die Hälfte davon wird in Zusammenarbeit mit angesehenen internationalen Wissenschafts- und Berufsverbänden veröffentlicht. | Lokales TDM-Agreement für lizenzierte Zeitschriften abgeschlossen. Für den Zugang ist eine ORCID iD erforderlich. Zugriff erfolgt über CrossRef-API |
Freie TDM-Ressourcen
Anbieter | Inhalt |
Preprint-Sammlung aus den Bereichen Physik, Mathematik, Informatik, Elektrotechnik, Statistik, Finanzmathematik und Biologie | |
Rund 300 Open-Access-Zeitschriften von BioMed Central aus den Bereichen Biologie und Medizin | |
CORE ist der weltweit größte Aggregator von Open-Access-Forschungsarbeiten aus Repositorien und Zeitschriften. | |
Volltextdokumente von teilnehmenden Verlagen unabhängig von deren Geschäftsmodell (sowohl Open Access als auch lizenzierte Inhalte) | |
Digitale Bibliothek mit Digitalisaten von Büchern, Filmen, Museums- und Archivobjekten aus über 2000 europäischen Institutionen | |
Digitalisate von Internet Archive und Google Books und lokal digitalisierte Werke von über 120 akademischen Institutionen weltweit | |
Zugriff auf über 2 Millionen von frei zugänglichen Büchern und Texten | |
Zugriff auf die Zeitschriften der Public Library of Science, einem wissenschaftlichen Nonprofit-Open-Access-Verlag | |
Diverse frei zugängliche Mining-Tools, mit denen PubMed Central, ein Archiv mit frei zugänglichen Inhalten aus den Fachbereichen Biologie und Biomedizin, durchsucht werden kann | |
Strukturierte Daten aus Wikipedia und anderen offenen Wissensdatenbanken |
Umfangreiche Auflistungen weiterer freier Quellen:
- Content Mining: Free Corpora for mining (University of Southern California Libraries)
- Text mining & text analysis > Open sources (The University of Queensland Library)
Kontakt:
Ingrid Haas, Fachgruppe Zeitschriften und Datenbanken
E-Mail: e-medien@tuwien.ac.at