Zusammenfassung
Die Leistung medizinischer Forschungseinrichtungen lässt sich nicht nur aus dem Blickwinkel des Publikationsoutputs, sondern auch aus dem Blickwinkel der wirtschaftlichen Verwertbarkeit betrachten und bewerten. Um die wirtschaftliche Verwertbarkeit von Forschung zu messen können insbesondere daraus hervorgegangene Patente betrachtet werden.
You have full access to this open access chapter, Download chapter PDF
1 Einleitung und Einordnung
Die Leistung medizinischer Forschungseinrichtungen lässt sich nicht nur aus dem Blickwinkel des Publikationsoutputs, sondern auch aus dem Blickwinkel der wirtschaftlichen Verwertbarkeit betrachten und bewerten. Um die wirtschaftliche Verwertbarkeit von Forschung zu messen können insbesondere daraus hervorgegangene Patente betrachtet werden.
Diese Verknüpfung von wissenschaftlichen Publikationen und Patenten ist eine Möglichkeit die Verwertung des wissenschaftlichen Outputs und damit den Wissenstransfer aus der Forschung in die Wirtschaft sichtbar zu machen. Hierbei gilt jedoch zu beachten, dass eine Patentanmeldung keine Garantie für einen wirtschaftlichen Erfolg ist, noch spiegelt eine Patentanmeldung zwingend die Qualität der wissenschaftlichen Arbeit wider. So sind es vorwiegend technische Neuerungen oder Verfahren, welche patentiert werden können und nicht der wissenschaftliche Erkenntnisgewinn. Auch die Fachrichtung und speziell die Forschungsfrage spielen eine entscheidende Rolle bei der Patentierbarkeit von (Teil-)Ergebnissen. Das Ziel des Verbundprojekts QuaMedFo war die ganzheitliche Betrachtung von Forschungsleistung aus verschiedensten Blickwinkeln. Vor diesem Hintergrund beschäftigt sich der vorliegende Artikel mit der Weiterentwicklung von bestehenden Methoden zur Verknüpfung von Forschung und wirtschaftlicher Verwertung durch Betrachtung von Patentaktivitäten.
Der gängige Weg die beiden Textklassen Publikation und Patent in Beziehung zu bringen sind übereinstimmende Vor- und Nachnamen der Autorinnen und Autoren einerseits und der Erfinderinnen und Erfinder andererseits. Da die Vornamen in beiden Textklassen nicht zwingend ausgeschrieben werden müssen, bleibt als kleinster gemeinsamer Nenner nur das Schema Nachname, Initialen des/der Vornamen. Dadurch wird allerdings die Mehrdeutigkeit der Zuordnungen noch einmal deutlich erhöht. Vor allem bei nur einem oder zwei übereinstimmenden Namen gibt es deutlich mehr falsche als richtige Zuordnungen. Dieses Problem der Mehrdeutigkeit wurde bisher wie folgt angegangen:
-
1.
Händische Verarbeitung und Prüfung: Ausgehend von Beschäftigtenlisten der einzelnen Einrichtungen (z. B. van Dongen et al., 2014) bis hin zur Erstellung von Patentdatenbanken mit Verknüpfung zu wissenschaftlichem Personal (z. B. KEINS Datenbank (Lissoni et al., 2008) werden die Publikations-Patent-Verknüpfungen händisch geprüft, z. B. mit Online-Befragungen oder persönlichem Kontakt (Dahlborg et al., 2013).
-
2.
Maschinelle Verarbeitung: Bei großskaligen Untersuchungen müssen verschiedene weitere Unterscheidungsmerkmale aus den Metadaten der beiden Textklassen hinzugezogen werden. So verwenden Dornbusch und Neuhäusler (2015) z. B. einen bestimmten Zeitraum, in dem eine Publikation einem Patent zugeordnet werden darf und zusätzlich eine maximale geographische Distanz von 30 km zwischen wissenschaftlicher Einrichtung und Wohnort des Erfinders als Bestätigung eines gefundenen Publikations-Patent-Paares.
Im Rahmen des QuaMedFo-Projektes wurden zwei weitere Werkzeuge zur Verifizierung der Publikations-Patent-Paare entwickelt bzw. geprüft: Die Untersuchung der gemeinsamen Referenzen in beiden Textarten ist bereits in einem anderen Kontext erfolgreich angewendet worden (Gurulingappa et al., 2010) und konnte mit Erfolg auf diese Aufgabenstellung übertragen werden. Das zweite entwickelte Werkzeug ist der inhaltliche Vergleich der beiden Textarten. Die Untersuchungen zu den beiden Verifizierungsarten und Details zur Implementierung finden sich bei Lippert und Förstner (in Erarbeitung). Der vorliegende Artikel befasst sich nur mit einer der beiden Verifizierungsarten: dem inhaltlichen Vergleich der Texte und der Anwendung auf die drei Pilotfakultäten aus dem QuaMedFo-Projekt.
Der Artikel beginnt mit der Vorstellung der zugrunde liegenden Daten, gefolgt von der Beschreibung der Vorgehensweise sowie dem Ergebnis für die Pilotfakultäten und schließt mit einem Ausblick ab.
Die im Anschluss beschriebene methodische Vorgehensweise lasst sich zusammenfassen als:
-
1.
verschiedene Entwicklungsstufen eines Patentes zu einer Patentfamilie zusammenfassen
-
2.
Publikationen aus den Pilotfakultäten in der medizinischen Literaturdatenbank PubMed matchen
-
3.
Mögliche Paare (Roh-Paare) von Publikationen und Patenten durch gleiche Autoren- bzw. Erfindernamen ermitteln
-
4.
die in den Roh-Paaren enthaltenen Dokumente mit standardisiertem medizinischen Fachvokabular (genauer: MeSH-Ontologie) verschlagworten und die Inhalte der Dokumente anschließend in einen Vektorraum überführen.
-
5.
Verifizierung und Ranking der gefundenen Roh-Paare mittels sogenannter Kosinus-Ähnlichkeit im Vektorraum
-
6.
Filtern der gefundenen Paare mittels internationaler Patentklassen (IPC). Es werden nur Patente mit einer bestimmten Patentklasse anerkannt. Diese wurden statistisch ermittelt.
2 Datengrundlagen und -beschreibung
Als Datengrundlage dienten Publikationsdaten von drei Pilotfakultäten des Projektes aus den Jahren 2005 bis 2018. Die einzelnen Einrichtungen sind medizinischen Fachgruppen zugeordnet worden. Diese Fachgruppen sind in Abb. 1 jeweils links aufgelistet. Die gelieferten Daten sind durch die Pilotfakultäten zum Teil mehreren Einrichtungen (und somit mehreren Fachgruppen) zugeordnet, weil es sich entweder um Forschungskooperationen verschiedener Einrichtungen handelt oder weil die Zuordnung der Finanzierung der Autoren nicht eindeutig ist. Die dadurch entstehende Mehrdeutigkeit ist nicht auflösbar und muss bei der Interpretation der Ergebnisse berücksichtigt werden.
Mittels des eindeutigen Bezeichners DOI (Digital Object Identifier) wurden die Publikationen mit dem PubMed-Datensatz verknüpft und somit stehen MeSH-Mainheadings für jeden Artikel zur Verfügung. Diese werden in Abschn. 3 erläutert.
Die Datengrundlage der Patente sind die frei verfügbaren Daten des europäischen Patentamts (EPO)Footnote 1 in der xml-RepräsentationFootnote 2 aus den Jahren 2007 bis 2020. Neben den Metadaten sind dort auch vollständige Beschreibungstexte in einer oder mehreren Sprachen (Englisch, Deutsch, Französisch) vorhanden.
Patentdokumente lassen sich grob in A- und B-Patente einteilen. Wobei A-Patente die Patentanträge sind und B-Patente bewilligte Patente. Eine auf diesen Buchstaben folgende Zahl legt den zeitlichen Ablauf der Einreichungen fest. Das erstmalig eingereichte Patent A1 muss zum Einreichungsdatum (engl. filing date) die sogenannte „Neuerungs-Klausel“ erfüllen, d. h. der zu patentierende Inhalt darf vorher nicht veröffentlicht worden sein. Daraus ergibt sich bei der Verknüpfung Publikation-Patent: Das Einreichungsdatum des Patents muss vor dem Veröffentlichungsdatum der Publikation liegen. An dieser Stelle wird der Argumentation von Dornbusch und Neuhäusler (2015) gefolgt und die Publikation darf zusätzlich maximal 1,5 Jahre nach der Patenteinreichung erfolgen. Die verschiedenen A- und B-Patente haben die gleichen Metadaten und können so als eine Patent-Familie zusammengefasst werden. Die enthaltenden Volltexte der Patentbeschreibung werden in diesen Familien zu einem Text zusammengefasst.
Das europäische Patentamt teilt Patente in die internationalen Patentklassen (IPC) ein, welche durch die Straßburg Vereinbarung von 1975 (Wikipedia, 2022) weltweit standardisiert sind. Ein Patent wird normalerweise mehreren (gleichwertigen) Patentklassen zugeordnet. Die dadurch entstehende Mehrdeutigkeit kann nicht aufgelöst werden und muss bei der Interpretation der Ergebnisse ebenfalls berücksichtigt werden.Footnote 3,Footnote 4 Dies geschieht durch die abschließende Filterung nach Patentklassen.
3 Verknüpfung von Patenten und Publikationen
Für die Verknüpfung der Patente und Publikationen wird nach gleichen Namen der Autoren und Erfinder gesucht. Die einzelnen Namen werden dazu, wie in der obigen Einleitung bereits erwähnt, auf die Form Nachname, Initialen des/der Vornamen vereinheitlicht. Untersuchungen von Milojevic (2013) zeigen die Gültigkeit dieser Vereinfachung.
4 Validierung mittels inhaltlichen Vergleichs der beiden Textklassen
Für den inhaltlichen Vergleich von Dokumenten aus den beiden Textklassen Publikation und Patente wird auf die’Medical Subject Headings’ (MeSH) (National Library of Medicine (US) (NLM), 2022) zurückgegriffen, welche einmal jährlich von der ’National Library of Medicine’ (NLM) in englischer Sprache herausgegeben werden. Dieser hierarchisch aufgebaute Thesaurus ermöglicht es medizinische Begriffe und ihre Synonyme auf einen einheitlichen Bezeichner zurückzuführen und somit den Inhalt eines medizinischen Textes zu beschreiben. Neben der englischen Version des MeSH werden in dieser Arbeit auch die offizielle deutsche (Deutsches Institut für Medizinische Dokumentation und Information (DIMDI), 2019) und die französische (Institut national de la santé et de la recherche médicale (INSERM), 2019) Übersetzung verwendet, weil bei den europäischen Patenten der EPO alle drei Sprachen äquivalent benutzt werden.
So werden aus den Volltexten der Patentbeschreibungen die MeSH-Terme mittels einer einfachen Wörterbuchsuche extrahiert und auf die englischen Hauptbegriffe zurückgeführt. Auf der Publikationsseite können die englischen MeSH-Hauptterme direkt den Metadaten des Datensatzes entnommen werden. So entsteht für jedes Dokument eine Liste von MeSH-Termen, welche den Inhalt beschreibt.
Durch die Verwendung des BERT-Base-Modells (Devlin et al., 2018) können diese Text-Kondensate in einem hochdimensionalen (dim = 300) Vektorraum abgebildet werden und die – per Namensvergleich – gefundenen rohen Patent-Publikations-Paare leicht mathematisch verglichen werden. Diese hochdimensionalen Vektoren (sog. „embeddings“) werden mithilfe der Kosinus-Ähnlichkeit verglichen: Der Wert liegt hierbei immer zwischen 0 und 1, wobei 1 übereinstimmende Dokumente sind und ein Wert von 0 keinerlei inhaltliche Übereinstimmung anzeigt. Untersuchungen mit größeren Datensätzen (Lippert und Förstner in Erarbeitung) haben gezeigt, dass Verknüpfungen mit drei oder mehr gleichen Namen eine hohe Kosinus-Ähnlichkeit (> ca. 0,7) aufweisen. Bei drei oder mehr gleichen Autoren- bzw. Erfindernamen wird also von einer Übereinstimmung ausgegangen und das Publikations-Patent-Paar als gültig angesehen. Der gefundene Schwellenwert wird auf die vorliegenden Daten übertragen.
Somit ist durch den beschriebenen inhaltlichen Vergleich mittels MeSH-Termen und ”word embeddings” ein Werkzeug gefunden, um die gefundenen Roh-Paare zu validieren.
5 Weiterer Filter: „medizinische“ Patentklassen
Die internationalen Patenklassen (IPC) umfassen alle Teilbereiche des menschlichen Lebens, welche patentiert werden können. Sehr viele davon sind für Patente, die aus medizinischer Forschung hervorgegangen sind, undenkbar. Das Vorgehen des Filterns mittels Patentklassen ist üblich und erfolgt durch manuelles Festlegen erlaubter Patentklassen (z. B. bei Dornbusch & Neuhäusler, 2015). Im Unterschied dazu konnten Lippert und Förstner (in Erarbeitung) zeigen, dass sich die Teilmenge der gesicherten medizinischen Patente statistisch von der Gesamtmenge der Patente in ihren IPC-Klassen unterscheidet. Gesicherte medizinische Patente ergeben sich, wenn z. B. eine Universität und/oder Universitätsklinik als Patentbesitzer eingetragen ist. Es wurden dadurch spezielle medizinische Patentklassen gefunden, welche als weitere Filteroption für die rohen Publikations-Patent-Paare verwendet werden.
6 Ergebnis und Diskussion
In Abb. 1 sind die Patenteinreichungen der einzelnen Fachgruppen der drei Pilotfakultäten in die TOP 10 der Patentklassen als absolute Zahlen dargestellt. Auf der linken Seite sind jeweils die einzelnen Fachgruppen zu sehen, auf der rechten Seite die Patentklassen, wobei sich hier auf Sektion, Klasse und Unterklasse beschränkt wurde. Eine Definition dieser Klassen findet sich in Tab. 1.
Wegen der oben beschriebenen Mehrdeutigkeiten sind keine quantitative Aussage und auch kein Vergleich der Pilotfakultäten möglich. Die Mehrdeutigkeit auf Publikationsseite durch mehrfache Zuordnung zu einzelnen Einrichtungen wäre durch eine genauere Datengrundlage aufzulösen. Für einen Vergleich der Pilotfakultäten untereinander benötigt es jedoch Daten zu den Größen der einzelnen Einrichtungen, um eine Normierung durchzuführen. Auf der Patentseite liegt die Mehrdeutigkeit in der Natur der Daten und ist somit nicht auflösbar: Ein Patent ist gleichberechtigt in mehreren Patengruppen vertreten.
Dennoch kann ein qualitativer Vergleich der Pilotfakultäten erfolgen, bei dem die unterschiedlichen Forschungsausrichtungen deutlich werden. Im Folgenden einige Beispiele:
Einreichungen in IPC A61P, C07K und G01N: während bei Pilotfakultät 1 die Innere Medizin und die theoretischen Fächer den Hauptanteil liefern, übernehmen bei Pilotfakultät 3 die weiteren klinischen Fächer den Part der theoretischen Fächer. Bei Pilotfakultät 2 sind die Unterschiede der Fachgruppen nicht so prägnant.
Einreichungen aus der Zahnmedizin: Nur in Pilotfakultät 1 und 2 wurden Patente aus dem Bereich der Zahnmedizin eingereicht. In beiden Fällen mit sehr geringer Anzahl.
7 Ausblick
Die im Rahmen dieses Teilprojektes entwickelte Datenverarbeitung (Lippert und Förstner in Erarbeitung) wurde auf die Daten der drei Pilotfakultäten des Projekts QuaMedFo angewandt. Die hierbei eingesetzte automatisierte statistische Einteilung in „erlaubte Patentklassen“ und der inhaltliche Vergleich beider Textklassen stellen sinnvolle Werkzeuge in der Bildung von validen Publikations-Patent-Paaren dar.
Auch wenn ein quantitativer Vergleich der drei Pilotfakultäten des Forschungstransfers in die Wirtschaft aufgrund der Datengrundlage nicht möglich war, stellen die Ergebnisse einen Mehrwert für Recherchen im medizinischen Bereich dar. Die validierten Verknüpfungen von Patenten und Publikationen dieser Piloteinrichtungen und perspektivisch für alle vorhandenen Datensätze sollen in Zukunft bei der Recherche über LIVIVO, das Suchportal für Lebenswissenschaften (Müller et al., 2017), einem breiten Publikum zur Verfügung gestellt werden. Damit wird jeder Nutzende u. a. befähigt Vergleiche auf verschiedenen Aggregationsebenen durchzuführen: angefangen bei Einzelpersonen, über einzelne Projekte und Fachgruppen, bis hin zu Instituten. Mit zusätzlichen Informationen, z. B. Personalschlüsseln, können auch universitätsübergreifend Vergleiche erstellt werden. Neben der Bewertung der allgemeinen wirtschaftlichen Verwertbarkeit auf den beschriebenen Aggregationsebenen, werden die zur Verfügung gestellten Ergebnisse durch die Information der Patentklassen Einblicke in die fachliche Ausrichtung aus Patent-technischer Sicht ermöglichen.
Notes
- 1.
- 2.
- 3.
- 4.
Eine durchsuchbare Beschreibung der einzelnen Klassen und Unterklassen findet sich z.B. bei der World Intellectual Property Organization (WIPO): https://ipcpub.wipo.int.
Literatur
Dahlborg, C., Lewensohn, D., & Sundberg, C. J. (2013). Investigating inventive productivity at sweden’s largest medical university. International Journal of Technology Transfer and Commercialisation, 12(1–3), 102–120. https://doi.org/10.1504/IJTTC.2013.064154
Deutsches Institut für Medizinische Dokumentation und Information (DIMDI). (2019). German mesh, 2019. https://www.dimdi.de/dynamic/de/klassifikationen/weitere-klassifikationen-und-standards/mesh/. Zugegriffen: 1. Sept. 2020.
Devlin, J., Chang, M.-W., Lee, K. & Toutanova, K. (2018). Bert: Pre-training of deep bidirectional transformers for language understanding. https://arxiv.org/abs/1810.04805
Dornbusch, F. & Neuhäusler, P. (2015). Academic patents in germany. Studien zum deutschen Innovationssystem 6–2015, Berlin. http://hdl.handle.net/10419/156616
Gurulingappa, H., Müller, B., Klinger, R., Mevissen, H.-T., Hofmann-Apitius, M., Friedrich, C. M., & Fluck, J. (2010). Prior art search in chemistry patents based on semantic concepts and co-citation analysis. Text REtrieval Conference (TREC) 2010. https://publica.fraunhofer.de/handle/publica/368883
Institut national de la santé et de la recherche médicale (INSERM). (2019). Le mesh bilingue anglais français. http://mesh.inserm.fr/FrenchMesh/. Zugegriffen: 20. Apr. 2022.
Lippert, K. & Förstner, K. U. (in Erarbeitung). Knowledge transfer from science to economy illustrated via patent – publication pairs: Reducing ambiguities with word embeddings and references. Im Einreichungsprozess bei: Scientometrics.
Stasa Lissoni, F., Llerena, P., Mckelvey, M., & Sanditov, B. (2008). Academic patenting in europe: New evidence from the keins database. Research Evaluation, 17(2), 87–102. https://doi.org/10.3152/095820208X287171
Milojević, S. (2013). Accuracy of simple, initials-based methods for author name disambiguation Journal of Informetrics, 7(4), 767–773, 2013. https://doi.org/10.1016/j.joi.2013.06.006
Müller, B., Poley, C., Pössel, J., et al. (2017). LIVIVO – The Vertical Search Engine for Life Sciences. Datenbank Spektrum, 17, 29–34. https://doi.org/10.1007/s13222-016-0245-2
National Library of Medicine (US) (NLM). (2022). Medical Subject Headings MeSH. www.nlm.nih.gov/mesh/meshhome.html. Zugegriffen: 20. Apr. 2022.
van Dongen, P., Winnink, J., & Tijssen, R. (2014). Academic inventions and patents in the netherlands: A case study on business sector exploitation. World Patent Information, 38, 27–32. https://doi.org/10.1016/j.wpi.2014.03.002
Wikipedia. Strasbourg agreement — Wikipedia, the free encyclopedia. (2022). https://en.wikipedia.org/w/index.php?title=Strasbourg_Agreement_Concerning_the_International_Patent_Classification&oldid=1082987276. Zugegriffen: 20. Apr. 2022.
Danksagung
Die Autoren danken V. Aman (DZHW) für die Bereitstellung und Aufarbeitung (u. a. mit Identifiern) dieser Daten. Großer Dank auch an C. Herrmann-Lingen (Universitätsmedizin Göttingen) für die Ausarbeitung der Fachgruppen und die Zuordnung jeder Einrichtung in diese.
Author information
Authors and Affiliations
Corresponding authors
Editor information
Editors and Affiliations
Rights and permissions
Open Access Dieses Kapitel wird unter der Creative Commons Namensnennung 4.0 International Lizenz (http://creativecommons.org/licenses/by/4.0/deed.de) veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Kapitel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Copyright information
© 2024 Der/die Autor(en)
About this chapter
Cite this chapter
Lippert, K., Förstner, K.U. (2024). Nutzung von Patentdaten zur Erfassung der wirtschaftlichen Verwertung von Forschung. In: Biesenbender, S., Hartstein, J. (eds) Qualitätsmessung als Prisma. Higher Education Research and Science Studies. Springer VS, Wiesbaden. https://doi.org/10.1007/978-3-658-43683-4_6
Download citation
DOI: https://doi.org/10.1007/978-3-658-43683-4_6
Published:
Publisher Name: Springer VS, Wiesbaden
Print ISBN: 978-3-658-43682-7
Online ISBN: 978-3-658-43683-4
eBook Packages: Social Science and Law (German Language)