GWTF-Jahrestagung
Berlin, 1. und 2. Dezember 2006

Merton heute: Wissenschaftsinterne Leistungskriterien, Evaluation und wissenschaftliche Praxis

GWTF e.V.

Call for papers | Abstracts der Beiträge | Tagungsbericht (pdf)

Qualitätsurteile sind ein essenzieller Bestandteil der Produktion wissenschaftlichen Wissens. Forschung verarbeitet das bislang produzierte Wissen und muss sich also auf dieses verlassen können. Die Einhaltung von Qualitätsstandards wird erwartet, u.a. im Peer-Review geprüft, und beständig kommuniziert. Herausragende Qualität verschafft Reputation und Einfluss, Beiträge minderer Qualität werden ignoriert oder – seltener – öffentlich kritisiert. Die universalistische, uninteressierte und skeptische, also den Merton’schen Normen folgende Zuschreibung von Qualität ist zudem eine wesentliche Legitimitätsgrundlage für die Sonderstellung von Wissenschaft in modernen Gesellschaften.

In jüngster Zeit wird der Wissenschaft die Kontrolle über die Legitimation durch Qualität immer mehr entzogen, und die in die Wissensproduktion eingewobene Qualitätskontrolle um eine externe Bewertung der Qualität wissenschaftlicher Arbeit ergänzt. Forschungspolitik und -management sind bestrebt, die Qualität der Forschung zu steigern, was deren Messung voraussetzt. Die Wissenschaft muss nachweisen, dass sie Qualität liefert. Sie muss diesen Nachweis gegenüber Außenstehenden in einer verständlichen Form führen. Evaluationen werden damit zu einem neuen Kommunikationsmedium zwischen Wissenschaft und Gesellschaft. Das wirft drei wissenschaftlich und politisch gleichermaßen interessante Fragen auf.

Die erste Frage bezieht sich auf den technischen Aspekt von Evaluationen: Messen Evaluationen, was sie messen sollen? Inwieweit ist es überhaupt möglich, mit expliziten, teilweise formalisierten und an wissenschaftsexterne Akteure adressierten Evaluationen valide und verlässliche Qualitätsurteile zu fällen? Diese Frage zu beantworten fällt vor allem deshalb schwer, weil es keine objektive Qualitätsbewertung von wissenschaftlichen Ergebnissen gibt, an der Evaluationsinstrumente kalibriert werden könnten. Was eine herausragende und was eine durchschnittliche wissenschaftliche Leistung ist, das wird in jedem Fachgebiet anders gesehen, und selbst innerhalb eines Fachgebietes werden die Ansichten kaum übereinstimmen. Wie können der Peer-Review oder quantitative Messverfahren diesen Besonderheiten gerecht werden?

Die Frage nach der Passung zwischen fachlichen Bewertungskulturen und den neuen Leistungskriterien und Messinstrumenten stellt sich auch, aber anders für den immer wichtigeren Bereich der problemorientierten bzw. anwendungsorientierten Forschung. Für diese Forschungen scheint eine partielle Ausrichtung an wissenschaftsexternen Zielvorgaben (etwa zur Lösung gesellschaftlicher Problem beizutragen) zunächst durchaus chancenreich zu sein. Doch besteht hier nicht die Gefahr, dass flächendeckende Evaluation ein breites Einfallstor für eine ‚feindliche Übernahme‘ sein könnte, vor allem von Seiten einer einseitig ökonomischen Rationalität sowie von (wissenschafts-)politischen Moden? Und wie kann die prinzipielle Frage beantwortet werden, wie die so neuartigen wie umfangreichen Evaluationsmaßnahmen und Bewertungsverfahren auf interdisziplinäre und problemorientierte Forschungen anzuwenden sind, ohne den notwendigen Rückbezug auf die disziplinär verfasste moderne Wissenschaft zu gefährden?

Eine zweite Frage bezieht sich auf die Nutzung des Instruments ‚Evaluation’: Welche politischen und Managemententscheidungen werden auf der Grundlage von Evaluationsergebnissen getroffen und welche intendierten und nichtintendierten Folgen haben diese Entscheidungen für das Wissenschaftssystem? Evaluationen informieren politische und administrative Entscheidungen, die durch die Finanzierung der Forschung mit dem größten Leistungsversprechen die Effektivität und Effizienz des Wissenschaftssystems erhöhen wollen. Diese Entscheidungen und die sie antizipierenden Anpassungen der Wissenschaftler an Evaluationen haben vermutlich weitreichende Folgen für das Wissenschaftssystem, über die aber bislang kaum gesichertes Wissen vorliegt.

Die dritte Frage wird durch die politischen und administrativen Zwecke der Evaluationen motiviert. Diese sollen Wissenschaft ‚handhabbar’ machen, d.h. sie in eine normale öffentliche Aufgabe verwandeln. Inwieweit verändert diese neue Einordnung die soziale Rolle der Wissenschaft in der Gesellschaft? Merton hat einst die Sonderstellung der Wissenschaft in der Gesellschaft damit begründet, dass Wissenschaft durch ein besonderes Normensystem charakterisiert ist, das die schnellstmögliche Ausweitung gesicherten Wissens garantiert. Erleben wir gegenwärtig den Verlust dieser Sonderstellung? Welche Konsequenzen wären damit verbunden?

Damit sind die Wissenslücken umrissen, die unsere Tagung motivieren und zu denen wir Beiträge einladen. Abstracts von ca. 500 Wörtern sind bitte bis zum 01. August einzureichen an:

Jochen Gläser, eMail: Jochen.Glaser@anu.edu.au, Research Evaluation and Policy Project, Research School of Social Sciences, The Australian National University, Canberra ACT 0200
Stefan Böschen, email: stefan.boeschen@phil.uni-augsburg.de, Universität Augsburg, Lehrstuhl für Soziologie, Universitätsstr. 6, D-86159 Augsburg
Martin Meister, eMail: meister@ztg.tu-berlin.de, Zentrum Technik und Gesellschaft, Technische Universität Berlin, Franklinstr. 28/29, FR 2-5, D-10587 Berlin

Abstracts der Beiträge (in alphabetischer Reihenfolge)

Di Giulio | Grözinger| Guggenheim | Lange | Laudel/Gläser | Manzei | Passoth | Pohl | Schützenmeister | Walter et al.

Dr. Antonietta Di Giulio, Universität Bern

Inter- und transdisziplinäre Forschung evaluieren – Balance zwischen Leistungsmessung und Qualitätsmanagement

Bei der Evaluation inter- und transdisziplinärer Forschung stellt sich das Evaluationsproblem in mehrfacher Hinsicht:

Zum einen sind inter- und transdisziplinäre Forschung denselben Gütemerkmalen verpflichtet wie die disziplinäre Forschung. Nur: welchen? Eine der Schwierigkeiten entsteht also daraus, dass unklar ist, nach welchen disziplinären Gütekriterien interdisziplinäre Forschung zu beurteilen ist – im Fall transdisziplinärer Forschung verstärkt sich dies insofern, als zusätzlich wissenschaftsexterne Kriterien ins Spiel kommen. Im günstigsten Fall entsteht daraus 'nur' die Unsicherheit, woran sich die Evaluation zu orientieren hat, oft entzünden sich daran Konflikte um die Frage, welche Evaluationskriterien die 'besseren' sind und im schlimmsten Fall führt es zur systematischen Diskriminierung von Disziplinen, was immer diejenigen trifft, die sich im entsprechenden Kontext in der Minderheit befinden. Im Beitrag soll aufgezeigt werden, welche spezifischen Schwierigkeiten für die Evaluation sich ergeben, wenn in der inter- und transdisziplinären Forschung verschiedene disziplinäre (oder berufsfeldspezifische) Kriteriensysteme aufeinandertreffen.

Zum zweiten ist die Frage, was denn nun die spezifische Qualität inter- oder transdisziplinärer Forschung ausmacht, nach wie vor weitgehend unbeantwortet. Es liegen inzwischen zwar ein paar Vorschläge dazu auf dem Tisch, aber ein Konsens über die anzuwendenden Kriterien besteht (noch?) nicht. Hierzu gehört auch die Frage nach dem sogenannten 'Mehrwert' inter- und transdisziplinärer Forschung. Nach dem 'Mehrwert' solcher Forschung zu fragen, scheint angesichts des mit dieser Art Forschung verbundenen Aufwands legitim. Die Forderung, inter- und transdisziplinäre Forschung durch Nachweis eines 'Mehrwerts' zu legitimieren, kommt aber, angesichts der Unmöglichkeit, diesen Nachweis seriös zu erbringen, einem 'Killerargument' gegen diese Art der Forschung nahe. Nicht zu vergessen ist hier auch die Frage, wie Organisationen der Forschungsförderung mit der Beurteilung inter- oder transdisziplinärer Anträge umgehen bzw. umzugehen gedenken. Im Beitrag soll die Frage aufgeworfen werden, wie weit sich überhaupt generelle Kriterien für die Qualität inter- oder transdisziplinärer Forschung festmachen lassen, die unabhängig sind von einem konkreten Forschungsvorhaben und dessen spezifischem 'Mix' an Disziplinen und Berufsfelder.

Zum dritten – das eine dem Beitrag insgesamt zugrunde liegende Annahme – lässt sich die Qualität inter- und transdisziplinärer Forschung nicht auf die Produkte dieser Forschung beschränken. Vielmehr muss zu einem grossen Teil auch der Prozess von Forschung und Zusammenarbeit selber in den Blick genommen werden, um die Qualität inter- oder transdisziplinärer Forschung zu beurteilen. Im Beitrag soll skizziert werden, welche Kriterien zur Evaluation des Prozesses inter- und transdisziplinärer Forschung herangezogen werden könnten. Die an den Prozess anzulegenden Kriterien lassen sich kaum quantifizieren und von aussen lässt sich nur sehr beschränkt ohne grossen Aufwand beurteilen, ob diese Kriterien erfüllt sind oder nicht. Im Beitrag soll deshalb auch diskutiert werden, ob es im Fall inter- und transdisziplinärer Forschung nicht angemessener wäre, wenn ein kriteriengestütztes Qualitätsmanagement zumindest an die Seite einer Leistungsmessung treten würde.

Prof. Dr. Gerd Grözinger, Universität Flensburg

Email: groezing@uni-flensburg.de

Zweitrufe als Attraktionsmaß

Zur Ermittlung der relativen Stellung von Hochschulen im Wettbewerb kann auch eine Klasse von Indikatoren dienen, die als ‚Attraktionsmaße’ bezeichnet wurden. Damit ist das Ansehen bei Forschenden, Lehrenden oder auch Studierenden gemeint. In der Regel wird dabei ermittelt, ob die Einrichtungen in der Anwerbung von in- und ausländischem Spitzenpersonal bzw. von als besonders begabt anzusehenden Studierenden erfolgreich sind. In dieser Form, z. B. als Anteil ausländischer Studierender oder von AvH-Stipendiaten, werden solche Ergebnisse bereits in einigen Bundesländern in Indikatorenmodellen integriert und damit steuerungswirksam. Man kann aber auch die Reputation einer Einrichtung zusätzlich danach bewerten, wie viel von ihren Professoren einen neuen Ruf an eine andere Hochschule erhalten. In zwei Umfragen – für 2004 und 2005 – habe ich sämtlichen Hochschulen in Deutschland einen solchen Fragebogen zukommen lassen.

Die Rücklaufquote (< 50%) war ausreichend, um zu repräsentativen Ergebnissen zu kommen. Es ergaben sich stärkere Unterschiede nicht nur zwischen den Institutionen - Universitäten, Kunst-/Musikhochschulen, Fachhochschulen -, sondern auch in den Fächern. Diese wurden nach den Kriterien der amtlichen Statistiken in einer 10er-Untergliederung vorgenommen.

Der Vortrag soll diese Ergebnisse präsentieren und auch eine selbstkritische Einschätzung bezüglich der Zuverlässigkeit der ersten Ergebnisse beinhalten. In einem letzten Punkt schließlich soll auch noch die praktische Dimension für Hochschulverwaltungen angesprochen werden, die nach dem Übergang zur W-Besoldung zunehmend mit Entlohnungsverhandlungen konfrontiert sind.

Michael Guggenheim

Auf den Schultern von Experten: die normative Struktur ausseruniversitärer Forschung und das Problem ihrer Bewertung

Mein Beitrag wird das Problem der Bewertung von Expertenwissen anhand von Umweltexperten, die in privatwirtschaftlichen Firmen arbeiten, analysieren. Das Datenmaterial dazu beruht auf qualitativen Interviews mit 20 Firmengründern und ethnographischen Forschungen in vier verschiedenen Firmen. Das Bewertungsproblem der Arbeit von Umweltdienstleistungsfirmen ist für die im Call for Papers angesprochenen ausseruniversitären Forschungsprojekte genannten Gründe paradigmatisch.
Die Umweltdienstleistungsfirmen schließen nicht direkt an die disziplinäre Struktur der Universität an. Sie sind auch keine Profession, die auf eine Disziplin ausgerichtet ist. Sie betreiben jedoch selbst Forschung, die teilweise von staatlichen Förderorganisationen finanziert wird. Zudem publizieren sie nur selten in peer-reviewten Zeitschriften. Das Wissen der Forschungsprojekte verbleibt üblicherweise in lokalen „Produkten“ wie Forschungsberichten, Aktionsplänen, neuen Verordnungen und Gesetzen etc. Die Beurteilung von Forschungsresultaten ist damit den üblichen wissenschaftlichen Bewertungsmechanismen entzogen. Wenn disziplinäre Peers die Arbeit von Umweltdienstleistungsfirmen nicht bewerten können (im doppelten Sinn des Wortes), wie lässt sich dann die Arbeit von Umweltexperten evaluieren?

Die These, die in dem Vortrag vertreten werden soll, lautet, dass an die Stelle der disziplinbezogenen, globalen und inhaltlichen Kriterien prozedurale und organisationsbezogene Kriterien und entsprechende Bewertungsmechanismen treten. Prozedurale und organisationsbezogene Kriterien haben den Vorteil, dass sie auch von inhaltlich nicht kompetenten Personen überprüft und zudem projektübergreifend angewandt werden können.
Die zentralen Mechanismen, die bei Umweltdienstleistungsfirmen zur Anwendung kommen, sind Qualitätsmanagementsysteme, Stundenkalkulationssoftware sowie Begleitgruppen.

Qualitätsmanagementsysteme (QMS) sind organisationsbezogene Vorschriften, die Organisationsabläufe projektunabhängig regeln. QMS beziehen sich direkt auf Forschungshandeln und könnten als eine Explizierung normativer Standards, wie sie von Merton formuliert wurden, auf Organisationsebene verstanden werden. Dabei stellt sich die Frage, inwiefern QMS sich zwischen den Firmen unterscheiden und welche Relevanz dies für ihre jeweilige Forschung hat. QMS sind zudem nicht öffentlich zugänglich und führen zu einem neuen Problem: sie stellen Qualitätsregeln auf, die jedoch nur organisationsintern überprüft werden können.
Obwohl Stundenkalkulationssoftware auf den ersten Blick nicht wie eine Evaluationsmethode erscheint, führt sie für Auftraggeber und Auftragnehmer detaillierte Techniken zur Evaluation der Effektivität der geleisteten Arbeit in einem Projekt ein. Stundenkalkulationssysteme erheben Kosten und Arbeitsaufwand pro Person oder Projekt. Da für die Firmen und Auftraggeber eine termingerechte Projektabwicklung jedoch sehr wichtig ist (und häufig ebenso wichtig wie wissenschaftliche Qualität), sind Stundenkalkulationssysteme Techniken zur Justierung einzelner Projekte und zur Regelung unterschiedlicher Projektteile und –Mitarbeiter.

Drittens evaluieren häufig Begleitgruppen die Projekte, die aus universitären Wissenschaftern und Auftraggebern zusammengesetzt sind. Begleitgruppen funktionieren nicht organisationsintern, wie QMS und Stundenkalkulationssysteme; sie sind jedoch ebenso prozedural organisiert. Denn Begleitgruppen bewerten ein Projekt während seiner Entstehung und nicht die Resultate; sie können demnach als ein Eingriff in die Autonomie der Forschung verstanden werden. Die Auftragnehmer verstehen die Begleitgruppen jedoch ebenso als Absicherung dafür, dass ein Projekt korrekt durchgeführt wird. Dennoch sind Begleitgruppen eine Quelle von Spannungen und die Firmen verwenden unterschiedliche Taktiken zur Beruhigung der Begleitgruppen. Die breite Zusammenstellung der Begleitgruppen (Wissenschaftler verschiedener Disziplinen, Auftraggeber) ist auch Quelle zur Stereotypisierung zwischen Firmen, universitären Forschern und Auftraggebern.

Im Vortrag werde ich die hier eingeführten drei Kriterien anhand von ethnographischen Beispielen ausführen und die Folgen für die Veränderung von Qualitätskriterien im Allgemeinen herausarbeiten. Da es sich bei den hier vorgestellten Kriterien um lokale, nur auf die jeweilige Organisation bezogene Kriterien handelt, verändert sich auch die normative Struktur der Wissenschaft. Forschung wird nun nicht mehr in Bezug auf eine, zumindest unterstellte, globale Gemeinschaft von Wissenschaftern und ihrer disziplinspezifischen Kriterien bewertet, sondern vor dem Hintergrund der Kapazitäten einer Organisation und ihrer organisationsspezifischen Mechanismen, bzw. vor dem Hintergrund eines lokalen Problems. Der Universalismus der Forschung verschiebt sich statt dessen auf die inhaltsübergreifende Kriterien: Jedes Projekt einer Organisation, egal welcher disziplinären Ausrichtung kann mit denselben Instrumenten und Kriterien bewertet werden.

Stefan Lange, FernUniversität in Hagen

E-mail: stefan.lange@fernuni-hagen.de

Stunde 0: Forschungsbedingungen und Zukunftserwartungen von Wissenschaftlern an einer deutschen Traditionsuniversität ohne kohärente Forschungsevaluation

Stellt man sich die Frage, wie und ob Evaluationsregime die Produktion wissenschaftlichen Wissens beeinflussen, so ist es hilfreich zu wissen, wie Forschung betrieben wurde bevor Evaluationen eine Rolle gespielt haben. Die Bestandsaufnahme zur „Stunde 0“ ermöglicht dann eine kontinuierliche Begleitforschung nach der Einführung von Evaluationsinstrumenten, deren Vergleichsmaßstab mit der evaluationslosen Zeit nicht bloß auf Erinnerungen und damit Verklärungen der „guten alten Zeit“, sondern auf reliablen empirischen Daten fußen kann. Eine solche 0-Messung wurde im Rahmen des BMBF-geförderten Forschungsprojekts „Auswirkungen der evaluationsbasierten Forschungsfinanzierung an Universitäten auf die Inhalte der Forschung“ in Deutschland vorgenommen. In sechs Fächern – Biologie, Physik, Mathematik, Geologie, Politikwissenschaft und Geschichte – wurden an einer großen Traditionsuniversität die aktuellen Forschungsbedingungen und Erwartungshaltungen bezüglich künftiger Rahmenbedingungen von Professoren und Postdocs erhoben. An der Universität gibt es bislang keine systematische Forschungsevaluation. Erste Ansätze zu einzelnen Evaluationsinstrumenten (von einem Regime kann man hier noch nicht sprechen), bestehen in der gesetzlich vorgegebenen Befristung von Grundausstattungszusagen auf 5 Jahre für neueingestellte Professoren und der indikatorengestützten Verteilung eines Teils der Sachmittel für Forschung und Lehre. An der untersuchten Universität werden diese Instrumente kaum kohärent gehandhabt. Vielmehr steht es bislang den Fakultäten frei über ihren Einsatz zu entscheiden und letztere verhalten sich dabei unterschiedlich: Die Wirtschafts- und Sozialwissenschaftliche Fakultät versucht sich als Vorreiter bei der Einführung von Anreizsystemen zu profilieren, die auch Forschungsleistungen einbeziehen, die Naturwissenschaftliche Fakultät versucht gegen Widerstände einzelner Fächer diesem Beispiel zu folgen während die anderen Fakultäten „business as usual“ betreiben.

Kurzgefasst: in allen untersuchten Fächern waren die Forschungsbedingungen zum Zeitpunkt der Interviews nicht oder im Falle der Politikwissenschaft (WISO-Fakultät) nur marginal vom Einsatz von Evaluationsinstrumenten beeinflusst. Der Vortrag soll aufzeigen, wie sich unter diesen Rahmenbedingungen die Forschungsmöglichkeiten, Motive und Zukunftserwartungen in den einzelnen Fächern unterscheiden. Dabei zeigt sich vor allem folgendes:

• Kaum jemand in den untersuchten Fächern kann ohne Drittmittel forschen.
• Fächer bzw. Spezialitäten, die sich bereits seit längerem einem hochkompetitiven internationalen Umfeld ausgesetzt sehen, in dem sie um Drittmittel konkurrieren, haben das Evaluationsspiel längst verinnerlicht und fürchten sich entsprechend nicht vor der Einführung eines Evaluationsregimes an ihrer Fakultät bzw. Universität.
• Ein exzellentes Forschungsinstitut in dem Sample lässt sich aus eigenem Antrieb und auf eigene Kosten von internationalen Peers evaluieren um seine internationale Reputation zu halten.
• Neben der Eingebundenheit in das internationale Umfeld und Erfahrungen in der Drittmittelkonkurrenz spielen die kognitiven Strukturen der Fächer eine entscheidende Rolle bei der Wahrnehmung aktueller und künftiger Forschungsrahmenbedingungen. Wie zu erwarten war, ist die Lage in den Geisteswissenschaften prekärer als bei den Substanzwissenschaften. Dies zeigt sich insbesondere an der Naturwissenschaftlichen Fakultät, wo die theoretische Mathematik und die anwendungsfernen Teile der Geologie bei der strategischen Neuausrichtung der Fakultät, die ein Formelsystem zur Belohnung von Forschungsleistungen beinhaltet, zunehmend isoliert werden.
• Über alle Fächer hinweg hatten die Forscher die Selbstwahrnehmung den selbstdefinierten Forschungszielen folgen zu können. Niemand fühlte sich bei der Wahl seiner Themen und Methoden grundsätzlich von externen Bedingungen beeinflusst oder „gesteuert“. Curiosity-driven-research wurde zwar als zunehmend schwierigeres weil – vor allem mit Blick auf das Stellen von Förderungsanträgen – bürokratisch überformtes Feld eingeschätzt, galt aber allen Wissenschaftlern als das nach wie vor praktizierte Herzstück ihrer Arbeit.

Grit Laudel und Jochen Glaser, The Australian National University

Email: Grit.Laudel@anu.edu.au

Ein formelbasiertes Evaluationssystem – wie beeinflusst es die Forschunginshalte ? Die Finanzierung australischer Universitäten

Die evaluationsbasierte Forschungsfinanzierung soll die Qualität der Forschung verbessern, ohne deren Inhalte zu beeinflussen. Die Einführung solcher Maßnahmen wird stets von der optimistischen Annahme getragen, dies sei tatsächlich möglich. Dagegen spricht, dass die zur Messung der Qualität verwendeten Eigenschaften von Forschung mit anderen epistemischen Charakteristika verbunden sind. Veränderungen in den evaluierten Parametern sind wahrscheinlich nicht ohne epistemische Nebeneffekte zu haben. Allerdings wissen wir kaum etwas über die Wirkung von Evaluationen. Weder die intendierten Effekte noch die befürchteten Nebenwirkungen sind bislang zuverlässig nachgewiesen worden. Ein Grund dafür liegt in der methodologischen Schwierigkeit, Veränderungen von Forschungsinhalten kausal auf institutionelle Bedingungen zurückzuführen.

Das Australische System der evaluationsbasierten Forschungsfinanzierung existiert seit 15 Jahren und eignet sich deshalb ausgezeichnet für das Studium von Langzeit-Effekten. Es basiert auf einer Finanzierungsformel, die Publikationszahlen, Drittmittelaufkommen und die Zahl der Forschungsstudenten (Masters und PhD) in Zahlungen an die Universitäten umrechnet. Wir untersuchen gegenwärtig in einer vergleichenden Studie von sieben Australischen Universitäten, ob – und wenn ja, wie - das formelbasierte System auf die Ressourcensituation der Wissenschaftler ‚durchschlägt’. Beeinflusst die formelbasierte Finanzierung die Bedingungen, unter denen die Wissenschaftler an den Universitäten forschen? Führt die Anpassung der Wissenschaftler an diese Bedingungen zu Veränderungen der Forschungsinhalte?

Da Evaluationssysteme vermutlich in verschiedenen Wissenschaftsgebieten unterschiedliche Wirkungen haben, vergleichen wir nicht nur Universitäten, sondern auch sechs Fächer (Mathematik, Geologie, Biochemie, Experimentelle Physik, Politikwissenschaften und Geschichte). Die Untersuchung beruht auf Leitfadeninterviews mit Universitätsmanagern und Wissenschaftlern, bibliometrische Analysen sowie zwei ethnographische Beobachtungen.
Erste Ergebnisse zeigen, dass sich die Australischen Universitäten and das Forschungssystem anpassen, indem sie dieselben Indikatoren für die interne Ressourcenverteilung an die Fakultäten verwenden. Außerdem benutzen sie die Indikatoren in ihren Entscheidungen über Entfristungen und Beförderungen. Hinzu kommen nahezu fieberhafte Aktivitäten, mit denen die Drittmitteleinwerbung (der am stärksten gewichtete Indikator) verbessert werden soll.
Allerdings ist zu wenig Geld im System, als dass die Indikatoren eine direkte Steuerungswirkung entfalten könnten. Die über Finanzierungsformeln verteilte Grundfinanzierung versickert in den Haushalten der Fakultäten und Schools, deren Finanzlage meist so angespannt ist, dass sie keine evaluationsbasierte Grundfinanzierung von Wissenschaftlern ermöglicht. Auch die Lehrbelastung wird nicht an die Forschungsleistungen angepasst, sondern gleich verteilt. Lediglich von den karriererelevanten Bewertungen geht eine gewisse Steuerungswirkung aus, die aber eher eine Anpassung von äußeren Charakteristika (Zahl der Publikationen, Drittmitteleinwerbung usw.) als Anpassungen der Forschungsinhalte auslöst.

Die Wissenschaftler an Australischen Universitäten sind auf die äußerst knappen Drittmittel angewiesen. Hier wirkt die eigene Ressourcensituation in dieselbe Richtung wie die Anstrengungen der Universität, mit denen diese auf die Finanzierungsformel reagiert. Dabei lassen sich zwei Mechanismen beobachten, die in der Tat Veränderungen der Forschungsinhalte bewirken. (1) Um Drittmittel zu erlangen, bewegen sich viele Wissenschaftler auf den mainstream und auf anwendungsorientierte Forschung zu. Nicht ’drittmittelfähige’ Forschungslinien werden abgebrochen.
(2) Um mit den häufig nicht ausreichenden Ressourcen zurechtzukommen, wird die Forschung in ihrer Reichweite (ihrem Geltungsanspruch) und in ihrer Verlässlichkeit eingeschränkt. Wissenschaftler mit Ressourcenproblemen verändern nicht das Forschungsthema, sondern betreiben ‚Billigforschung’ mit weniger gut geeigneten Objekten, weniger Beobachtungen oder Experimenten, weniger parallel eingesetzten Methoden usw.

Dr. Alexandra Manzei, Technische Universität Berlin

Email: alexandra.manzei@tu-berlin.de

Über die Standards der Evidence Based Medicine im (nicht nur) informationstechnologischen Netzwerk der Intensivmedizin

Seit einigen Jahren gelten die Studien der aus dem angelsächsischen Raum stammenden Evidence Based Medicine auch in Deutschland als Qualitätsmaßstab zur Bewertung medizinischer Maßnahmen. Veröffentlicht werden sie durch die „Cochrane Collaboration“, einem internationalen Netzwerk von Wissenschaftlern und Ärzten, die sich, nach eigener Darstellung „die Erstellung, Aktualisierung und Verbreitung systematischer Übersichtsarbeiten ("systematic reviews") zur Bewertung von medizinischen Therapien zum Ziel gemacht hat“ (http://www.cochrane.org). Zentrales Ziel sei „die Verbesserung der wissenschaftlichen Grundlagen für Entscheidungen im Gesundheitssystem“ (ebd.). Erreicht werden soll dies Ziel durch methodisch kontrollierte klinische Studien, die über die Cochrane Library zur Verfügung gestellt und auf die über das Internet weltweit zugegriffen werden kann. Durchgeführt werden diese Studien in einer methodischen Form, die im Fachjargon als „Goldstandard“ bezeichnet wird und den sicheren empirischen Beweis der Richtigkeit und Angemessenheit einer Maßnahme liefern soll. In Form randomisierter (also zufallskontrollierter), experimenteller, vergleichender Studien werden therapeutische Maßnahmen untersucht und bewertet.

Auf der einen Seite hat dieses Verfahren als Qualitätsmaßstab zur Bewertung medizinischer Maßnahmen nun eine enorme Verbreitung im Gesundheitswesen erfahren. Es fundiert in gesundheitspolitische Entscheidungen, wie in Deutschland beispielsweise in die so genannte Positivliste, und leitet medizinische und pflegerische Entscheidungsprozesse in der stationären wie der ambulanten Behandlung in Form von standardisierten Therapieempfehlungen an. Auf der anderen Seite ist gerade die methodische Form der Evidence Based Medicine auch in der Medizin selbst nicht unumstritten. Kritiker werfen der – wie die deutsche Übersetzung richtig lauten müsste – „beweisbasierten Medizin“ vor, gerade durch ihre formalisierte Beweisführung die individuelle Expertise erfahrener Mediziner ebenso auszulassen, wie die je unterschiedlichen Bedürfnisse der Patienten und die konkreten sozialen und medizinischen Rahmenbedingungen der Anwendung. Einerseits würden dadurch therapeutisch wirksame Medikamente in einer Art „negativem Positivismus“ (der Nicht-Beweis der Wirksamkeit führe zur Ablehnung eines Medikaments) von der Anwendung und Finanzierung durch die Kassen ausgeschlossen. Andererseits seien randomisierte kontrollierte Studien so immens teuer, dass sie zunehmend nur noch von der industriellen Forschung unter Marketinggesichtspunkten durchgeführt würden. Das heißt, nur Therapeutika, die sich industriell herstellen lassen und auf eine breite, gewinnbringende Vermarktung hoffen können, werden systematisch untersucht. Herausfallen dabei manuelle-, chirurgische und Psychotherapien ebenso, wie Therapien seltener oder Langzeitbehandlungen chronischer Erkrankungen.

In der Intensivmedizin treffen die Standards der Evidence Based Medicine nun noch einmal auf besondere Anwendungsbedingungen die im Vortrag dargestellt und in ihren Auswirkungen exemplarisch untersucht werden sollen. Grundlage hierfür ist eine von mir durchgeführte, ethnografische Studie in der Intensivmedizin, die sich mit der Bedeutung von Erfahrungswissen bei der Anwendung von Technik auseinandersetzt (vgl. wissen-medizin-technik.de). War die Intensivmedizin bereits von Beginn an ein hochtechnisierter Arbeitsbereich, so zeichnet sie sich in den letzten Jahren darüber hinaus durch eine enorme informationstechnologische Vernetzung aus. Mit der Umstellung der Patientendokumentation von der Papierform auf EDV und deren elektronischer Vernetzung mit der Patientenüberwachung, dem so genannten Monitoring, einerseits sowie dem Verwaltungs- und Managementsystem andererseits, wird der bislang medizinisch wie sozial eher geschlossene Raum der Intensivmedizin für gesellschaftliche und organisatorische Anforderungen von außen geöffnet und transparent und kontrollierbar gemacht. Einerseits wird so die Arbeit des medizinischen und pflegerischen Personals durch einfließende Leistungs- und ökonomische Kriterien restrukturiert (wie standardisierte Punktesysteme zur Aufwandsbewertung, Leistungsabrechnung durch Diagnosis Relatet Groups uam.), wovon weder die medizinische Expertise noch die therapeutischen Anwendungen unberührt bleiben. Andererseits lässt sich zeigen, dass trotz zunehmender Kontrolle die Standards keineswegs ungebrochen umgesetzt werden. Und das gerade diese verbleibenden individuellen und therapeutischen Spielräume, für das Gelingen intensivmedizinischer Therapie von besonderer Bedeutung sind.

Jan-Hendrik Passoth, Universität Bielefeld

Email: jan.passoth@uni-bielefeld.de

„Und er wird die Fülle haben...“ – Forschungsrankings und der Matthäus-Effekt

Evaluationen, Rankings und Ratings sind im Wissenschaftsbetrieb allgegenwärtig. Während einige Wissenschaftler sie als Verlust der Kontrolle über die Leistungs- und Qualitätskriterien wissenschaftlicher Tätigkeit begreifen, sehen vor allem wissenschaftsexterne Akteure in ihnen eine Möglichkeit der Beurteilung wissenschaftlicher Praxis, die von der Selbsteinschätzung der Forscher und Institutionen abstrahieren kann. Diese Unterscheidung zwischen verschiedenen Kriterien zur Beurteilungen wissenschaftlicher Praxis bestimmt viele der Debatten über Forschungs- und Lehrrankings. Indem Teilnehmer an diesen Debatten entweder wissenschaftsinterne oder wissenschaftsexterne Kriterien für angemessener und effektiver erklären, nehmen sie Position für oder gegen Forschungsrankings und externe Evaluationen.

Im geplanten Betrag folge ich Robert K. Mertons Einschätzung, dass schon das interne Bewertungssystem der Wissenschaft sowohl funktionale als auch disfunktionale Aspekte aufweist. Wissenschaft, so Merton, belohnt die wissenschaftlich Tätigen für ihre Bemühungen mit Anerkennung und Reputation. Dieses System von Belohnungen ist für die Fortsetzung wissenschaftlicher Tätigkeit unerlässlich. Nicht selten aber kommt es dabei auch zu systematischen Fehlzuteilungen. Mit dem Matthäus-Effekt ist eine dieser Fehlzuteilungen benannt: Hoch angesehene Wissenschaftler bekommen für bestimmte Beiträge unverhältnismäßig höhere Anerkennung als ihre weniger bekannten Kollegen. Ein Beispiel sind Artikel in Fachzeitschriften, die von mehreren Autoren verfasst werden. Publizieren ein bekannter und ein unbekannter Autor gemeinsam einen Aufsatz, so bleibt vor allem der Name des bekannten Wissenschaftlers den Lesern präsent. Externe Beurteilungen, in denen Publikationen gezählt, Reputation abgefragt oder Lehrqualität gemessen werden, sind daher von internen Bewertungen nicht unabhängig. Es ist daher zu fragen, ob und inwiefern die Methoden externer Beurteilungen systematische Fehlzuteilungen von Anerkennung wissenschaftlicher Leistungen nach wissenschaftsinternen Kriterien ausgleichen, reproduzieren oder sogar verstärken. Das Beispiel der Mehrfachautorenschaften ist hierfür wieder instruktiv: Während in bibliometrischen Methoden ein Artikel sowohl dem bekannten als auch dem unbekannten Verfasser gleich geringe Bewertungen einbringt, profitiert bei der Einschätzung der Qualität der Forschung der bereits bekannte Wissenschaftler ungleich mehr.

Mein Beitrag soll daher erstens auf die Aktualität wissenschaftsexterner Evaluationen eingehen. Als Beispiel dazu sollen die CHE-Hochschulrankings 2005/2006 und die aktuell vom Wissenschaftsrat durchgeführte Pilotstudie zu den Fächern Chemie und Soziologie dienen. In einem zweiten Schritt werde ich auf die Unterscheidung wissenschaftsinterner und -externer Beurteilung am Beispiel von Mertons Normen – Universalismus, Kommunismus, Uninteressiertheit und Skeptizismus – eingehen. Drittens stelle ich mit dem Matthäus-Effekt eine der systematischen Verzerrungen wissenschaftsinterner Beurteilungen genauer dar. Viertens werden die Kriterien zur wissenschaftsexternen Beurteilung an ausgewählten Methoden des CHE-Forschungsrankings daraufhin untersucht, ob sie systematische Schwierigkeiten wissenschaftsinterner Beurteilungen wie den Matthäus-Effekt berücksichtigen, ignorieren oder noch potentieren. Eine externe Bewertung wissenschaftlicher Arbeit kann nur dann zur Verbesserung der Qualität der Forschung und Lehre beitragen, wenn sie von möglichen Verzerrungen wissenschaftsinterner Bewertungen abstrahieren kann.

Christian Pohl

Besonderheiten der Evaluation transdisziplinärer Forschung

Die transdisziplinäre Forschung (TF) identifiziert, strukturiert, analysiert und bearbeitet Probleme in komplexen und gesellschaftlich umstrittenen Problemfeldern im Hinblick auf praktische Lösungen, die am Gemeinwohl orientiert sind. Um der Komplexität der Probleme und der Diversität ihrer Sichtweisen gerecht zu werden, und um abstrahierende Wissenschaft und fallspezifische Relevanz zu verbinden, überschreiten transdisziplinäre Projekte dabei die Grenzen zwischen Disziplinen und beziehen die Blickwinkel von Staat, Wirtschaft und Zivilgesellschaft in die Forschung mit ein.

Eine Besonderheit der TF steckt in dieser Vielfalt an Anforderung und eine erste Leistung der Projekte ist es schon, darin nicht verloren gehen. Um die Anforderungen systematisch angehen und in den verschiedenen Phasen des Forschungsprozesses umzusetzen zu können, schlägt das td-net Gestaltungsprinzipien für die transdisziplinäre Forschung und darauf basierende Arbeitinstrumente vor (Pohl & Hirsch Hadorn, 2006a).

Eine Evaluation der TF muss die spezifischen Herausforderungen der TF „sehen“ und beurteilen können, wie kreativ und exzellent sie in einem Projekt bewältigt wurden. Aus den Gestaltungsprinzipien des td-net lässt sich ableiten, dass eine Evaluation dazu insbesondere erfassen und beurteilen muss, wie das Problem identifiziert und –strukturiert wird, wie die Zusammenarbeit und Integration organisiert und konzeptionalisiert wird, wie das Projekt in Wissenschaft und Lebenswelt eingebettet ist und wie der Forschungsprozesses als rekursiver Lernprozess gestaltet wird (Pohl & Hirsch Hadorn, 2006b).

Pohl, C. & Hirsch Hadorn, G. (2006a). Gestaltungsprinzipien für die transdisziplinäre Forschung - Ein Beitrag des td-net. München: oekom.
Pohl, C. & Hirsch Hadorn, G. (2006b). Die Gestaltungsprinzipien für transdisziplinäre Forschung des td-net und ihre Bedeutung für die Evaluation. In S. Stoll-Kleemann and C. Pohl, (eds.), Evaluation inter- und transdisziplinärer Forschung: Humanökologie und Nachhaltigkeitsforschung auf dem Prüfstand. München: oekom.

Falk Schützenmeister, Technische Universität Dresden

Email: postfalk@web.de

Orientierung und Qualitätssicherung in der deutschen Universitätsforschung

Umfragen sind inzwischen das Standardinstrument der Evaluation von Forschung und Lehre. In der Wissenschaftssoziologie wird die Fragebogenmethode heute eher selten zur Überprüfung von Hypothesen oder gar Theorien eingesetzt. Obwohl das Internet neue Möglichkeiten der Erreichbarkeit von Wissenschaftlern bietet, ist diese Tradition der empirischen Wissenschaftsforschung – die vor allem im Kontext der Mertonschen Wissenschaftssoziologie stand – nach der sogenannten kognitivistischen Wende der Wissenschaftssoziologie nicht fortgesetzt worden.

Ein Ziel des Referates ist die Präsentation einiger Ergebnisse einer experimentellen Online-Befragung, die im Herbst 2005 im Rahmen eines Lehrforschungsprojektes durchgeführt wurde. Das Befragungsdesign folgte der von Don Dillman entwickelten Total/Tailored Design Method (TDM). Es wurden 1.600 ordentliche Professoren an deutschen Universitäten, die mit einem Zufallsverfahren aus dem Hochschullehrerverzeichnis gezogen wurden, per Email angeschrieben. Davon haben 34% die Fragen online beantwortet oder die Druckversion des Fragebogens ausgefüllt und postalisch zurückgesandt.

Bei der Befragung ging es u.a. darum zu untersuchen, nach welchen Kriterien die Wissenschaftler selber die Qualität und den Nutzen der Forschung einschätzen. Dabei wurde explizit nach der Einstellung zu den Mertonschen Wissenschaftsnormen gefragt. Ein Ergebnis, welches sich schon in den inzwischen klassischen Studien über Wissenschaftler in der Industrie finden lässt, ist, dass die veränderten Anforderungen an die Forschungsarbeit nicht notwendigerweise zu Normenkonflikten führen. Da es schwer ist, Indikatoren für die Verpflichtung einzelner Wissenschaftler auf das Mertonsche Ethos zu finden, haben wir in unserer Befragung versucht komplexe Normenkonflikte zu konstruieren. Aber auch diese stellten sich nicht als so stark heraus, wie es in Spekulationen über den Wandel der wissenschaftlichen Leistungsbewertung mitunter vermutet wird. Ein mögliche Interpretation wäre, dass sich auch die externe Bewertung der Wissenschaft – zumindest teilweise – an den Mertonschen Normen orientiert, um gute von schlechter Forschung zu unterscheiden.

Eine Folge der Knappheit von Forschungsmitteln ist dagegen, dass zusätzliche Effizienzkriterien an die Forschungsarbeit herangetragen werden. In unserer Befragung berücksichtigte Beispiele hierfür sind die Einwerbung von Drittmitteln, die Produktivität – gemessen in der Anzahl der publizierten Aufsätze – und die internationale Kooperation und Vernetzung. Dabei lassen sich große Unterschiede zwischen verschiedenen Fachgebieten, aber auch zwischen verschiedenen Forschertypen feststellen.

Ein etwas überraschendes Ergebnis ist dagegen, dass über 80% der Befragten angaben, dass die Institution, an der ein Wissenschaftler angestellt ist, einen wichtigen Einfluss auf die Beurteilung seiner Arbeit hat. Dies scheint auf den ersten Blick mit dem Mertonschen Ethos zu kollidieren, weil dieses ja die Bewertung wissenschaftlicher Beiträge unabhängig von dem Hintergrund der Wissenschaftler fordert. Auf der anderen Seite könnte man dies auch als eine indirekte Folge des Matthäuseffekt interpretieren, da sich Universitäten und Forschungsinstitute in einem Wettbewerb um die Wissenschaftler mit der meisten Reputation befinden.

Offensichtlich sind die Kriterien vielschichtig, die von Wissenschaftlern zur Bewertung wissenschaftlicher Arbeit herangezogen werden. Schon recht früh wurde herausgearbeitet, dass die Einhaltung des Mertonsche Ethos noch keinen guten Wissenschaftler ausmacht. Es ist vielmehr nur eine Voraussetzung unter anderen. Auch innerhalb der scientific community gibt es also andere Kriterien. Wichtig ist vor allem, die Norm neues Wissen zu produzieren. Mit der Externalisierung der Leistungsbewertung kommt offensichtlich die Norm hinzu, nützliches Wissen zu produzieren, welches in der Regel mit höheren Mittelzuwendungen honoriert wird. Allerdings zeigt sich auch hier, dass die meisten der Wissenschaftler es selbst für erstrebenswert halten, nützliches Wissen zu produzieren. Ein Forschungsdesiderat wäre, die Wissenschaftler nach ihrer Bewertung der externen Leistungskontrolle und Legitimationsprüfung von Wissenschaft zu fragen.

Alexander I. Walter, Sebastian Helgenberger, Arnim Wiek, Roland W. Scholz, ETH Zürich
Email: alexander.walter@env.ethz.ch

Social impact evaluation of transdisciplinary research

Transdisciplinary research (TdR) integrates non-academic knowledge and values, and scientific research in a transdisciplinary process. While its quality of participation is well researched, its social impacts are insufficiently known. We developed a social impact model for TdR, starting at procedural and product-related outputs. Possible social impacts were identified, which allegedly influenced the decision-making capacity of case agents. We applied this model in an ex-post evaluation of a TdR project, surveying 188 participants, determining the grade of involvement, different social impacts, and the decision-making capacity of the case agents. The results show significance regarding the impact model, and significant mediation of two impact variables “Network building” and “Transformation knowledge”. This work contributes to the development of a social impact evaluation of TdR, which is an important effect of this kind of research besides scientific impact. It further contributes to the fields of program planning and evaluation, and social impact assessment.

Keywords: social impact, impact evaluation, program theory, transdisciplinarity