Script zur Extrahation von Informationen aus Dateien

Guido Grass guido.grass at uni-koeln.de
Di Sep 2 18:09:36 CEST 2008


Werte Kollegen,

zunächst darf ich mich entschuldigen, die Frage an diese Runde zu
richten, wusste aber niemanden, der mir sonst einen heißen Tipp geben
kann. Letztlich kann man es vielleicht auch unter kollegiale "Amtshilfe"
verbuchen:

Probelem:
In einem Verzeichnis liegen wild benannte xml-Dateien, aus denen ich
einige wenige Informationen strukturiert auslesen möchte.
Es handelt sich hierbei um folgende tags:
 <eudract-number>2007-000000-11</eudract-number>
...
<phase-one>Y</phase-one>
  <phase-two>N</phase-two>
  <phase-three>N</phase-three>
  <phase-four>N</phase-four>
....

<planned-numbers>
  <in-member-state>24</in-member-state>
  <in-european-community>24</in-european-community>
  <in-whole-trial>24</in-whole-trial>
  </planned-numbers>

Jede Datei enthält die Informationen einer Studie. Die Studie ist
gekennzeichnet durch die eindeutige EudraCT-number.

Ich hätte jetzt gerne eine Tabelle, die die oben genannten Informationen
in eine Tabelle transformiert, wobei die Items die Spalten bezeichnen
würden und pro Studie logischerweise eine Zeile.

Das kann man doch bestimmt mit einem awk-Script lösen. Ich leider jedoch
nicht ... - und die Zeit mich in die Grundlagen der Programmierung
einzuarbeiten fehlt mir obendrein.

Gibt es jemanden, der sowas aus dem Ärmel schüttelt? Oder einen kennt,
der einen kennt ...?

Dank und Gruß

Guido Grass
-- 
Dr. med. Guido Grass
Leiter der Geschäftsstelle der
Ethik-Kommission der Medizinischen Fakultät der
Universität zu Köln
Kerpener Str. 62
50937 Köln

Tel.:	+49 221 478 87916
Fax:	+49 221 478 6751
Email:	ek-med at uni-koeln.de