Script zur Extrahation von Informationen aus Dateien

Guido Grass guido.grass at uni-koeln.de
Mi Sep 3 19:32:30 CEST 2008


Andreas Breslau schrieb:
> Josef 'Jupp' Schugt wrote:
> 
>> On Wed, 03 Sep 2008 12:01:24 +0200, Michael Kesper <mkesper at fsfe.org> 
>> wrote:
>>
>>> awk? Ich würde eher python und lxml empfehlen.
>>> http://codespeak.net/lxml/parsing.html
>>
>> So, jetzt fehlen nur noch Perl, Lua und LISP und dann haben wir die 
>> üblichen Verdächtigen durch :)
> 
> Perl, klar, war mein erster Gedanke ;-)
> 
> @Guido:
> 
>> <planned-numbers>
>>   <in-member-state>24</in-member-state>
>>   <in-european-community>24</in-european-community>
>>   <in-whole-trial>24</in-whole-trial>
>> </planned-numbers>
> 
> muss diese Hirarchie erhalten bleiben? also
> planned-numbers->in-member-state, oder ist in-member-state eindeutig?
> (die frage gilt für alle hirarchischen strukturen innerhalb des xml)

Die Hierarchie muss nicht erhalten bleiben, da die Items bereits
eindeutig sind.
> 
> sollen nur die informationen ausgelesen werden, die du in deiner ersten
> mail genannt hast?
> und wie hättest du die gerne ausgegeben? reicht dir tab getrennte txt?
> (steht bei allen dateien in den tags unterhalb von planned-numbers 24 ??
> dann kann man das sehr vereinfachen ;-) )

LOL

Dann wäre das Mittel über alle Studien relativ schnell errechnet ...

Vielleicht ein bisschen Hintergrund: Es geht um die geplante Zahl der
Patienten innerhalbe einer Studie. Das hier herauskopierte Beispiel ist
eine Studie, die nur in Deutschland durchgeführt wird, daher steht da
nunmal überall das gleiche.

Werde mich morgen mal um die ganze Sache nochmal intensiver kümmern.

Gruß

Guido
> 
> Gruß andreas
> 
>