Einer meiner Professoren, der jedes Seminar mit einer bis zwei Stunden Wissenschaftstheorie begonnen hat, hat es sinngemäß so formuliert:
Etwas wird nur zum Datum in dem Kontext, in dem es gelesen werden soll.
30.432,22.176, oder
30,432;22,176; sind für sich genommen keine Daten.
Was dann? Es sind Zeichenketten. Nicht mehr und nicht weniger. Und nicht mehr, aber auch nicht weniger steht in einer CSV-Datei.
Es ist die Interpretation der Nutzer, die darin für einen bestimmten Zweck Dezimalzahlen oder sonstwas lesen.Ein Tabellenkalkulationsprogramm erfährt daraus nichts über die beabsichtigte Lesung; es kann erstmal nur raten.
Es ist plausibel bis nützlich, dass ein in einem auf amerikanisch eingestellten System arbeitenden Tabellenprogramm standardmäßig im ersten Zeichensatz, und in einem auf kontinentaleuropäisch eingestellten System im zweiten zwei Dezimalzahlen liest.
Wird nun aber die erste Zeichenkette unter kontinentaleuropäischen Einstellungen eingelesen, kann der Standard oder der dahinterstehende Austomatismus nicht zweifelsfrei lesen. Es könnten Tausenderzahlen sein, es könnte éine Dezimalzahl sein, durch Punkte von davor und dahinter stehenden irgendwas bedeutenden Ziffernfolgen getrennt.
Wird wiederum die zweite Zeichenkette unter einem auf amerikanisch eingestellten System eingelesen, liest der Automatismus vielleicht nur zwei Tausenderzahlen.
In beiden Fällen braucht das Tabellenprogramm Hilfe durch die Nutzer. Sie wissen, oder sollten wissen, was das sein soll. Und darum gibt es Importassistenten, die die beabsichtigten Bedeutungen der Zeichen und Zeichenfolgen erfragen.
Den Automatismus, der 90% der CSV-Datei von selbst auch unter widrigen Bedingungen erkennt, dann aber an der Zeichenkodierung (ISO-8859-x oder 1231 oder doch UTF-8 oder noch Anderes) scheitert und Sonderzeichen verwurstet, und man das erst später merkt, hätte man dann besser gleich durch den Importassistenten unterstützt.
ED:Typo