HINWEIS: Die IDRE Statistical Consulting Group wird die Migration der Website auf das WordPress CMS im Februar, um die Wartung und Erstellung neuer Inhalte zu erleichtern. Einige unserer älteren Seiten werden entfernt oder archiviert, so dass sie nicht länger erhalten bleiben. Wir werden versuchen, die Weiterleitungen so zu halten, dass die alten URLs weiterhin so gut funktionieren, wie wir können. Willkommen beim Institut für Digitale Forschung und Bildung Helfen Sie der Stat Consulting Group durch ein Geschenk Stata Learning Module Eingeben Ihrer Daten in Stata Dieses Modul zeigt, wie Sie Ihre Daten in Stata eingeben. Hierbei handelt es sich um Eingabe von Daten mit durch Kommas getrennten, tabulatorgetrennten, raumbegrenzten und festen Spaltendaten. Hinweis . Alle Beispiel-Eingabedateien für diese Seite wurden von uns erstellt und sind nicht im Lieferumfang von Stata enthalten. Sie können sie selbst erstellen, um diesen Code auszuprobieren, indem Sie die Daten kopieren und in eine Textdatei einfügen. 1. Eingeben von Daten in den Stata-Editor Eine der einfachsten Methoden, um Daten in Stata zu laden, ist der Stata-Dateneditor, der einer Excel-Tabelle ähnelt. Es ist nützlich, wenn Ihre Daten auf Papier sind und eingegeben werden müssen oder wenn Ihre Daten bereits in eine Excel-Tabelle eingegeben werden. Weitere Informationen zum Stata-Dateneditor finden Sie im Bearbeitungsmodul. 2. Kommatab getrennte Datei mit Variablennamen auf Zeile 1 Zwei gängige Dateiformate für Rohdaten sind kommagetrennte Dateien und tabulatorgetrennte Dateien. Solche Dateien werden häufig aus Tabellenkalkulationsprogrammen wie Excel erstellt. Beachten Sie die kommagetrennte Datei, die unten gezeigt wird. Diese Datei hat zwei Eigenschaften: - Die erste Zeile enthält die Namen der Variablen, die durch Kommas getrennt sind, - Die folgenden Zeilen haben die Werte für die Variablen, die auch durch Kommas getrennt sind. Diese Art von Datei kann mit dem Befehlsblatt gelesen werden, wie unten gezeigt. Mit Hilfe des Listenbefehls können wir überprüfen, ob die Daten richtig kamen. Da Sie wahrscheinlich mehr Beobachtungen haben, können Sie in verwenden, um nur eine Teilmenge von Beobachtungen aufzulisten. Im Folgenden listen wir die Beobachtungen 1 bis 3 auf. Nachdem die Datei in Stata eingelesen wurde, können Sie sie mit dem Befehl save speichern (wir überspringen diesen Schritt). Der genaue gleiche Insheet-Befehl könnte verwendet werden, um eine tabulatorgetrennte Datei zu lesen. Das Insheet-Kommando ist clever, weil es herausfinden kann, ob Sie eine durch Kommas getrennte oder tabulatorgetrennte Datei haben, und dann lesen. (Jedoch konnte das Insheet keine Datei verarbeiten, die eine Mischung aus Kommas und Tabs als Trennzeichen verwendet.) Bevor Sie den nächsten Abschnitt beginnen, können Sie die vorhandenen Daten im Speicher löschen. 3. Kommatab separierte Datei (keine Variablennamen in der Datei) Betrachten Sie eine Datei, die identisch ist mit der, die wir im vorherigen Abschnitt untersucht haben, aber sie hat nicht die Variablennamen auf Zeile 1 Diese Datei kann mit dem Insheet-Befehl wie gezeigt gelesen werden unten. Aber wo hat Stata die Variablennamen erhalten Wenn Stata keine Namen für die Variablen hat, benennt sie v1. V2. V3 etc. wie Sie unten sehen können. Ermöglicht das Löschen der Daten im Speicher und versucht dann, die Daten erneut zu lesen. Nun können wir versuchen, die Daten zu lesen und sagen Stata die Namen der Variablen auf dem Insheet-Befehl. Wenn der Listenbefehl angezeigt wird, verwendet Stata die Variablennamen, die auf dem Befehlsblatt zugeführt werden. Der Insheet-Befehl funktioniert ebenso gut auf Dateien, die Tabs als Trennzeichen verwenden. Stata untersucht die Datei und bestimmt, ob Kommas oder Tabs als Trennzeichen verwendet werden und liest die Datei entsprechend. Nachdem die Datei in Stata eingelesen wurde, können Sie sie mit dem Befehl save speichern (wir überspringen diesen Schritt). Ermöglicht das Löschen der Daten im Speicher bevor Sie zum nächsten Abschnitt gehen. 4. Leerzeichen-getrennte Datei Betrachten Sie eine Datei, in der die Variablen durch Leerzeichen getrennt sind, wie die unten gezeigte. Beachten Sie, dass die Marke des Autos in Anführungszeichen enthalten ist. Dies ist notwendig, da die Namen Leerzeichen enthalten. Ohne die Anführungszeichen, würde Stata denken AMC ist die Marke und Concord ist das mpg. Wenn die make keine Leerzeichen in ihnen eingebettet haben, wären die Anführungszeichen nicht erforderlich. Diese Datei kann mit dem Befehl infile wie unten gezeigt gelesen werden. Sie können sich fragen, woher die str13 kommen Da make eine Zeichenvariable ist, müssen wir Stata mitteilen, dass es sich um eine Zeichenvariable handelt und wie lange es sein kann. Das str13 sagt Stata, dass es eine String-Variable ist und dass es bis zu 13 Zeichen breit sein könnte. Der Listenbefehl bestätigt, dass die Daten korrekt gelesen wurden. Nachdem die Datei in Stata eingelesen wurde, können Sie sie mit dem Befehl save speichern (wir überspringen diesen Schritt). Ermöglicht das Löschen der Daten im Speicher, bevor Sie zum nächsten Abschnitt wechseln. 5. Feste Formatdatei Betrachten Sie eine Datei mit festen Spaltendaten wie die unten gezeigte. Beachten Sie, dass die Variablen klar definiert sind, über welche Spalte sie sich befinden. Beachten Sie auch, dass die Marke des Autos nicht in Anführungszeichen enthalten ist. Die Zitate werden nicht benötigt, da die Spalten definieren, wo das Make beginnt und endet, und die eingebetteten Leerzeichen erzeugen nicht mehr Verwirrung. Diese Datei kann mit dem Befehl infix wie unten gezeigt gelesen werden. Auch hier müssen wir Stata mitteilen, dass make eine String-Variable ist, indem wir make mit str setzen. Wir mussten nicht die Länge angeben, da Stata ableiten kann, dass make bis zu 13 Zeichen breit sein kann, basierend auf den Spaltenstandorten. Der Listenbefehl bestätigt, dass die Daten korrekt gelesen wurden. Nachdem die Datei in Stata eingelesen wurde, können Sie sie mit dem Befehl save speichern (wir überspringen diesen Schritt). Ermöglicht das Löschen der Daten im Speicher, bevor Sie zum nächsten Abschnitt wechseln. 6. Andere Methoden, um Daten in Stata zu bekommen Dies deckt nicht alle möglichen Methoden, um Rohdaten in Stata zu bekommen, sondern deckt viele gemeinsame Situationen ab. Weitere Informationen zum Lesen von Rohdaten in Stata finden Sie im Stata-Benutzerhandbuch. Eine andere Methode, die erwähnt werden sollte, ist die Verwendung von Datenkonvertierungsprogrammen. Diese Programme können Daten aus einem Dateiformat in ein anderes Dateiformat konvertieren. Beispielsweise könnten sie direkt eine Stata-Datei aus einer Excel-Tabelle, einer Lotus Spreadsheet, einer Access-Datenbank, einer Dbase-Datenbank, einer SAS-Datendatei, einer SPSS-Systemdatei usw. erstellen. Zwei solcher Beispiele sind Stat Transfer und DBMS Copy. Beide Produkte sind auf SSC PCs verfügbar und DBMS Copy ist auf Nicco und Aristoteles erhältlich. Schließlich gibt es, wenn Sie Nicco, Aristoteles oder den RS6000-Cluster verwenden, einen Befehl speziell für die Konvertierung von SAS-Daten in Stata mit dem Namen sas2stata. Wenn Sie SAS-Daten haben, die Sie in Stata konvertieren möchten, kann dies eine nützliche Möglichkeit sein, Ihre SAS-Daten in Stata zu erhalten. 7. Zusammenfassung Starten Sie den Stata-Dateneditor, um Daten einzugeben. Lesen Sie in der Komma - oder tabulatorgetrennten Datei mit dem Namen auto2.raw die Variablennamen aus der ersten Datenzeile. Lesen Sie in das Komma oder Tab mit Trennzeichen Auto3.raw benennen die Variablen mpg Gewicht und Preis. Lesen Sie in der Leerzeichen separaten Datei mit dem Namen auto4.raw. Die Variable make wird von Anführungszeichen umgeben, weil sie Leerzeichen eingebettet hat. Lesen Sie in der festen Formatdatei mit dem Namen auto5.raw. Weitere Methoden DBMSCopy, Stat Transfer, sas2stata und Stata Benutzerhandbuch. Der Inhalt dieser Website sollte nicht als eine Bestätigung für eine bestimmte Website, Buch oder Software-Produkt von der University of California. For schnelle Fragen e-Mail dataprinceton. edu ausgelegt werden. Keine appts. Notwendig während der begehbaren Stunden. Hinweis: Das DSS-Labor ist geöffnet, solange Firestone geöffnet ist, keine Termine erforderlich, um die Labor-Computer für Ihre eigene Analyse zu verwenden. Zeitreihen-Daten in Stata Zeitreihendaten und tsset Um Statas-Zeitreihenfunktionen und - analysen verwenden zu können, müssen Sie zunächst sicherstellen, dass Ihre Daten in der Tat Zeitreihen sind. Zuerst müssen Sie eine Datumsvariable haben, die im Format Stata Datum ist. Zweitens müssen Sie sicherstellen, dass Ihre Daten nach dieser Datumsvariablen sortiert werden. Wenn Sie Paneldaten haben, müssen Ihre Daten nach der Datumsvariablen innerhalb der Variablen sortiert werden, die das Panel identifiziert. Schließlich müssen Sie den tsset-Befehl verwenden, um Stata mitzuteilen, dass Ihre Daten Zeitreihen sind: Das erste Beispiel sagt Stata, dass Sie einfache Zeitreihen-Daten haben, und das zweite sagt Stata, dass Sie Paneldaten haben. Stata Datumsformat Stata speichert Daten als die Anzahl der verstrichenen Tage seit dem 1. Januar 1960. Es gibt verschiedene Möglichkeiten, verstrichene Stata-Daten zu erstellen, die davon abhängen, wie Daten in Ihren Daten dargestellt werden. Wenn Ihr ursprüngliches Dataset bereits eine einzelne Datumsvariable enthält, verwenden Sie die Funktion date () oder einen der anderen String-Datumsbefehle. Wenn Sie separate Variablen, die verschiedene Teile des Datums (Monat, Tag und Jahr Jahr und Quartal, etc.) speichern, dann müssen Sie die partielle Datumsvariable Funktionen verwenden. Date-Funktionen für eine einzelne String-Datumsvariable Manchmal haben Ihre Daten die Daten im String-Format. (Eine String-Variable ist einfach eine Variable, die etwas anderes als nur Zahlen enthält.) Stata bietet eine Möglichkeit, diese in Zeitreihen-Daten zu konvertieren. Das erste, was Sie wissen müssen, ist, dass die Zeichenfolge muss leicht in ihre Komponenten getrennt werden. Mit anderen Worten, Strings wie 01feb1990 1. Februar 1990 020190 sind akzeptabel, aber 020190 nicht. Beispielsweise können Sie sagen, dass Sie eine String-Variable sdate mit Werten wie 01feb1990 haben und Sie müssen es in eine tägliche Zeitreihe Datum zu konvertieren: Beachten Sie, dass in dieser Funktion, wie mit den anderen Funktionen, um Zeichenfolgen in Zeitreihen-Daten konvertieren, Zeigt der DMY-Teil die Reihenfolge des Tages, des Monats und des Jahres in der Variablen an. Wären die Werte zum 1. Februar 1990 codiert, hätten wir stattdessen MDY verwendet. Was ist, wenn das ursprüngliche Datum nur zwei Ziffern für das Jahr hat Dann würden wir verwenden: Wann immer Sie zwei Ziffern Jahre haben, einfach das Jahrhundert vor dem Y. Wenn Sie die letzten zwei Ziffern Jahre gemischt haben, wie 1298 und 1200, verwenden Sie: Wo 2020 das größte Jahr ist, das Sie in Ihrem Datensatz haben. Hier sind die weiteren Funktionen: wöchentlich (stringvar, wy) monatlich (stringvar, my) quartalsweise (stringvar, qy) halbjährlich (stringvar, hy) yearly (stringvar, y) Anmerkung: Stata 10 verwendet Großbuchstaben als DMY Stata verwendet Kleinbuchstaben, dmy. Datumsfunktionen für partielle Datumsvariablen Oft haben Sie separate Variablen für die verschiedenen Komponenten des Datums, die Sie zusammenfügen müssen, bevor Sie sie als richtige Zeitreihendaten festlegen können. Stata bietet eine einfache Möglichkeit, dies mit numerischen Variablen zu tun. Wenn Sie separate Variablen für Monat, Tag und Jahr haben, verwenden Sie die Funktion mdy (), um eine verstrichene Datumsvariable zu erstellen. Wenn Sie eine verstrichene Datumsvariable erstellt haben, werden Sie sie wahrscheinlich wie nachfolgend beschrieben formatieren wollen. Verwenden Sie die Funktion mdy (), um eine verstrichene Datumsvariable zu erstellen, wenn Ihre ursprünglichen Daten separate Variablen für Monat, Tag und Jahr enthalten. Die Variablen für Monat, Tag und Jahr müssen numerisch sein. Angenommen, Sie arbeiten mit diesen Daten: Konvertieren einer Datumsvariablen, die als einzelne Zahl gespeichert ist Wenn Sie eine Datumsvariable haben, in der das Datum als eine einzelne Zahl des Formulars yyyymmdd gespeichert wird (beispielsweise 20041231 für den 31. Dezember 2004) Wird der folgende Satz von Funktionen es in ein verstrichene Datum verwandeln. Gen-Datum int (Datum 10000) Genmonat int ((Datum-Jahr10000) 100) gen Tag int ((Datum-Jahr10000-Monat100)) gen mydate mdy (Monat, Tag, Jahr) Format mydate d Zeitreihen-Datumsformate Verwenden Sie den Befehl format Um verstrichene Stata-Daten als Kalendertermine anzuzeigen. Im obigen Beispiel hat die verstrichene Datumsvariable mydate die folgenden Werte, die die Anzahl der Tage vor oder nach dem 1. Januar 1960 repräsentieren. Weitere Informationen finden Sie im Stata Benutzerhandbuch, Kapitel 27. Termine festlegen Oft müssen wir Eine bestimmte Analyse nur auf Beobachtungen beziehen, die zu einem bestimmten Zeitpunkt fallen. Um dies zu tun, müssen wir etwas namens ein Datum Literal verwenden. Ein Datum Literal ist einfach eine Möglichkeit, ein Datum in Worten und haben Stata automatisch wandelt es in ein verstrichenes Datum. Wie bei dem d () - Literal, um ein reguläres Datum anzugeben, stehen w (), m (), q (), h () und y () für die Eingabe wöchentlich, monatlich, vierteljährlich, halbjährlich und Jährlichen Daten. Hier einige Beispiele: Wenn Sie einen Bereich von Daten angeben möchten, können Sie die Funktionen tin () und twithin () verwenden: Der Unterschied zwischen tin () und twithin () besteht darin, dass tin () Anfangs - und Enddatum enthält, Während twithin () diese ausschließt. Geben Sie immer zuerst das Anfangsdatum ein und schreiben Sie es wie für eine der d (), w (), etc.-Funktionen aus. Zeitreihen-Variablenlisten Häufig müssen wir in Zeitreihenanalysen die Werte einer Variablen von einer Beobachtung zur nächsten verlegen oder führen. Wenn wir viele Variablen haben, kann dies umständlich sein, vor allem, wenn wir eine Variable mehr als einmal behalten müssen. In Stata können wir festlegen, welche Variablen verzögert werden sollen und wie oft ohne neue Variablen erstellt werden müssen, wodurch viel Speicherplatz und Speicherplatz gespart wird. Sie sollten beachten, dass der Befehl tsset ausgestellt wurde, bevor einer der Tricks in diesem Abschnitt funktioniert. Wenn Sie Ihre Daten als Panel-Daten definiert haben, wird Stata automatisch die Berechnungen neu beginnen, so wie es am Anfang eines Panels steht, so dass Sie sich keine Sorgen um Werte machen müssen, die von einem Panel auf das nächste übertragen werden. L. varname und F. varname Wenn Sie für eine Analyse eine Variable verzögern oder führen müssen, können Sie dies mit den L. varname (to lag) und F. varname (zu führen) tun. Beide arbeiten auf die gleiche Weise, so gut nur zeigen einige Beispiele mit L. varname. Lassen Sie uns sagen, Sie wollen in diesem Jahr Einkommen auf die letzten Jahre Einkommen: würde dies zu erreichen. Die L. erzählt Stata, um Einkommen um ein Zeitalter zu verzögern. Wenn Sie das Einkommen um mehr als einen Zeitraum verlängern wollten, würden Sie einfach die L. ändern, um etwas wie L2. Oder L3. Um sie um 2 bzw. 3 Zeitdauern zu verzögern. Die folgenden zwei Befehle werden die gleichen Ergebnisse: Eine andere nützliche Verknüpfung ist D. varname, die den Unterschied des Einkommens in Zeit 1 und Einkommen in der Zeit 2 nimmt. Zum Beispiel, sagen wir, eine Person verdient 20 gestern und 30 heute.
No comments:
Post a Comment