Hvad Er Multivariat Analyse I Datavidenskab? : Plus Teknikker

Hvad Er Multivariat Analyse I Datavidenskab? : Plus Teknikker

Analyse af datasæt kræver ofte forskellige tilgange baseret på de data, du analyserer, og antallet af variabler, du undersøger. Nøjagtige resultater afhænger typisk af analysemetoden og den forståelse, forskeren har af, hvordan variabler fungerer sammen i datasæt. At forstå, hvad multivariat analyse er inden for datavidenskab, kan hjælpe dig med at planlægge datasæt med mere end én variabel, så du kan generere mere nøjagtige analyseresultater. I denne artikel udforsker vi multivariat analyse, forklarer dens betydning og diskuterer flere teknikker til at udføre en effektiv analyse af din egen.

Hvad er multivariat analyse i datavidenskab?

Multivariat analyse er studiet af flere variabler i et sæt data. Variabler er faktorer, du sammenligner med kontrolkomponenten eller den uforanderlige komponent i eksperimentet. Variabler hjælper dig med at sammenligne dine resultater med eksperimentets kontrol for at identificere eventuelle ændringer, der kan forekomme, eller tendenser, der kan udvikle sig. Multivariat analyse har til formål at identificere mønstre mellem flere variable. Hvis du for eksempel vil måle sammenhængen mellem mængden af ​​tid brugt på sociale medier og en medarbejders produktivitet, kan du bruge multivariat analyse. Hver medarbejders produktivitet og sociale medietider er variable i analysen.

Typisk søger multivariat analyse at opnå følgende mål:

  • Reducer data: Multivariat analyse hjælper forskere med at kondensere store datasæt til mere læsbare formater.

  • Forenkle struktur: Multivariat analyse hjælper med at forenkle strukturen af ​​komplekse datasæt for lettere læsning og brug.

  • Sorter eller grupper tendenser og data: Forskere bruger multivariat analyse til at sortere grupper eller tendenser af data sammen, så det er nemmere at bruge dataene til det tilsigtede formål.

  • Identificer afhængigheder blandt variabler: Forskere bruger multivariate data til at identificere individuelle afhængigheder blandt datasæt for yderligere at forstå sammenhænge mellem data.

  • Forudsige forhold mellem variable: Multivariat analyse hjælper med at forudsige fremtidige forhold mellem datasæt og fremkomsten af ​​yderligere data givet ændringer i variabler.

  • Konstruer og test hypoteser: Multivariat analyse giver forskere mulighed for at konstruere og teste hypoteser om sammenhængen mellem datasæt, datatendenser og potentielle data for at fremme deres forskning.

Læs mere: 50 statistiske termer at kende (med definitioner)

Hvorfor er multivariat analyse vigtig?

Multivariat analyse er vigtig, fordi der ofte er behov for at finde relationerne mellem hver variabel i et datasæt, men dette kan være en kompleks proces. Vanskeligheden opstår, når datasæt har variabler, der giver forskellige stykker information, såsom et køretøjs hastighed, vægt og retning. Selvom disse faktorer i sig selv kan fortælle dig individuelle oplysninger om bilen, hjælper udførelsen af ​​en multivariat analyse dig med at bestemme, hvordan hver variabel relaterer sig til køretøjet.

Forståelse af disse variabler kan hjælpe dig med at forbedre metoder, forretningsdrift eller samfundspraksis. For eksempel, hvis en multivariat analyse identificerer en sammenhæng mellem medarbejdernes produktivitet og brug af sociale medier, kan virksomheden begrænse sociale mediers tid på arbejdscomputere og få mere produktivitet fra medarbejderne.

Hoveddele af en multivariat analyse

Der er to hoveddele af en multivariat analyse, som er:

Varianten

Varianten er en nøgledel af multivariat analyse, fordi det er den vægtede sum af hver variabel i analysen, udtrykt i følgende formel:

Variant = X1 * W1 + X2 * W2 + X3 * W3 + … + Xn * Wn

Hvert X i formlen er en observeret variabel, og hvert W i formlen er den tilsvarende variabels vægt.

Måleskalaer

Måling af skalaen for hver variabel i multivariat analyse kræver forskellige teknikker, afhængigt af hvordan du måler og den faktiske skala af variablen selv. Dataforskere opdeler typisk information i to kategorier:

Ikke-metrisk

Ikke-metrisk refererer til den kvalitative information, der inkluderer de observerbare, håndgribelige faktorer i en test. Der er to typer ikke-metriske måleskalaer, som er:

  • Nominelle skalaer: Nominelle skalaer tildeler tal eller symboler til objekter for at identificere dem i ligninger og analyse. For eksempel, hvis du måler højde og vægt, kan du tildele et et eller et nul eller et H og et W til hver for at adskille dem.
  • Ordinalskalaer: Ordinalskalaer rangerer variabler efter mængder for at skabe et stigende eller faldende mønster. Du kan kun måle disse variable med større end, mindre end eller lig med symboler.

Metrisk

Metrisk eller kvantitativ information omfatter målbare og definitive matematiske løsninger. Her er to slags metriske skalaer:

  • Intervalskalaer: Intervalskalaer hjælper dataforskere med at måle data i form af størrelse i stedet for logiske operationer. For eksempel, hvis du måler vejrets hastighed på tre forskellige overflader, kan du måle hastigheden på hver overflade og forskellen mellem hver eller ethvert sæt af to, som ville udgøre intervallerne.
  • Forholdsskalaer: Forholdsskalaer har en absolut nulværdi, eller du kan måle dem som et numerisk nul. Hvert punkt har et lige interval mellem andre punkter. For eksempel, hvis du måler hastighed i miles eller kilometer i timen, er der et jævnt interval mellem hver kilometer, du rejser i timen.

Relateret: Top dataanalytiker interviewspørgsmål

Hvilke teknikker kan du bruge til at udføre en multivariat analyse?

Der er mange teknikker til at udføre multivariat analyse på datasæt, herunder:

Multipel regressionsanalyse

En multipel regressionsanalyse udforsker eller forklarer forholdet mellem flere uafhængige variable og en enkelt afhængig variabel eller kontrol. Multipel regressionsanalyse kræver to eller flere uafhængige variable. Du kan udtrykke en multipel regressionsanalyse i denne formel:

y = b1x1 + b2x2 + … + bnxn

I denne formel er "y" den multiple regressionsværdi, og forekomsterne af "b" nedskrevne repræsenterer regressionskoefficienter eller værdien af ​​en ændring i den afhængige variabel, når de uafhængige variabler ændres.

Læs mere: Multipel regressionsanalyse: Definition og hvordan man beregner

Diskriminerende analyse

Diskrimineringsanalyse bruger en eller flere kvantitative prædiktorvariabler til at klassificere observationer i grupper af data, der ikke overlapper. Hvis en lærer for eksempel ønsker at identificere, hvilke af deres elever der kan bestå de kommende eksamener, kan de overveje personlige faktorer som studievaner, aktuelle karakterer i faget og eksamensfærdigheder. Disse informationsgrupper overlapper muligvis ikke normalt, men de bidrager til den ønskede forudsigelse, som er, hvor mange studerende der kan bestå eksamen. Diskriminerende analyse kræver typisk mindst to grupper, men du kan også bruge den til flere grupper.

Multivariat variansanalyse

Den multivariate variansanalyse, eller MANOVA, er en multivariat analyseteknik, der måler virkningerne af flere uafhængige variable på flere afhængige variable. For eksempel kan du bruge MANOVA til at måle stressniveauet hos medarbejdere, der arbejder seks, otte og 10 timers vagter. Dine uafhængige variabler ville være niveauet af stress, hver medarbejder oplever, som du kan klassificere som ikke stresset, moderat stresset og alvorligt stresset. Dine afhængige variabler kunne være dine skiftlængder, identificeret med tilsvarende tal.

Relateret: 10 typer af variabler i forskning og statistik

Kanonisk korrelation

En kanonisk korrelationsanalyse eller CCA er en metode til at måle sammenhængen mellem to sæt individuelle variabler. Brugen af ​​kanonisk korrelationsanalyse hjælper datavidenskabsmænd med at bestemme, hvor mange dimensioner eller kanoniske variabler, de skal bruge for at finde sammenhængen mellem variablerne. For eksempel, hvis en forsker indsamler flere datasæt om patienters alder, køn og vægt, kan de bruge kanonisk korrelationsanalyse til at bestemme sammenhængen, hvis nogen, mellem disse variabler.

Kresten Mølgaard
Kresten Mølgaard Analyse af datasæt kræver ofte forskellige tilgange baseret på de data, du analyserer, og antallet af variabler, du undersøger. Nøjagtige resultater afhænger typisk af analysemetoden og den forståelse, forskeren har af, hvordan variabler fungerer sammen i datasæt. At forstå, hvad multivariat analyse er inden for datavidenskab, kan hjælpe dig med at planlægge datasæt med mere end én variabel, så du kan generere mere nøjagtige analyseresultater. I denne artikel udforsker vi multivariat analyse, forklarer dens betydning og diskuterer flere teknikker til at udføre en effektiv analyse af din egen.