Lisää

Luo klustereita käyttämällä pitkää ja lat

Luo klustereita käyttämällä pitkää ja lat


Minulla on noin 4000 myymälää eri puolilla maata. Pitkän/leveän matkan ja liiketoimintatason perusteella haluan luoda noin 200 klusteria, jotka kumpikin voivat hallita 15–25 myymälää. Haluan tietää, miten edetä tässä löytääkseni nämä 200 klusteria. Onko mahdollista tehdä tämä? Jos on ehdotuksia, antakaa vinkkejä miten edetä asiassa.


Luo klustereita käyttämällä pitkiä ja leveitä paikkatietojärjestelmiä

Tutustu paikkatietoanalyysien ja kartografian maailmaan paikkatietojärjestelmien (GIS) avulla. Tällä luokalla opit alan johtavan ohjelmistotyökalun, ArcGISin, perusteet neljän viikon mittaisten moduulien aikana: Viikko 1: Opi kuinka GIS kasvoi paperikartoista nykypäivän maailmanlaajuisesti integroituihin elektronisiin ohjelmistopaketteihin. Asennat ArcGISin tietokoneellesi ja opit käyttämään online -apua vastaamaan teknisiin kysymyksiin. Viikko 2: Avaa ArcGIS ja tutustu tietoihin ArcMapin avulla. Opi GIS: n peruskäsitteet, tietojen analysointi ja ensimmäisen kartan luominen. Viikko 3: Tee omat karttasi! Symboloi dataa ja luo silmiinpistävä lopputuote. Viikko 4: Jaa tietosi ja karttasi ja opi tallentamaan ja järjestämään tiedot. Ota GIS -perusteet itsenäiseksi kurssiksi tai osana paikkatietojärjestelmien (GIS) erikoistumista. Suorittamalla ensimmäisen luokan erikoistumisella saat tarvittavat taidot menestyäksesi koko ohjelmassa. Opiskelijat, jotka tarvitsevat ArcGIS-lisenssin, saavat ei-kaupallisen 1 vuoden opiskelijalisenssin osallistuakseen tähän kurssiin ja erikoistumiseen.


Sisällys

Käsitettä "klusteri" ei voida määritellä tarkasti, mikä on yksi syy siihen, miksi klusterointialgoritmeja on niin paljon. [5] On yhteinen nimittäjä: joukko dataobjekteja. Eri tutkijat käyttävät kuitenkin erilaisia ​​klusterimalleja, ja kullekin näistä klusterimalleista voidaan jälleen antaa erilaisia ​​algoritmeja. Eri algoritmien löytämä klusterin käsite vaihtelee merkittävästi sen ominaisuuksissa. Näiden "klusterimallien" ymmärtäminen on avain eri algoritmien erojen ymmärtämiseen. Tyypillisiä klusterimalleja ovat:

  • Yhteysmalli s: esimerkiksi hierarkkinen klusterointi rakentaa malleja etäyhteyden perusteella.
  • Centroid -malli: esimerkiksi k-keskiarvoalgoritmi edustaa jokaista klusteria yhdellä keskivektorilla.
  • Jakelumalli s: klustereita mallinnetaan käyttämällä tilastollisia jakaumia, kuten odotusten maksimointialgoritmin käyttämiä monimuuttujaisia ​​normaalijakaumia.
  • Tiheysmalli s: esimerkiksi DBSCAN ja OPTICS määrittävät klusterit datatilan yhdistetyiksi tiheiksi alueiksi.
  • Avaruusmalli s: kaksoisryhmittelyssä (tunnetaan myös nimellä rinnakkaisryhmittely tai kaksimuotoinen klusterointi) klustereita mallinnetaan sekä klusterin jäsenillä että asiaankuuluvilla määritteillä.
  • Ryhmämalli s: jotkin algoritmit eivät tarjoa hienostunutta mallia tuloksilleen, vaan antavat vain ryhmitystiedot.
  • Kuvaajapohjainen malli: klikkiä, toisin sanoen kaavion solmujen osajoukkoa siten, että osajoukon jokainen solmu on yhdistetty reunalla, voidaan pitää klusterin prototyyppisenä muotona. Täydellisen liitettävyysvaatimuksen rentoutumista (murto-osa reunoista voi puuttua) kutsutaan kvaziklikkeiksi, kuten HCS-klusterointialgoritmissa.
  • Signeeratut kaaviomallit: Allekirjoitetun kaavion jokaisella polulla on merkki reunoilla olevien merkkien tulosta. Tasapainoteorian oletusten mukaan reunat voivat muuttaa merkkiä ja johtaa haarautuneeseen kuvaajaan. Heikompi "klusteri -aksiooma" (yhdelläkään syklillä ei ole täsmälleen yhtä negatiivista reunaa) tuottaa tuloksia, joissa on enemmän kuin kaksi klusteria tai osakaavioita, joissa on vain positiiviset reunat. [6]
  • Hermomalli s: tunnetuin valvomaton neuroverkko on itseorganisoitu kartta, ja nämä mallit voidaan yleensä luonnehtia samankaltaisiksi yhden tai useamman yllä olevan mallin kanssa, ja ne sisältävät aliavaruusmalleja, kun hermoverkot toteuttavat pääkomponenttien analyysin tai riippumattoman komponentti-analyysin.

"Klusterointi" on olennaisesti joukko tällaisia ​​klustereita, jotka yleensä sisältävät kaikki tietojoukon objektit. Lisäksi se voi määrittää klustereiden suhteen toisiinsa, esimerkiksi toisiinsa upotettujen klustereiden hierarkian. Ryhmittymät voidaan erottaa karkeasti seuraavasti:

  • Kova klusterointi : kukin objekti kuuluu klusteriin tai ei
  • Pehmeä klusterointi (myös:
  • sumea klusterointi): jokainen objekti kuuluu jokaiseen klusteriin jossain määrin (esimerkiksi todennäköisyys kuulua klusteriin)

On myös hienompia eroja, esimerkiksi:

  • Tiukka osiointi klusterointi : jokainen objekti kuuluu täsmälleen yhteen klusteriin
  • Tiukka osiointi klusteroimalla poikkeavuuksilla : objektit voivat myös kuulua mihinkään klusteriin, ja niitä pidetään poikkeavina
  • Päällekkäinen klusterointi (myös: vaihtoehtoinen ryhmittely, moninäkymäinen klusterointi): objektit voivat kuulua useampaan kuin yhteen klusteriin, johon yleensä kuuluu kovia klustereita
  • Hierarkinen klusterointi : aliryhmään kuuluvat objektit kuuluvat myös pääklusteriin
  • Aliavaruuden klusterointi: Vaikka päällekkäinen klusterointi yksilöllisesti määritellyn alitilan sisällä, klustereiden ei odoteta menevän päällekkäin

Kuten edellä on lueteltu, klusterointialgoritmit voidaan luokitella niiden klusterimallin perusteella. Seuraavassa katsauksessa luetellaan vain merkittävimmät esimerkit klusterointialgoritmeista, koska mahdollisesti on julkaistu yli 100 klusterointialgoritmia. Kaikki eivät tarjoa malleja klustereilleen, joten niitä ei voida helposti luokitella. Yleiskatsaus Wikipediassa selitettyihin algoritmeihin löytyy tilastoalgoritmien luettelosta.

Objektiivisesti "oikeaa" klusterointialgoritmia ei ole, mutta kuten todettiin, "klusterointi on katsojan silmässä". [5] Sopivin klusterointialgoritmi tietylle ongelmalle on usein valittava kokeellisesti, ellei ole matemaattista syytä suosia yhtä klustermallia toista. Eräänlaista mallia varten suunniteltu algoritmi epäonnistuu yleensä tietojoukossa, joka sisältää täysin erilaista mallia. [5] Esimerkiksi k-keskiarvot eivät löydä ei-kuperia klustereita. [5]

Yhteyspohjainen klusterointi (hierarkkinen klusterointi) Muokkaa

Yhteyspohjainen klusterointi, joka tunnetaan myös nimellä hierarkkinen klusterointi, perustuu ydinideaan siitä, että esineet liittyvät enemmän läheisiin kohteisiin kuin kauempana oleviin kohteisiin. Nämä algoritmit yhdistävät "objektit" muodostaakseen "klustereita" niiden etäisyyden perusteella. Ryhmää voidaan kuvata suurelta osin klusterin osien yhdistämiseen tarvittavalla maksimietäisyydellä. Eri etäisyyksillä muodostuu erilaisia ​​klustereita, jotka voidaan esittää käyttämällä dendrogrammia, joka selittää, mistä yleinen nimi "hierarkkinen klusterointi" tulee: nämä algoritmit eivät tarjoa yksittäistä osiota tietojoukosta, vaan tarjoavat laajan hierarkian klustereita, jotka sulautuvat toisiinsa tietyillä etäisyyksillä. Dendrogrammissa y-akseli merkitsee etäisyyden, jolla klusterit sulautuvat, kun taas objektit on sijoitettu x-akselia pitkin siten, että klusterit eivät sekoitu.

Yhteyspohjainen klusterointi on koko joukko menetelmiä, jotka eroavat etäisyyksien laskentatavasta. Tavallisen etäisyystoiminnon valinnan lisäksi käyttäjän on myös päätettävä käytettävästä sidoskriteeristä (koska klusteri koostuu useista objekteista, etäisyyden laskemiseen on useita ehdokkaita). Suosittuja vaihtoehtoja tunnetaan nimellä yksilinkkinen klusterointi (objektin etäisyyksien minimi), täydellinen linkkiryhmittely (kohteen etäisyyksien enimmäismäärä) ja UPGMA tai WPGMA ("Painotamaton tai painotettu pariryhmämenetelmä aritmeettisella keskiarvolla", joka tunnetaan myös nimellä keskimääräinen linkitys klusterointi). Lisäksi hierarkkinen klusterointi voi olla agglomeratiivinen (alkaen yksittäisistä elementeistä ja koota ne klustereiksi) tai jakautuva (alkaen täydellisestä tietojoukosta ja jakamalla se osioiksi).

Nämä menetelmät eivät tuota tietojoukon yksilöllistä osiota, vaan hierarkian, josta käyttäjän on vielä valittava sopivat klusterit. Ne eivät ole kovin kestäviä poikkeamia kohtaan, jotka joko näkyvät lisäklustereina tai jopa aiheuttavat muiden klustereiden sulautumisen (tunnetaan nimellä "ketjutusilmiö", erityisesti yksilinkkinen klusterointi). Yleisessä tapauksessa monimutkaisuus on O (n 3) < displaystyle < mathcal > (n^<3>)> agglomeratiiviselle klusteroinnille ja O (2 n - 1) < displaystyle < mathcal >(2^)> jakautuvaan klusterointiin [7], mikä tekee niistä liian hitaita suurille tietojoukoille. Joissakin erityistapauksissa optimaalisesti tehokkaat menetelmät (monimutkaisuus O (n 2) < displaystyle < mathcal > (n^<2>)>) tunnetaan: SLINK [8] yhdyslinkillä ja CLINK [9] täydellisen linkityksen klusteroinnilla. Tiedonlouhintayhteisössä nämä menetelmät tunnustetaan klusterianalyysin teoreettiseksi perustana, mutta niitä pidetään usein vanhentuneina. viite Tarvitaan ]. Ne kuitenkin inspiroivat monia myöhempiä menetelmiä, kuten tiheyspohjaista klusterointia.

Yksittäinen yhteys Gaussin tietoihin. 35 klusterilla suurin klusteri alkaa sirotella pienemmiksi osiksi, mutta ennen sitä se oli edelleen yhteydessä toiseksi suurimpaan yhden linkin vaikutuksen vuoksi.

Yksittäissidos tiheyspohjaisissa klustereissa. 20 klusteria, joista suurin osa sisältää yksittäisiä elementtejä, koska linkkien ryhmittelyssä ei ole käsitettä "melu".

Centroid-pohjainen klusterointi Muokkaa

Keskipohjaisessa klusteroinnissa klustereita edustaa keskivektori, joka ei välttämättä ole tietojoukon jäsen. Kun klustereiden lukumäärä on kiinteä k, k-tarkoittaa klusterointia antaa muodollisen määritelmän optimointitehtäväksi: etsi k klusterikeskukset ja kohdista objektit lähimpään klusterikeskukseen siten, että etäisyydet klusterista minimoidaan.

Itse optimointitehtävän tiedetään olevan NP-kova, joten yleinen lähestymistapa on etsiä vain likimääräisiä ratkaisuja. Erityisen tunnettu likimääräinen menetelmä on Lloydin algoritmi, [10] jota usein kutsutaan vain "k-tarkoittaa algoritmia"(vaikka toinen algoritmi esitteli tämän nimen.) Se löytää kuitenkin vain paikallisen optimin, ja se suoritetaan yleensä useita kertoja eri satunnaisilla alustuksilla. k-keinot sisältävät usein sellaisia ​​optimointeja, kuten useista ajoista parhaan valitseminen, mutta myös keskipisteiden rajoittaminen tietojoukon jäseniin (k-lääkkeet), valitsemalla mediaanit (k-medians klustering), valitsemalla alkukeskukset vähemmän satunnaisesti (k-välineitä ++) tai sumean klusterimäärityksen salliminen (sumea c-keskiarvo).

Suurin osa k-keinotyyppiset algoritmit vaativat klustereiden määrän- k - määritettävä etukäteen, mikä on yksi näiden algoritmien suurimmista haitoista. Lisäksi algoritmit suosivat suunnilleen samankokoisia klustereita, koska ne osoittavat aina objektin lähimpään sentroidiin. Tämä johtaa usein väärin leikattuihin klustereihin (mikä ei ole yllättävää, koska algoritmi optimoi klusterikeskuksia, ei klusterin reunoja).

K-merkillä on useita mielenkiintoisia teoreettisia ominaisuuksia. Ensinnäkin se jakaa datatilaa rakenteeseen, joka tunnetaan Voronoi -kaaviona. Toiseksi se on käsitteellisesti lähellä lähimmän naapurin luokitusta, ja sellaisena se on suosittu koneoppimisessa. Kolmanneksi sitä voidaan pitää mallipohjaisen klusteroinnin muunnelmana ja Lloydin algoritmia muunnelmana tämän mallin odotusten maksimointialgoritmista, jota käsitellään alla.

k-tarkoittaa tietojen erottamista Voronoi-soluiksi, mikä olettaa samankokoisia klustereita (ei riitä tässä)

k-välineet eivät voi edustaa tiheyspohjaisia ​​klustereita

Centroid-pohjaiset klusterointiongelmat, kuten k-tarkoittaa ja k-medoidit ovat erikoistapauksia kapasiteettittomaan, metriseen laitoksen sijaintiongelmaan, kanoniseen ongelmaan operaatiotutkimuksessa ja laskennallisessa geometriayhteisössä. Peruslaitoksen sijaintiongelmassa (josta on lukuisia muunnelmia, jotka mallinnavat tarkempia asetuksia) tehtävänä on löytää parhaat varastopaikat tietyn kuluttajajoukon optimaaliseksi palvelemiseksi. "Varastoja" voidaan pitää klusterikeskuksina ja "kuluttajapaikkoja" ryhmittyvänä datana. Tämä mahdollistaa hyvin kehitettyjen algoritmiratkaisujen soveltamisen laitoksen sijaintikirjallisuudesta tällä hetkellä pidettyyn keskipohjaiseen klusterointiongelmaan.

Jakeluun perustuva klusterointi Muokkaa

Tilastoihin lähinnä liittyvä klusterointimalli perustuu jakelumalleihin. Rypäleet voidaan sitten helposti määritellä objekteiksi, jotka kuuluvat todennäköisimmin samaan jakaumaan. Tämän lähestymistavan kätevä ominaisuus on, että tämä muistuttaa läheisesti tapaa, jolla keinotekoisia tietojoukkoja luodaan: ottamalla näytteitä satunnaisista objekteista jakaumasta.

Vaikka näiden menetelmien teoreettinen perusta on erinomainen, ne kärsivät yhdestä keskeisestä ongelmasta, joka tunnetaan nimellä ylikoko, ellei mallin monimutkaisuutta rajoiteta. Monimutkaisempi malli pystyy yleensä selittämään tiedot paremmin, mikä tekee sopivan mallin monimutkaisuuden valitsemisesta luonnostaan ​​vaikeaa.

Yksi merkittävä menetelmä tunnetaan Gaussin seosmalleina (käyttäen odotusten maksimointialgoritmia). Tässä tietojoukossa mallinnetaan yleensä kiinteä (välttääkseen liiallisen asennuksen) Gaussin jakaumat, jotka alustetaan satunnaisesti ja joiden parametrit on iteratiivisesti optimoitu vastaamaan paremmin tietojoukkoa. Tämä lähenee paikallista optimumia, joten useat ajot voivat tuottaa erilaisia ​​tuloksia. Voimakkaan klusteroinnin aikaansaamiseksi objektit määritetään usein Gaussin jakaumaan, johon ne todennäköisimmin kuuluvat pehmeille ryhmittymille, tämä ei ole välttämätöntä.

Jakeluun perustuva klusterointi tuottaa klustereille monimutkaisia ​​malleja, jotka voivat kaapata korrelaation ja riippuvuuden määritteiden välillä. Nämä algoritmit asettavat kuitenkin ylimääräisen taakan käyttäjälle: monille todellisille tietojoukoille ei välttämättä ole ytimekkäästi määriteltyä matemaattista mallia (esim. Olettaen, että Gaussin jakaumat ovat melko vahva olettamus tiedoista).

Tiheyspohjaisia ​​klustereita ei voida mallintaa Gaussin jakaumilla

Tiheyspohjainen klusterointi Muokkaa

Tiheyspohjaisessa klusteroinnissa [11] klusterit määritellään alueiksi, joiden tiheys on suurempi kuin muu tietojoukko. Harvinaisilla alueilla sijaitsevia kohteita - joita tarvitaan klustereiden erottamiseen - pidetään yleensä melu- ja rajapisteinä.

Suosituin [12] tiheyspohjainen klusterointimenetelmä on DBSCAN. [13] Toisin kuin monet uudemmat menetelmät, siinä on hyvin määritelty klusterimalli nimeltä "tiheys-saavutettavuus". Samoin kuin linkityspohjainen klusterointi, se perustuu yhteyspisteisiin tietyillä etäisyyskynnyksillä. Se kuitenkin yhdistää vain pisteet, jotka täyttävät tiheyskriteerin, alkuperäisessä variantissa, joka on määritelty vähimmäismääränä muita tämän säteen sisällä olevia kohteita. Ryhmä koostuu kaikista tiheyteen kytketyistä objekteista (jotka voivat muodostaa mielivaltaisen muodon klusterin, toisin kuin monet muut menetelmät) sekä kaikista kohteista, jotka ovat näiden objektien alueella. Toinen mielenkiintoinen DBSCAN -ominaisuus on, että sen monimutkaisuus on melko vähäinen - se vaatii lineaarisen valikoiman tietokannan aluekyselyitä - ja että se löytää olennaisesti samat tulokset (se on deterministinen ydin- ja kohinapisteille, mutta ei rajapisteille) jokaisen ajon aikana, joten sitä ei tarvitse suorittaa useita kertoja. OPTICS [14] on DBSCAN: n yleistys, joka poistaa tarpeen valita sopiva arvo alueparametrille ε < displaystyle varepsilon> ja tuottaa hierarkisen tuloksen, joka liittyy linkkien ryhmittelyyn. DeLi-Clu, [15] Density-Link-Clustering yhdistää ideoita yksittäisen linkin klusteroinnista ja OPTICS-järjestelmästä, eliminoi ε < displaystyle varepsilon> -parametrin kokonaan ja tarjoaa suorituskyvyn parannuksia OPTICSiin verrattuna käyttämällä R-puu-indeksiä.

DBSCANin ja OPTICSin tärkein haittapuoli on, että he odottavat jonkinlaista tiheyden laskua tunnistavan klusterin rajat. Tietojoukoissa, joissa on esimerkiksi päällekkäisiä Gaussin jakaumia - yleinen tapaus keinotekoisessa datassa - näiden algoritmien tuottamat klusterin reunat näyttävät usein mielivaltaisilta, koska klusterin tiheys pienenee jatkuvasti. Gaussilaisten seoksista koostuvassa tietojoukossa nämä algoritmit ovat lähes aina parempia sellaisilla menetelmillä kuin EM -klusterointi, jotka kykenevät mallintamaan tarkasti tällaista dataa.

Keskimääräinen siirtymä on klusterointimenetelmä, jossa jokainen kohde siirretään lähimpään tiheimpään alueeseen ytimen tiheyden arvioinnin perusteella. Lopulta objektit lähentyvät paikallisia tiheyden maksimia. Samoin kuin k-keskusten klusterointi, nämä "tiheysanturit" voivat toimia tietojoukon edustajina, mutta keskimääräinen muutos voi havaita mielivaltaisen muotoisia klustereita, jotka ovat samanlaisia ​​kuin DBSCAN. Kalliista iteratiivisesta menettelystä ja tiheyden arvioinnista johtuen keskimääräinen siirtymä on yleensä hitaampi kuin DBSCAN tai k-Means. Lisäksi ytimen tiheyden estimaatin epätasainen käyttäytyminen estää keskimääräisen siirtoalgoritmin soveltuvuuden moniulotteiseen dataan, mikä johtaa klusterin pyrstöjen liialliseen pirstoutumiseen. [15]

Tiheyspohjainen klusterointi DBSCANin avulla.

DBSCAN olettaa saman tiheyden klustereita, ja sillä voi olla ongelmia lähellä olevien klustereiden erottamisessa

OPTICS on DBSCAN -muunnelma, joka parantaa eri tiheysryhmien käsittelyä

Ruudukkoon perustuva klusterointi Muokkaa

Ruudukkoon perustuvaa tekniikkaa käytetään moniulotteiseen tietojoukkoon. [16] Tässä tekniikassa luomme ruudukkorakenteen, ja vertailu suoritetaan ruuduille (tunnetaan myös nimellä solut). Ruudukkoon perustuva tekniikka on nopea ja sen laskennallinen monimutkaisuus on pieni. Ruudukkoon perustuvia klusterointimenetelmiä on kahdenlaisia: STING ja CLIQUE. Ruudukkopohjaisen klusterointialgoritmin vaiheet ovat:

  1. Jaa datatila rajalliseen määrään soluja.
  2. Valitse satunnaisesti solu "c", jossa c: tä ei pitäisi kulkea etukäteen.
  3. Laske tiheys "c"
  4. Jos tiheys "c" on suurempi kuin kynnystiheys
    1. Merkitse solu "c" uudeksi klusteriksi
    2. Laske c: n kaikkien naapureiden tiheys
    3. Jos naapurisolun tiheys on suurempi kuin kynnystiheys, lisää solu klusteriin ja toista vaiheet 4.2 ja 4.3, kunnes naapuria, jonka tiheys on suurempi kuin kynnystiheys, ei ole.

    Viimeaikaiset tapahtumat Muokkaa

    Viime vuosina on tehty paljon työtä nykyisten algoritmien suorituskyvyn parantamiseksi. [17] [18] Niitä ovat mm CLARANS, [19] ja KOIVU. [20] Koska viime aikoina on tarpeen käsitellä yhä suurempia tietojoukkoja (tunnetaan myös nimellä big data), halukkuus vaihtaa tuotettujen klustereiden semanttisia merkityksiä suorituskyvylle on kasvanut. Tämä johti sellaisten esiklusterointimenetelmien kehittämiseen, kuten katoksen klusterointi, jotka voivat käsitellä valtavia tietojoukkoja tehokkaasti, mutta tuloksena olevat "klusterit" ovat vain karkea esiosiointi tietojoukosta, jotta osiot voidaan analysoida olemassa olevilla hitaammilla menetelmillä, kuten k-tarkoittaa klusterointia.

    Suurikokoisen datan osalta monet nykyisistä menetelmistä epäonnistuvat ulottuvuuden kirouksen vuoksi, mikä tekee tietyistä etäisyystoiminnoista ongelmallisia suurulotteisissa tiloissa. Tämä johti uusiin suurikokoisten tietojen ryhmittelyalgoritmeihin, jotka keskittyvät aliavaruuden klusterointiin (jossa käytetään vain joitain määritteitä ja klusterimallit sisältävät klusterin määritteet) ja korrelaatioklusterointiin, joka etsii myös mielivaltaisesti kierrettyä ("korreloitua") aliavaruutta klustereita, joita voidaan mallintaa antamalla niiden ominaisuuksien korrelaatio. [21] Esimerkkejä tällaisista klusterointialgoritmeista ovat CLIQUE [22] ja SUBCLU. [23]

    Ideoita tiheyspohjaisista klusterointimenetelmistä (erityisesti DBSCAN/OPTICS-algoritmiperheestä) on mukautettu aliavaruuden klusterointiin (HiSC, [24] hierarkkinen aliavaruuden klusterointi ja DiSH [25]) ja korrelaatioklusterointiin (HiCO, [26] hierarkkinen korrelaatio) klusterointi, 4C [27] käyttämällä "korrelaatioyhteyttä" ja ERiC [28], joka tutkii hierarkkisia tiheyspohjaisia ​​korrelaatioklustereita).

    On ehdotettu useita erilaisia ​​keskinäiseen tietoon perustuvia klusterointijärjestelmiä. Yksi on Marina Meilă tiedon vaihtelu metrinen [29] toinen tarjoaa hierarkkisen klusteroinnin. [30] Geneettisten algoritmien avulla voidaan optimoida laaja valikoima erilaisia ​​sovitustoimintoja, mukaan lukien keskinäiset tiedot. [31] Myös uskomusten leviäminen, tietojenkäsittelytieteen ja tilastollisen fysiikan viimeaikainen kehitys, on johtanut uudenlaisten klusterointialgoritmien luomiseen. [32]

    Klusterointitulosten arviointi (tai "validointi") on yhtä vaikeaa kuin itse klusterointi. [33] Suosittuihin lähestymistapoihin kuuluu "sisäinen"arviointi, jossa klusterointi tiivistetään yhteen laatupisteeseen"ulkoinen"arviointi, jossa klusterointia verrataan olemassa olevaan" maallisen totuuden "luokitukseen,"käsikirja"ihmisen asiantuntijan arviointi ja"epäsuora"arviointi arvioimalla klusteroinnin hyödyllisyyttä aiotussa sovelluksessa. [34]

    Sisäiset arviointitoimenpiteet kärsivät ongelmasta, koska ne edustavat toimintoja, joita voidaan pitää klusterointitavoitteena. Voitaisiin esimerkiksi ryhmitellä tietojoukko siluettikertoimen avulla, paitsi että tähän ei ole tunnettua tehokasta algoritmia. Käyttämällä tällaista sisäistä mittausta arvioinnissa verrataan pikemminkin optimointitehtävien samankaltaisuutta [34] eikä välttämättä klustereiden hyödyllisyyttä.

    Ulkoisella arvioinnilla on samankaltaisia ​​ongelmia: jos meillä on tällaisia ​​"totuuden perusmerkintöjä", meidän ei tarvitse ryhmittyä ja käytännön sovelluksissa meillä ei yleensä ole tällaisia ​​merkkejä. Toisaalta tarroissa näkyy vain yksi mahdollinen tietojoukon osiointi, mikä ei tarkoita sitä, että erilaista ja ehkä jopa parempaa klusterointia ei ole olemassa.

    Kumpikaan näistä lähestymistavoista ei näin ollen voi lopulta arvioida ryhmittymän todellista laatua, mutta tämä edellyttää ihmisen arviointia [34], mikä on erittäin subjektiivista. Tällaiset tilastot voivat kuitenkin olla varsin informatiivisia tunnistettaessa huonoja klustereita [35], mutta ei pidä hylätä ihmisten subjektiivista arviointia. [35]

    Sisäinen arviointi Muokkaa

    Kun klusterointitulos arvioidaan itse klusteroitujen tietojen perusteella, tätä kutsutaan sisäiseksi arvioinniksi. Nämä menetelmät antavat yleensä parhaan pistemäärän algoritmille, joka tuottaa klustereita, joilla on suuri samankaltaisuus klusterin sisällä ja pieni samankaltaisuus klustereiden välillä. Yksi haittapuoli sisäisten kriteerien käyttämisessä klusterin arvioinnissa on, että korkeat pisteet sisäisestä mittauksesta eivät välttämättä johda tehokkaaseen tiedonhakusovellukseen. [36] Lisäksi tämä arviointi kohdistuu algoritmeihin, jotka käyttävät samaa klusterimallia. Esimerkiksi k-keskusten ryhmittely optimoi luonnollisesti kohteen etäisyydet, ja etäisyyteen perustuva sisäinen kriteeri todennäköisesti yliarvioi tuloksena olevan ryhmittelyn.

    Siksi sisäiset arviointimenetelmät sopivat parhaiten saamaan jonkinlaisen käsityksen tilanteista, joissa yksi algoritmi toimii paremmin kuin toinen, mutta tämä ei saa merkitä sitä, että yksi algoritmi tuottaa enemmän päteviä tuloksia kuin toinen. [5] Tällaisella indeksillä mitattu pätevyys riippuu väitteestä, jonka mukaan tällainen rakenne on tietojoukossa. Jonkinlaisille malleille suunnitellulla algoritmilla ei ole mahdollisuutta, jos tietojoukko sisältää täysin erilaisia ​​malleja tai jos arviointi mittaa radikaalisti erilaisen kriteerin. [5] Esimerkiksi k-keskusten klusterointi voi löytää vain kuperia klustereita, ja monet arviointi-indeksit olettavat kuperat klusterit. Tietojoukossa, jossa ei-kupera klustereita, ei käytetä k-välineet eivätkä arviointikriteerit, joissa oletetaan kupera, ovat järkeviä.

    On olemassa yli tusina sisäistä arviointitoimenpidettä, jotka yleensä perustuvat siihen käsitykseen, että saman klusterin kohteiden tulisi olla samankaltaisempia kuin eri klustereiden kohteet. [37]: 115–121 Esimerkiksi seuraavia menetelmiä voidaan käyttää klusterointialgoritmien laadun arvioimiseen sisäisen kriteerin perusteella:

    Ulkoinen arviointi Muokkaa

    Ulkoisessa arvioinnissa klusterointitulokset arvioidaan tietojen perusteella, joita ei käytetty klusterointiin, kuten tunnetut luokkatunnisteet ja ulkoiset vertailuarvot. Tällaiset vertailuarvot koostuvat joukosta ennalta luokiteltuja kohteita, ja nämä joukot ovat usein (asiantuntija) ihmisten luomia. Näin ollen vertailuarvosarjoja voidaan ajatella kullan standardina arviointia varten. [33] Tämäntyyppiset arviointimenetelmät mittaavat, kuinka lähellä klusterointi on ennalta määrättyihin vertailuarvoihin. Kuitenkin äskettäin on keskusteltu siitä, riittääkö tämä todellisille tiedoille vai vain synteettisille tietojoukoille, joilla on tosiasiallinen perustelut, koska luokat voivat sisältää sisäisen rakenteen, läsnä olevat määritteet eivät ehkä salli klustereiden erottamista tai luokat voivat sisältää poikkeavuuksia. [39] Lisäksi tiedon löytämisen kannalta tunnetun tiedon tuottaminen ei välttämättä ole toivottu tulos. [39] Rajoitetun klusteroinnin erityisskenaariossa, jossa metatietoja (kuten luokkatunnisteita) käytetään jo klusterointiprosessissa, tietojen säilyttäminen arviointia varten ei ole vähäpätöistä. [40]

    Useita mittauksia mukautetaan luokittelutehtävien arviointiin käytetyistä muunnelmista. Sen sijaan, että laskettaisiin kuinka monta kertaa luokka on oikein määritetty yhdelle tietopisteelle (tunnetaan nimellä tosi positiiviset), parien laskenta mittarit arvioivat, onko kunkin tietopisteparin, joka todella kuuluu samaan klusteriin, ennustettava olevan samassa klusterissa. [33]

    Sisäisen arvioinnin tapaan on olemassa useita ulkoisia arviointitoimenpiteitä [37]: 125–129, esimerkiksi:

    • Puhtaus: Puhtaus on mitta siitä, missä määrin klusterit sisältävät yhden luokan. [36] Sen laskeminen voidaan ajatella seuraavasti: Laske kullekin klusterille tietyn klusterin yleisimmän luokan datapisteiden määrä. Ota nyt summa kaikkien klustereiden päälle ja jaa datapisteiden kokonaismäärällä. Muodollisesti, kun otetaan huomioon jotkut klusterit M < displaystyle M> ja jotkut luokat D < displaystyle D>, molemmat osioivat N < displaystyle N> datapisteet, puhtaus voidaan määritellä seuraavasti:
    • Rand -indeksi[41]

    Yksi Rand -indeksin ongelma on se, että vääriä positiivisia ja vääriä negatiivisia painotetaan yhtä paljon. Tämä voi olla ei -toivottu ominaisuus joillekin klusterointisovelluksille. F-toimenpide vastaa tähän huolenaiheeseen, [ viite Tarvitaan ] samoin kuin satunnaiskorjattu oikaistu Rand-indeksi.

    • F-mitta
    • Jaccard -indeksi
    • Noppaindeksi
    • Fowlkes – Mallows -indeksi[42]
    • keskinäistä tietoa on informaatioteoreettinen mitta siitä, kuinka paljon tietoa jaetaan klusteroinnin ja perusteltujen luokitusten välillä, jotka voivat havaita epälineaarisen samankaltaisuuden kahden klusterin välillä. Normalisoidut keskinäiset tiedot ovat tästä korjattujen sattumanvaraisten varianttien perhe, jolla on pienempi harha eri klusterien lukumäärille. [33]
    • Sekavuusmatriisi

    Klusterin taipumus Muokkaa

    Klusterin taipumuksen mittaaminen on mitata, missä määrin klustereita on ryhmitettävissä tiedoissa, ja ne voidaan suorittaa alkutestinä ennen ryhmittelemistä. Yksi tapa tehdä tämä on verrata tietoja satunnaisiin tietoihin. Satunnaistiedoissa ei saisi olla keskimäärin klustereita.


    Syöpäklusterit

    Lue lisää CDC/ATSDR- ja rsquos -työstä päivittääksemme ohjeita mahdollisten syöpäklustereiden arvioimiseksi ja niihin reagoimiseksi.

    A syöpäklusteri määritellään odotettua suuremmaksi syöpätapausten lukumääräksi, joka esiintyy ihmisryhmän sisällä maantieteellisellä alueella tietyn ajanjakson aikana. Lue lisää syöpäklustereista.

    Paikalliset tai osavaltion terveysosastot sekä syöpärekisterit vastaavat syöpäklusterin kysymyksiin ja heillä on uusimmat paikalliset tiedot. Jos epäilet syöpäryhmää yhteisössäsi tai työpaikallasi tai jos kaipaat tietoja, kuten syöpätilastoja tai alueesi suuntauksia, ota ensin yhteyttä paikalliseen tai osavaltion terveysosastoon tai osavaltion syöpärekisteriin.

    Kun ihmiset ottavat yhteyttä CDC: hen epäillen syöpäklusteria, CDC tarjoaa yleistä tietoa syöpäklustereista ja ohjaa ne asianmukaiseen paikalliseen tai osavaltion terveysosastoon tai syöpärekisteriin. CDC tarjoaa myös teknistä neuvontaa valtioille pyynnöstä ja kehittää osavaltioiden, alueiden, paikallisten ja heimojen terveysosastoille ohjeita siitä, miten vastata syöpäklusterin huolenaiheisiin.


    Saatavuus

    Tämän 3 opintopisteen aineen opiskelijan työmäärä on noin 130 tuntia.

    • 26 tunnin luennot (didaktinen tai interaktiivinen)
    • 26 tuntia harjoituksia
    • arviointi ja itseohjautuva opiskelu

    Tämän 3 opintopisteen aineen opiskelijan työmäärä on noin 130 tuntia.

    Tämän 3 opintopisteen aineen opiskelijan työmäärä on noin 130 tuntia.

    • 26 tunnin luennot (didaktinen tai interaktiivinen)
    • 26 tuntia harjoituksia
    • arviointi ja itseohjautuva opiskelu

    Huomautus: Pieniä vaihteluita saattaa esiintyä jatkuvan aiheen laadun parantamisprosessin vuoksi, ja jos arvioinnin yksityiskohdissa on pieniä muutoksia, aiheen hahmotelma edustaa uusimpia virallisia tietoja.


    Ohjelman tulokset

    • Kuvaile GIS: n peruskäsitteet ja terminologia
    • Keskustelkaa paikkatietojärjestelmän roolista liiketoiminnassa, hallinnossa, maanmittauksessa ja luonnonvaroissa.
    • Luo ja käsittele tietoja ArcView'n avulla
    • Selitä etätunnistuksen periaatteet ja sovellukset.
    • Keskustele globaalien paikannusjärjestelmien (GPS) perusteista, mukaan lukien historia ja sovellukset.
    • Käytä MS Accessia tietojen luomiseen ja käsittelyyn taulukoiden, kyselyiden, lomakkeiden ja relaatiotietokantojen avulla.
    • Suunnittele ja ylläpidä paikkatietojärjestelmää.
    • Keskustele Internet -kartoituksen tyypeistä ja muunnelmista.

    Paikkatietotieteet

    Paikkatietotieteiden perustutkinto- ja jatkotutkintomme ja sertifikaattiohjelmamme valmistavat opiskelijoita työskentelemään nopeasti kasvavalla alalla, johon liittyy teknologian käyttäminen maantieteellisten tietojen keräämiseen, tallentamiseen, hallintaan ja analysointiin. Opiskelijat hankkivat taitoja käyttämällä tekniikoita, kuten paikkatietojärjestelmiä (GIS), maailmanlaajuista paikannusjärjestelmää (GPS) ja satelliittipohjaista kaukokartoitusta.

    Geospatial Information Sciences -ohjelma sijoittui maan 1. sijalle GIScience/Computation and Spatial Analysis/Statistics by Geographic Perspectives. National Geospatial-Intelligence Agency ja Yhdysvaltain geologinen tutkimuslaitos nimittivät ohjelman akateemisen huippuosaamisen keskukseksi, joka on ainoa Teksasissa ja yksi 17: stä valtakunnallisesta, ja Environmental Sciences Research Institute (ESRI) nimesi sen yhdeksi sen kehittämiskeskuksista. Tiedekuntaamme kuuluu alan johtavia asiantuntijoita ja uraauurtavia paikkatietotieteiden tutkijoita.

    Opiskelijoilla on mahdollisuuksia saada kokemusta harjoittelun, tutkimuksen ja opiskelijajärjestöihin osallistumisen kautta. Ohjelma tarjoaa myös apurahoja ja apurahoja yhteistyössä Pioneerin luonnonvarojen kanssa.


    Saatavuus

    Tämän 3 opintopisteen aineen opiskelijan työmäärä on noin 130 tuntia.

    • 26 tunnin luennot (didaktinen tai interaktiivinen)
    • 26 tuntia harjoituksia
    • arviointi ja itseohjautuva opiskelu

    Tämän 3 opintopisteen aineen opiskelijan työmäärä on noin 130 tuntia.

    Tämän 3 opintopisteen aineen opiskelijan työmäärä on noin 130 tuntia.

    • 26 tunnin luennot (didaktinen tai interaktiivinen)
    • 26 tuntia harjoituksia
    • arviointi ja itseohjautuva opiskelu

    Huomautus: Pieniä vaihteluita saattaa esiintyä jatkuvan aiheen laadun parantamisprosessin vuoksi, ja jos arvioinnin yksityiskohdissa on pieniä muutoksia, aiheen hahmotelma edustaa uusimpia virallisia tietoja.


    Rungot ja syöksyhampaat

    Elefanttikorvat säteilevät lämpöä, jotta nämä suuret eläimet pysyvät viileinä, mutta joskus afrikkalainen lämpö on liikaa. Elefantit rakastavat vettä ja nauttivat suihkusta imemällä vettä runkoihinsa ja suihkuttamalla sitä kaikkialle. Afterwards, they often spray their skin with a protective coating of dust.

    An elephant's trunk is actually a long nose used for smelling, breathing, trumpeting, drinking, and also for grabbing things—especially a potential meal. The trunk alone contains about 40,000 muscles. African elephants have two fingerlike features on the end of their trunk that they can use to grab small items. (Asian elephants have just one.)

    Both male and female African elephants have tusks, which are continuously growing teeth. Savanna elephants have curving tusks, while the tusks of forest elephants are straight. They use these tusks to dig for food and water and strip bark from trees. Males, whose tusks tend to be larger than females', also use their tusks to battle one another.

    Elephants eat roots, grasses, fruit, and bark. An adult elephant can consume up to 300 pounds of food in a single day. These hungry animals do not sleep much, roaming great distances while foraging for the large quantities of food that they require to sustain their massive bodies.

    African elephants range throughout the savannas of sub-Saharan Africa and the rainforests of Central and West Africa. The continent’s northernmost elephants are found in Mali’s Sahel Desert. The small, nomadic herd of Mali elephants migrates in a circular route through the desert in search of water.

    Because elephants eat so much, they’re increasingly coming into contact with humans. An elephant can destroy an entire season of crops in a single night. A number of conservation programs work with farmers to help them protect their crops and provide compensation when an elephant does raid them.


    Tietokoneet, ympäristö ja kaupunkijärjestelmät

    Tietokoneet, ympäristö ja kaupunkijärjestelmät is an interdisciplinary journal publishing cutting-edge and innovative computer-based research päällä urban systems, systems of cities, and built and natural environments , that privileges the paikkatieto perspective. The journal provides a stimulating presentation.

    Tietokoneet, ympäristö ja kaupunkijärjestelmät is an interdisciplinary journal publishing cutting-edge and innovative computer-based research päällä urban systems, systems of cities, and built and natural environments , that privileges the paikkatieto perspective. The journal provides a stimulating presentation of perspectives, research developments, overviews of important new technologies and uses of major computational, information-based, and visualization innovations. Applied and theoretical contributions demonstrate the scope of computer-based analysis fostering a better understanding of urban systems, the synergistic relationships between built and natural environments, their spatial scope and their dynamics.

    Application areas include infrastructure and facilities management, physical planning and urban design, land use and transportation, business and service planning, coupled human and natural systems, urban planning, socio-economic development, emergency response and hazards, and land and resource management. Examples of methodological approaches include decision support systems, geocomputation, spatial statistical analysis, complex systems and artificial intelligence, visual analytics and geovisualization, ubiquitous computing, and space-time simulation.

    Contributions emphasizing the development and enhancement of computer-based technologies for the analysis and modeling, policy formulation, planning, and management of environmental and urban systems that enhance sustainable futures are especially sought. The journal also encourages research on the modalities through which information and other computer-based technologies mold environmental and urban systems.

    Audience:
    Urban and regional planners and policy analysts, environmental planners, economic geographers, geospatial information scientists and technologists, regional scientists and policy makers, architectural designers.