Nem tudom lehet-e ilyen 'saját' topicot nyitni itt az indexen, majd kiderül.
Azt a pár topikot amit valamennyire követek a személyes profilom "bejárt topikok" menüjén keresztül, sokszor veszélyeztetem offtopikolással, és ennek szeretnék végetvetni e topikkal. (Ahhoz persze nagyon kevés vagyok, hogy saját blogot nyissak.)
Hát a poén. Hogy ha már egyszer a húrozat és a plektrumok anyagából kifolyólag lantszerű hangja van, akkor legyen már a formája is lantszerű. Meg állítólag van valahol egy régi rajz, ami egy ilyenféle hangszert ábrázol, amiből arra következtetett valaki, hogy vagy létezett ilyen hangszer, vagy nem. ;O) Ennél is érdekesebb kísérlet lenne megépíteni egy "Geigenwerk"-et.
Szia Petyus! :o) Igen ő volt a hangszerkészítő, és ő maga állította. Nem azt, hogy nincs több lantcsembaló, hiszen nekem is van ilyen hangszeres felvételem, hanem, hogy ilyen kategóriájú nincs több. Érdemes lenne megnézned az egész Showder-részletet (talán rajta van/lesz a youtube-on is), nem mindennapi csemege volt.
Egyébként a témánál maradva, konkréten nem igazán látom át a jelentőségét a hangszernek, szemben mondjuk egy másik ritka hagszerrel a baritonéval, noha mindkettő kiment a divatból. A lantét értem, a csembalóét is értem, of course, de mi 'poén' van egy olyan csembalóban, aminek a teste egy lant: amit ráadásul marha nehéz lehet megépíteni.
[****INFORMATIKA****] http://index.hu/tech/net/search5156/ Egy új izraeli keresőmotor a Web 2 előnyeit akarja az internetes keresések piacán kihasználni. A Delver a találati listát az alapján állítja össze, hogy a szociális hálózatainkban a hozzánk közel eső barátaink milyen releváns oldalakat tartanak fontosnak.
Egy újabb érdekes ötlet, ami remekül tudhatja kiegészíteni a szokásos gugli-technikákat, ha nem lenne mögötte kihagyhatatlanul a szokásos ambivalenciát adó "nagy testvér" feeling.
[****ZENE****] Nem mindennapi csemege volt a legutóbbi Fábry Esti Showderben. A dezájn-centerben egy hangszerkészítő mutatott be egy lantcsembalót, amiből állítólag ez az egy van jelenleg a világon (német csembalókiállítás infóiból leszűrve). Ő készítette (rekonstruálta korabeli leírásokból), mintegy két évi munkával. 5 oktávos, két manuálos, csembaló-nagyságú hangszer; a manuál része csembaló, a hangszer teste lant. Maga a hangszerkészítő csomó érdekes infót mondott a hangszerrel kapcsolatban, kapaszkodni kellett, ha valaki érteni akarta... ;) (Fábry még poénkodott is ezen) Természetesen egy hangszeres darab sem maradhatott el; egy nagyon fiatal, nagyon csinos és reprezentatív hölgy játszotta e hangszeren, Bach ismert F-dúr kétszólamú invencióját, az én fülem szerint rendkívül bizonytalanul/lámpalázasan.
Na, végre történik itt valami! Igaz nem sok minden... ;) Nem nagyon van se kedvem, se időm topicolni, noha a hétvégén, azért elengedtem pár hozzászólást.
A verseny lényege (a hozzávaló induló adatok/adatbázisok kis erölködés után megszerezhetők):
Adva van először is egy 20.000 darab képből álló képhalmaz. Képekhez tartozik egy HTML-szerüség, amiben van TITLE, DOCNO (utalás a szöveg nyelvére), DESCRIPTION, NOTES, LOCATION, DATE,
Továbbá adva van 60 darab topic szintén HTML-szerűségként, különféle nyelveken: Angol, Német, Francia, Olasz, Spanyol, Portugál, Dán, Finn, Norvég, Svéd, Orosz, Lengyel, Japán, Kínai(tradicionális & egyszerűsített). Minden topic tartalmaz egy rövid TITLE-t, és egy hosszú NARR-t (narratíva): amiben a kapcsolódó kulcsszavak, kifejezések, mondatok vannak szövegesen leírva, valamint tartalmaz három topichoz tartozó képet(filenevet), a 20.000-s setből.
Feladat: a képek besorolása topicokba, szöveges _és_ képi információk alapján.
Két versenyző cikke (a második XEROX-csapat lett a győztes; és van egy magyar tagja: Csurka Gabriella) ->
Using pseudo-relevance feedback to improve image retrieval results Mouna Torjmen, Karen Pinel-Sauvagnat, Mohand Boughanem IRIT, France http://www.clef-campaign.org/2007/working_notes/torjmenCLEF2007.pdf
XRCEs Participation to ImageCLEFphoto 2007 Stephane Clinchant, Jean-Michel Renders and Gabriela Csurka Xerox Research Centre Europe, France http://www.clef-campaign.org/2007/working_notes/clinchantICLEF2007.pdf
Ami az izgalmas:
- Ha nincs kép, akkor ez egy síma klasszikus szövegosztályozásos feladat.
- Ha nincs szöveg: akkor síma klasszikus képosztályozásos feladat.
- A kérdés az, hogy a módszerek tudják-e egymás eredményit/kimeneteit _erősíteni_. Azaz a döntéshez szükséges számolt súlyokat a _másik_ függvényében módosítani/javítani (relevance-feedback) http://en.wikipedia.org/wiki/Relevance_feedback
- A konklúzió: 3% pseudo-relevance javítás, meglévő rendszerek/komponensek felhasználásával.
- Keyword: Cross-media and cross-lingual information retrieval, pseudo-relevance feedback
- A szövegosztályozás ma még sokkal jobb hatásfokú mint a képi osztályozás.
- Tudható, hogy képek szemantikai elemzése (kék paca->víz) ma még lehetetlen.
- Mi akkor a járható út? Elkészíthető a szövegosztályozás. Képeket össze lehet _hasonlítani_ algoritmikusan és meg lehet mondani, hogy egy képhez melyik másik 5 kép hasonlít a legjobban (TOP5-k). Az így összerendelt képek szöveges információi egy másfajta eredeti előzőtől eltérő szövegosztályozást tesznek lehetővé, aminek a végén a kétféle szövegosztályozás összefésülhető.
- Elöljáróban mondom a távolságot és hasonlóságot szinonimaként használom egymás inverzei, ha már az egyik (bármelyik) megvan, ugyanolyan minöségben, egyszerűen/könnyen számolható a másik.
I. Az első versenyző a meglévő XFIRM(=XML Flexible Information Retrieval MODEL) és a FIRE(Flexible Image Retrieval Engine) képosztályozót használta. Az előbbi saját korábbi munkájuk gyümölcse, amit most is felhasználtak. Szövegosztályozásra a közismert TD-IDF-et használták (kicsit meghackelve a konkrét feladathoz).
Itt egy pároldalas, 'kicsicsázott' prezentáció az XFIRM-ről: XFIRM at INEX Multimedia Track 2006 http://inex.is.informatik.uni-duisburg.de/2006/inex06/slides/TorjmenInex2006.ppt
A legfontosabb: az XML nem pusztán a szöveges információk strukturált reprezentációja, hanem a képeké is. A szöveg és kép együtt-kezelendő benne: ha a dekomponált keresőkifejezés-elem nem-kép akkor XFIRM-COS metódus hívódik, ha kép akkor multimédiás-metódus hívódik (ami az ő esetükben az emlegetett Fire képkezelő-rendszer metódusa, gyakorlatilag).
Adva van egy keresőkifejezés (20.000 képből az egyik) "q", és adva vannak a topic-adatbázis: mindkettő XML-dokumentumokként van ábrázolva, ahol a topicos falevelek a leaf-node-ok "lf". Mindkettőnél (query,topic) tehát szöveg és képi információ együtt található. Definiálható egy RSV (=Relevance Similarity Value), ami egy hasonlósági/távolság érték:
RSV(q,lf) /Ez vezet el a hackelt tf-idf-hez, ha szöveges infót hasonlítunk szöveges infóval/
Magyar nyelvű könyv a TF-IDF-hez: http://szovegbanyaszat.typotex.hu/
A Fire-rendszer, egy diplomamunka eredménye, GNU-licence alatt forráskódostul letölthető, lásd alábbi linket. A rendszer egy távolság-definición alapuló (két kép mennyire hasonlít, vagy különbözik) képosztályozó. Segítségével kilistázható, egy képre leginkább hasonlító (k darab)kép. http://www-i6.informatik.rwth-aachen.de/~deselaers/fire.html
A k-darab legjobb hasonlóságot produkáló képre is elvezet egy hackelt tf-idf-hez. Ahol a kapcsolat, tehát, nem a szöveges információk alapján teremtődött meg, hanem a képi hasonlóság alapján, következésképp más hackelt tf-idf lesz. Azaz lesz egy szöveg alapú RSV, egy képi alapú RSV, meg a végén egy visszacsatolt/kombinált RSV, ami alapján meghozható a döntés, hogy melyik topic fogja 'beszippantani' az adott képet.
A versenyző csapat végül nem csinált más, mint vette a kapott két RSV-eredmény lineáris kombinációját, és ez alapján döntött a legjobb beorolást illetően.
Ez volt a lényegesen egyszerübb történet.
II.a. A Xerox-csapat szövegfeldolgozásként maximum likelihood osztályozást alkalmazott, olvasnivaló hozzá például itt: http://sas2.elte.hu/mg/foldkutatas/7oszt2irany.htm
Ők azonban nem álltak meg itt. Kibővítették/gazdagították a szövegbázist a Flickr képmegosztó site képaláírásaival. (Ez ugye még mindig 100%pure szövegbányászat) http://www.flickr.com/
Ebben ugye az a fantázia, hogy megoldásukba integráltak ezáltal egy képekre működő taxonómiát. A gond csak mindössze annyi, hogy egyáltalán nem bizonyított tény, hogy nagyobbra transzformálás után, jobb is lesz az eredmény, még ha az intuició ezt súgná is.
Például így lehet például "Jesus" másik öt legfontosabb kapcsoló kifejezést találni -> christ, church, cross, religion, god
II.b. Amit képfeldolgozásnál műveltek, az minden képzeletet meghalad. Az alábbiak megértéséhez érteni kell a képfeldolgozáshoz (amihez én például nem értek).
A folytonos vektor-reprezentációból levezehető képhasonlóság definiálásához
- Először is definiáltak minden képhez egy szabályos grid alapján kapott téglalap-képfoltokra öt darab különböző négyzetgyök-kettes skálát.
- A grid 4x4=16-os volt.
- Alacsony szintű szürke és színes SIFT-típusú (=Scale Invariant Feature Transform) jellemzőket határoztak meg.
- A következő lépés a gradiens irányú hisztogrammok. Ezt úgy kell elképzelni, hogy vettek egy grid-kockát és hasonlították a 8 szomszédos kockához és az átmenet irányultságát próbálták meg számokra lefordítani.
- A kapott összesen 128 dimenziót (szinek szorozva histogramok stb.), és ezt a 128 dimenziót 50-re redukálták főkomponens-analizissel (PCA=Principal Komponent Analysis). Lehetséges magyar olvasnivaló az alábbi PhD-disszertáció: http://twilight.vein.hu/phd_dolgozatok/feilbalazs/PhDThesisFeilb.pdf
- A PCA értelme a feature-extraction. Nemcsak a számolási igény csökken általa, hanem a majdani hasonlítás minősége is javulhat a fontosabb jellemzők jobb kiemelésével.
- A legszebb lépés gépi tanulásos (=Machine Learning) Gaussian Mixture Model (GMM) segítségével klaszterizálták/csoportosították a 20.000 képet és felépítettek általa egy vizuális szótárt. Hogy az ilyesmit hogy kell csinálni (angol nyelvű olvasnivaló):
J. Farquhar, S. Szedmak, H. Meng, and J. Shawe-Taylor. Improving “bag-of-keypoints” image categorisation. Technical report, University of Southampton, 2005. http://www.kyb.tuebingen.mpg.de/bs/people/jdrf/download/imageCat.pdf
F. Perronnin, C. Dance, G. Csurka, and M. Bressan. Adapted vocabularies for generic visual categorization. In ECCV, 2006. http://www.cs.utexas.edu/~grauman/courses/spring2007/395T/papers/peronnin_eccv2006.pdf
- Gaussian Mixture Model (GMM)-hez magyar nyelvű olvasnivaló: http://www.sztaki.hu/~szcsaba/talks/lecture3.pdf
- GMM-mel két vizuális szótár lett: kép-textúrák alapján valamint kép-színek alapján.
- Végül következett a Fischer Kernek gradiens-normalizálás. A know-how-t taglaló angol-cikkért sajnos fizetni kell: F. Perronnin and C. Dance. Fisher kernels on visual vocabularies for image categorization. In CVPR, 2007. http://ieeexplore.ieee.org/iel5/4269955/4269956/04270291.pdf?isnumber=4269956&prod=CNF&arnumber=4270291&arSt=1&ared=8&arAuthor=Perronnin%2C+Florent%3B+Dance%2C+Christopher
Összefoglalva egyszerű szavakkal, bulvár-stílusban: A képekről ismert algoritmusokkal, képekre jellemző számvektorok nyerhetők ki, ezen vektorok "gyönggyé kristályosíthatók ki" régóta közismert nem túl bonyolult PCA-val. Majd legvégül gépi tanulással (GMM) speciális vizuális szótár építhető (megőrizve persze a képek egyedi vizuális leírását), ami vizuális szótár fogalom teljesen analóg fogalom (még ha lényegileg tök más is) -> a szövegeknél megszokott szótárhoz.
II.c. Ha kész vagyunk és túl vagyunk a szöveg- és képfeldolgozáson. Akkor jöhet a Cross-Media Similarity (a kettő vegyítésével definált távolság/hasonlóság), visszacsatolással (=feedback) vegyítve.
Ehhez legelöbb is
- Lehet aggregálni a hasonló objektumok/szomszédok hasonlósági értékeit (Similarity) -> lesz így módosított Similarity csoportokra. Illetve a klasszikus Rocchio osztályozóval lehet relevance feedback-et csinálni. /Ez utóbbi az emlegetett Tikk Domonkos könyvben részletesen tárgyalódik/
Angol olvasnivaló a Rocchio-classifier-ről: http://lsdis.cs.uga.edu/~bilal/courses/fall2004/8350/presentations/text_cat_bilal.ppt
- A Cross-Media Similarity-hoz vezető út következő állomása a "Multimodal" "LM"(=Language Modelling) és a "Complementary Feedback" definiálása és megértése. Sajnos ezek a témák már minden szinten meghaladták a befogadóképességemet és eddigi tapasztalataimat. Magyarán fogalmam és elképzelésem sincs mi, hogyan történik általuk, annyira elvont. :o(
Sajnos nem volt nálam ceruza és papír, ami alább következik azt az emlékeimből rekonstruáltam.
www.netflixprize.com
A fenti link egy érdekes, izgalmas, sok (magyar) embert lázbahozó, kiírásában triviálisan egyszerű, _tavaly_ 2006 ősszel indított, _5_ évig (!!) nyitott (azaz még 4 évig), (bár nem feltétlen, de) leginkább adatbányásznak mondható VERSENY, évenkénti 50.000 dolláros szakaszdíjjal, valamint 1.000.000 dolláros nagydíjjal. Bár még nem talált gazdára a nagydíj (csak egy szakasz díj, ugye), de igyekezni kell (szvsz), mert talán hetek kérdése, a hihetetlen innovativitás és hatékony versenyszellem miatt. A nagydíjért nem kell csinálni sokat: le kell tölteni egy tömörítetten CD-nyi - tehát mondhatni elég nagy - text-állományt. Minél kisebb hibával (RMSE) egy sokkal kisebb text-állományt kell feltölteni. Aki a hibaküszöböt egy jóldefiniált érték alá viszi, majd megírja angolul egy 10 oldalas cikkben a know-how-t, már viheti is a díjat.
Hogy mekkora az érdeklődés, mutatja, hogy a Google közel 100.000 találatot hoz a témára. Szabad regisztrálás után a CD (input) text-adat cucc letölthető
Fontosabb linkek: Versenyállás: http://www.netflixprize.com//leaderboard Szabályok: http://www.netflixprize.com//rules FAQ: http://www.netflixprize.com//faq
A netflix egy internetes videótéka (Észak-Amerika legnagyobb videókölcsönzője), ahol vannak kölcsönözhető filmek, és persze vannak kölcsönző ügyfelek. Természetesen van lehetőségük az ügyfeleknek értékelni a filmeket, 1-től 5-ig. A kölcsönző cégnek érdeke, hogy az ügyfelek minél több filmet kölcsönözzenek, ezért jól megfontolt üzleti érdekből ajánlanak az ügyfeleknek újabb ügyfél által addig még nem látott és nem értékelt filmet. Mivel nagyon sok az ügyfél és a film, sőt kombinatorikus robbanással szaporodnak, ezt az ajánlást 'kézzel' nem igazán lehet megejteni. Azt viszont jó lenne elkerülni, hogy aki a Dallas c. amerikai sorozatot értékeli 5-ösre, az ne mondjuk egy Ingmar Bergmann filmet kapjon ajánlatként, vagy fordítva.
A Netflix ajánló rendszernek (Cinematch) egyszerre kell minél _pontosabban_ becsülnie a vásárló ízlését (következő ajánlati filmet illetően -> "Ha egy film tetszett akkor ezt nézd meg" jeligére), illetve a hatalmas adatmennyiség (már most milliárdnyi egyedi ügyfél-film értékelése van a Netflixnek az adatbázisában) értékelése miatt skálázható és jó _performanciát_ kell biztosítania (lássuk be ez a becslési (prediktálási) pontosság és a performancia egymás ellen dolgozik). Mivel a verseny csak és kizárólag a prediktálási pontosságot tűzi ki, így mondhatni a netflixnek ez az egész verseny legelőször is reklám. De ez implicit jelenti, hogy az őáltaluk teljesített hibaküszöbben finoman szólva is van tartalék. (-> Lényegesen kevesebb alapinformációval dolgoznak, és szempont a 'valósidejű' performancia)
Az input-textállományok
17.000+ darab film -> id,év,cím -> Például -> 1,2003,Dinosaur Planet
100.000.000+ darab értékelés ügyfél & filmenként -> azaz 17.000+ txt-ként, 480.000+ ügyfél által -> összesen 2 GB-on szétterítve -> filmid: majd a következő sorokban -> custid, értékelés, értékelés ideje -> Például -> 10: 699878,2,2004-02-09 2625420,2,2005-03-17 1874659,5,2003-11-18
Az egész egy szép nagy kétdimenziós - meglehetősen ritka - mátrix, 480.000 sorral, 17.000 oszloppal. A feladat "mindösszesen" annyi, hogy minél pontosabban töltsük ki a mátrix 'pár' (->2.8 millió darab) további elemét /Missing Value/. Ezt egy egyszerű textként feltölteni, Oracle-adatbázisba, ahol egy egyszerű pársoros Perl-script kiköp egy számot azaz ezáltal rangsorolja a teljesítményt. Naponta egy azaz egy output text-állományt lehet feltölteni, amit gondolom meg lehet hágni, ha valaki több néven regisztrál.
Bár a Netflix Cinematch rendszere nem dolgozik a filmes adatbázissal: megadták a 17.000 film címét és évét (ha valaki taxonómiát akarna csinálni rá), igaz a műfajt és egyéb adatokat már nem. Ez utóbbi opcionálisan internetes helyekről (pl.:netflix.com, imdb.com, allmovie.com) is pótolható, igaz név (és nem id-) alapú párosítással. Tudtommal ezt meglehet tenni a kiírás szerint is.
Akkor nézzük mi is ez a hibaküszöb, pontosan. Van a valós érték, ami szerepel a Netflix adatbázisban (effektiv konkrét ügyfélértékelés), meg van a mi általunk becsült/prediktált ügyfél-film értékelés.
A hibaküszöb: RMSE - "Root Mean Square Error" -> a nagyobb hiba jobban büntet. Képlet ->
Szavakkal: mennyi a jósolt es az eredeti rating közötti különbség (hiba) négyzetének átlagának gyöke. (RMSE)
Ha tehát 3-ast tippelünk (bár megengedett a tizedesjegy is: lehetséges 3.4-et tippelni például) és az ügyfél eredetileg 5-öst adott, akkor 4-gyel fog nőni a számláló.
RMSE=0 esetről könnyen belátható, akkor kapjuk, ha tökéletesen tippelünk, hiszen 0-nak a négyzete is 0, akárhány 0 összege is 0, és akármilyen számmal osztva is 0-t kapunk, amiből négyzetgyökvonás után is 0 lesz.
RMSE=4 a létező legrosszabb elméleti érték: ha mind a 2.8 millió értékelés 5-ös lenne, és minden becsült értékelés mondjuk 1 lenne.
RMSE=1, ha minden tippünknél pontosan egyet tévedünk valamilyen irányba. A nagydíj elnyeréséhez elég, ha maximum csak egyet tévedünk valamilyen irányba az esetek 85%-ban, és 15%-ban tippelünk pontosan -> (RMSE <= 0.8563). Ez a titokzatos díjhoz elvárt küszöb érték úgy jött ki, hogy a Netflixesek által elért küszöbértéket kell 10%-kal megjavítani. A jelenlegi legjobb RMSE -> 0.8625. Ezért mondom, hogy sietni kell, ha valaki még pályázni akar a díjra. :o)
Próbaállomány témája -> A Netflix definiált egy 1,5 milliós próbaállományt a versenyzőknek, hogy ne csak feltöltéssel lehessen tesztelni. Megmondta mely értékeléseket érdemes teszt célból leválasztani a tanító adathalmazból.
Azt gondolom, szellemes, tiszta verseny, ami könnyen addiktivvá ("függővé") tudja tenni az embert. ;) Érdemes elovlasni Gáspár-Papanek Csaba BME-s adatbányász oktató-kutató lenti hozzászólását elolvasni adalékként.
Versenyzők:
- AT&T két - tán izraeli - informatikusa. Pár hete kapcsolódtak be, és taroltak. Kezdetben arról szólt a fáma, hogy kiléptek a munkahelyükről, hogy evvel foglalkozzanak. Ma már az AT&T linkeli őket, honlapjukon. :o)
- Gravity-csoport. BME-s informatikusok, Tikk Domonkossal. Amit lehet tudni az eljárásukról, hogy egy keretrendszerben vagy 120 ötletet próbáltak ki (szavaztattak és kombináltak), a nagy selejtezés után vagy 30-at hagytak meg. Külön kezelték a film/TV-sorozatokat. Voltak elsők is, sokáig másodikok. A BelKor csapat előzte le őket, amikor nem olyan rég bekapcsolódtak.
- Volt még egy magyar a prog.hu-s fórunm szerint. Ő egyedül dolgozott.
- Arek Paterek, lengyel PhD-ző diák, mindent egy lapra feltéve foglalkozik evvel.
- Volt nyáron egy KDD konferencia ezt a dataset felhasználva. A prezentációk - hírek szerint - kivétel nélkül mindegyike előfeldolgozást és SVD-s mátrix-faktorizációt (mátrix-felbontás) helyezte előtérbe. SVD=Singular Value Decomposition. Egyértelmű, mindig megejthető felbontás, O(n^3)-s műveletigénnyel. A módszerek kombinálása, szavaztatása is központi kérdés volt, a korreláltság és ortogonalitás összefüggésében.
Magyar URL-ek =============
http://www.spss.hu/newsletter/2006nov.php Komolyan gondoljuk, tényleg! Egy millió dollár erejéig. - Ezzel a kijelentéssel hírdette meg versenyét a Netflix, amely azzal foglalkozik, hogy az embereket összekapcsolja az általuk kedvelt mozi filmekkel. Erre fejlesztették ki a világ első intelligens mozi ajánló rendszerét, a Cinematch-t. A szoftver a korábbi filmek tetszése alapján előrejelzi, hogy mennyire fognak egy-egy új filmet kedvelni az egyes ügyfelek, és ez alapján kapnak az ügyfelek egyéni ízlésüknek megfelelő ajánlatokat. A Cinematch jelenleg is sikeresen üzemel, de mindenen lehet még javítani.
Vannak ugyanis még koncepciók, amelyeket a Cinematch még nem próbált ki. A kérdés, hogy van-e olyan eljárás, amely teljesítményben túlszárnyalja a jelenlegit, mert az üzletileg komoly előrelépés lehetne.
Ezért aztán kiírtak erre egy versenyt. A pályázó alkalmazásnak 10%-al kell jobban becsülnie a jelenleginél a megadott minta adatokon. Vélhetőleg ezt igen nehéz lesz elérni, de lehetségesnek tűnik. Lehet, hogy hónapokig tart, lehet hogy évekig, ezért az előre haladást is díjazzák: évi 50.000 dollárt kap az, aki az előző évi becslési pontosságot a legjobban túlteljesíti a következő évben.
Feltétel még, hogy a kész alkalmazás működési elvét a szerzők ismertessék, és elérhetővé tegyék a nyilvánosság számára. Érdekes problémák, érdekes üzleti fogás!
http://www.kfki.com/blog_8E210F31B2AC45668D7C83CB0FFFFB33.php?blogId=856%23a8143a21&year=&month= Egy ilyen verseny most is folyik a világban: a Netflix Prize azt a feladatot adta meg, hogy tippeljük meg mennyire fog tetszeni ügyfeleinek a tőlük kivett DVD-film. Van egy megoldásuk, ha javít rajta bárki 10%-ot, az kap 1 millió dollárt. Tavaly ősszel indult a verseny, öt éve van rá a nemzetközi adatbányászati közösségnek.
Rengeteg a jelentkező, a megoldást ma már közel 8 százalákkal már megjavították. A cég - véleményem szerint - nagyon olcsón kap meg egy igen jó megoldást. Nem hiszem, hogy bármely kutatócsapart garanciálisan elvállalta volna ezt a projektet ezért a pénzért, illetve hogy az ő megoldásukat nem tudta volna felülmulni valaki más.
Ha a cég kifizetné mindannak az óradíját, aki versenyzik, nagyságrendekkel több pénzbe kerülne. A nyertes a pénz mellett elvisz mindent, a többiek valójában elbukják a témába fektetett energiájukat. A megszerzett tudás értéke is kétes számukra: számszerűen kimutatható, hogy hanyadikaka a ranglistán, van egy globális mérési érték arra vonatkozóan, hogy az ő tudása mennyire mély. Ennek ellenére sokan futnak neki a feladatnak, aminek az oka, hogy ez egy jó játék. Verseny a világgal, taktikázás, igazi vérbeli kihívás. Ez sokkal több tudóst tud megmozgatni, mintha meghírdettek volna az interneten egy csodálatos állást a Netflix fejlesztői csapatába.
A Goldcorp és a Netflix taktikája zseniális: amig én vagyok a leghíresebb verseny, hihetetlenül olcsón kapok nagyon jó eredményeket. Az igazi kérdés az, hogy az ilyen versenyek számának növekedésével mi az a pont, ahol már nem fogja megérni igy dolgozntatni. És hasonlóan, mennyi energiáját fogja felörölni a kutatói közösség ilyen versenyeken. Játékelméleti szempontból egy speciális csapdahelyzet van kibontakozóban, a közlegelők problematikája (5 tehént tud eltartani a rét, de ha az egész falu kiviszi a sajátját, akkor mind éhenhal, kérdés hogy ki vigyen ki tehenet és ki nem). Egyenlőre céges irányból fegyelmezettek a cégek, jelenleg csak 1-2 ilyen kezdeményezés van csak. Kutatói irányból már más a helyzet. Sokaknak már nem érdemes elindulni a versenyeken, mert nagyon kockázatot vállalnak, amit csak ideig óráig (néhány évig) fog ellensúlyozni a lelkesedés.
http://www.prog.hu/tarsalgo/59865/1+millio+dollaros+feladat/oldal/1.html 50 feletti hozzászólást megért nem érdektelen fórum - Van aki szerint olyan mint a tőzsde, meglehetősen sztochasztikus. Ezért pesszimista (másokkal együtt), hogy lesz nagydíj-nyertes. - Van fóruma is a netflixprize-nak. Ott olvasta valaki, hogy jópár ember nem tudott javítani az eredmenyén a dátumok felhasználásával.
SZAKÁCS BALÁZS BME-s hallgató adott be egy félévi feladatot BME-n a feladattal kapcsolatban. Sajnos a vonatkozó URL már nem él. Ő három alapvető megközelítést sorol fel 1. Vannak felhasználók, akik hasonlóan ítélnek meg filmeket (SVD-vel bányászható például jól: 0.93-as RMSE) 2. Felhasználó egyetemistaként másképp ítéli meg a filmeket, mint felnöttként -> Felhasználó-history: 1.07 & 1.08 RMSE 3. Egy régi filmet másképp értékelnek a nézők amikor premier, mint jóval később -> Film-history: ezt kihagyta A próbahalmazon a mindig legjobb érték választásával 0.74-et kapott (egyfajta elméleti határ). Egy speciális időpont alapú szavaztatás révén végül 0.92-ig jutott legvégül.
Természetesen BWV 565 és még egy érdekes adalék. Az egyik kórusénekes jóvoltából voltam jelen a koncerten. Aki úgy volt osztálytársam az általános iskolában, hogy aztán 30 évig nem láttam. ;)
1. JUBILEUMI HANGVERSENY a Caritas Collectio Kamarazenekar megalakulásának 20. ÉVFORDULÓJÁN
Időpont: 2007.11.24, szombat 18.00 óra
Helyszín: Budavári Önkormányzat Polgármesteri Hivatalának Aulája (Bp. I. Kapisztrán tér 1. a Hadtörténeti Múzeum mellett)
Belépés ingyenes! (Mivel a hangversenyről rádiófelvétel is készül, a helyeket kérik időben elfoglalni.)
MŰSOR: Bach: 51.kantáta Vivaldi: d-moll hármasverseny Telemann: Concerto két blockflötére és vonósokra Gebhard: Salve Regina helyett végül Beliczky Gyula Szerenád - 3.(lassú)tétel Delibes: Missa Bréve
Közreműködik: BÉRES Judit - szoprán KÁLLAY Katalin - blockflöte KÁLLAY Gábor - blockflöte, ének SZABÓ Csaba - trombita FAMBRUSZ Gabriella - fuvola BALOGH Lázár - continuo, orgona a Budai Ciszterci Szent Alberik Kórus (karnagy: Tóth Eszter) a Regnum Marianum Énekkar (művészeti vezető: Pmlényi Péter)
VEZÉNYEL: SOMOGYVÁRI Ákos
Fővédnök: Dr.Nagy Gábor Tamás polgármester
2. http://www.regnumzobor.hu/hirdetesek.html November 25-én (vasárnap), 11:00 órakor:
Jubileumi hálaadó koncert
Krisztus Király Ünnepén, megalakulásának 20. évfordulóját koncerttel köszönti a CARITAS COLLECTIO KAMARAZENEKAR. Szentmisénk keretében elhangzik:
* J.S. Bach: Jauchzet Gott in allen Landen – 51.kantáta * Léo Delibes: Messe Brėve
valamint a Regnum Marianum Énekkar (művészeti vezető: Pomlényi Péter), a Budai Ciszterci Szent Alberik Kórus (karnagy: Tóth Eszter), vezényel: Somogyváry Ákos. A közreműködők hálásan köszönik Dr.Hajnal György kanonok-plébános úr alapítói, és folyamatos működtetői hozzájárulását, szíves támogatását!
>>>>>>>>>>>>
Hogy mennyire kicsi a világ térben és időben. Nem vagyok egy koncertjáró ember, mégis rengeteg élmény és emlék koncentrálódott a tegnap estébe. Lássuk sorjában...
A két hangverseny-alkalomból az első tegnapin volt lehetőségem résztvenni.
A fővédnök Nagy Gábor Tamás polgármester ifjabbkorom éveiben jelentékeny szereplője volt egy közösségben, mitöbb egy ideig (még polgármesterré-választása elött) a mellettem lévő házban lakott. Sajnos most a koncerten nem találkoztam vele, mert nem tudott eljönni, egyéb elfoglaltsága miatt.
A Budavári Városházán már voltam korábban egy koncerten. Még hozzá nem is egy akármilyen koncerten: Pejtsik Peti(After Crying-alapító, cselló) feleségével Andrejszki Judittal (ének) /Cicó nevét egyszer már meg kellene tanulni nekem és mindenkinek rendesen leírni, mert mindig az iwiw-en kell utánanéznem nekem is -> a gugli tudja ezt és javít, ha valaki 'y'-t ír, de persze 'y'-os verzióban is rengeteg a találat, még Vedres Csaba honlapján is ;)/ valamint Győri Istvánnal(lantfélék) alkotott egy Clown nevű? koncepciójú? triót. Az utóbbi előadóról azt lehet tudni, hogy egy jól megtermett, végtelenül kedélyes igazi multiinstrumentalista elképesztő hangszerekkel (az egyik többméteres(!!) hosszú lantszerűség volt -> még jó, hogy Budavári Városháza jó akkusztikájú aulája sok-sokméter magas). István 'alapjáraton' lantművész aki Cicót szokta kísérni sokszor reneszánsz-koncerteken. Mivel Pétertől sem áll távol egy kis mókázás így adódott egy lehetőség végtelenül fenséges zenei mulatozásra. Na de nem erről akartam írni... :o)
A Caritas Collectio meglehetősen érdekes nevű kamarazenekar 20(!!) éves fennállására adott jubileumi koncertet. Az együttesről korábbról semmi infóm - nemhogy hangversenyélményem - nem volt. Most előzetes két órás próbával együtt komplett koncertjüket is élvezhettem.
A zenekari arányok érdekes voltak. 6-7 hegedű, 1 brácsa, 1 cselló, 1 gordon, 1 Roland-orgona (continuo). A kellemes teremakkusztikának köszönhetően ez egyáltalán nem tűnt számomra kevésnek. A később csatlakozott egyesített két kórus majd 30 tagja már hatalmasat szólt. Itt jegyzem meg: erősen hallható a különbség, hogy közönség nélküli avagy közönséggel együtt csendülnek fel a művek. Az utóbbi esetben egy erős ecsetvonással 'tompább'/visszafogottabb/ a hangzáskép (legalábbis számomra)
Az egyik kórus (Budai Ciszterci Szent Alberik - így k-val és nem ch-val) ... ->http://www.freeweb.hu/alberikkorus/ ...külön érdekessége, hogy a Villányi úti Szent Imre templom két kórusának(!!) egyike és a másik, mint amelyik Vedres Csaba szerzői koncertje előtt énekelte Gounod Miséjét. A két kórust gyönyörűen köti össze, hogy két francia szerző két kevésbé ismert miséjét énekelte rövid időn belül. Egyébként tudjuk ugye, hogyan mondjuk más szóval azt, hogy "kis mise" -> "semmise"?! Jajjjj!
A hangszeresekről két dolgot tudok említeni. A brácsás a próba alatt számomra hihetetlenül fogta a vonóját (a vonó végétől - nem túlzok - kb.: 10 cm-re). Ilyet sose láttam még. A másik a koncertmester (karmester felesége: Varsányi Erika), aki a Vivaldi műnél az első koncertáló hegedű szólamot vitte: érezhetően nagyon jó napot fogott ki: csodálatos hangszerén a játékát élmény volt hallgatni. Már a próbán is(!)
A műsorválasztás nagyon remekbeszabott volt, a karmester Somogyváry Ákos informativ és érdekes összekötőszövegeivel dúsítva. Mivel így kétórás(!!) lett a koncert az idő előrehaladtának volt köszönhető, hogy nem volt ráadás, ami azért nagyon dukált volna.
A nyitó Bach kantáta parádés nyitány volt. Béres Judit - mint aztán utóbb kiderült komoly szólókarriert futott már be eddig is -, nagyon szép, vonzó, ifjú - nem mellesleg életerőtől, -vidámságtól duzzadó énekes hölgy, szép, melegtónusú hanggal. Számomra abszolút ideális hang kantáták (és egyéb egyházi művek) éneklésére. Említést érdemel a nemkicsit nehéz és virtuóz trombitaszóló is, ami kényes ám perfekt egyensúlyt tudott teremteni a hangzásban. Egy-egy ilyen kantáta előadás tudja csak elgondolkoztatni az embert mennyire hiányzik a műfaj a "modern" életünkből, illetve Bach mekkorát alkotott a műfajban (akár kórus igénybevétele nélkül is).
Vivaldi hármasversenye Op 3. No.11 több szempontból is nagyon érdekes. Mivel az egyik legismertebb Vivaldi-sorozat darabja, mondhatni ismert és népszerű mű. Külön érdekessége, hogy Bach 5 vagy vitatottan 6 orgonaconcerto-átiratának az egyike ez. Ráadásul az egyik itthoni orgonakottám borítója szerint, nem is a nagy Johann Sebastian, hanem legidősebb fia Wilhelm Friedemann Bach írta át -> csak hogy teljes legyen a kavarás. ;) De számomra a legfontosabb érdekesség, hogy egy hatalmas kakukktojás Vivaldi életművében, mint Bachnál a d-moll toccata és fúga BWV 556. kakukktojás azért, mert az olasz bővérű zseni Vivaldi elképesztően grandiózus és monumentális többszólamú fúgát írt az első tétel gerincébe/a tétel nagyobbik második felébe, így alkotva tökéletes egységet a német lángelme Bach-hal. Páratlan alkotás, élmény volt többször hallani az est folyamán, izlelgetve a szólamokat.
Telemann a "német Vivaldi" kettős blockflöte-versenye, nem nagyon volt az esetem. Legalábbis a szerző akár az e-moll concerto fuvolára és blockflötére írt versenyének szinvonalát nagyon nem érte el. Nem mondom, hogy nem hallgatható, de van jobb (számomra). Ez a blockflöte egy érdekes hangszer. Nevében benne van, hogy a németeknél ez is egy fuvolaféleség, ahogy én tudom a magyarban furulyaként fordítják, akkor is ha spéci (barokk)furulyáról van szó. Én hajlok arra, hogy a blockflöte se nem fuvola (márcsak a hangszertartás miatt sem), se nem furulya, hanem _blockflöte_. Az előadás során engem egy dolog zavart (ez lehet az én hülyeségem): a két szólista intenzív, nagysugarú, teljes testre átterjedő headbangelése.
A Salve Regina helyett egy érdekes ritkán játszott mű hangzott el negyediknek. Belicza Gyula - Somogyváry Ákos karmester elmondása alapján - a XIX.században egyszerre volt vasútmérnők és zeneszerző (ösztöndíjait is így együtt kapta és töltötte ki). Jó volt ilyet is hallani. Stílusát tekintve egy nagyon távolról és nagyon picit Offenbachot idézte (számomra). Annyira csipetnyi volt ez a hangulat mint mondjuk Gershwin Kék Rapszódiájában a dzsessz-beütés.
És jött az est fénypontja Delibes kis miséje. Káprázatos mű volt, valósággal belelúdbőröztem a záró "harangozós" Agnus Deibe. Mivel volt rádiófelvétel (gondolom a Katolikus Rádió számára) jó lenne elcsipni, mert ezt a művet nagyon sokszor szeretném még hallgatni.
Vivaldi - G-dur Concerto for Strings, RV 151 "Alla rustica" - 1.tétel Bach- H-moll Ouvertüre Nach Französicher Art BWV 831 H-Moll - Echo Bizet - II. L'Arlesienne Szvit - Farandole Dukas - Bűvészinas
Hogy mi köti össze a két barokk és a két - mondjuk így - 'romantikus' népszerű tételt? Hogy számomra végtelenül érzékenyek a tempóválasztásra. Jutott mindez eszembe az első két mű általam először hallott interpretációjakor (Vivaldinál valami ismeretlen társaság illetve Rafael Puyana csembalista jóvoltából).
A két barokk tétel gyors tempójú, és a fülünk is kívánja is a gyors tempót. Egy baj van csak, hogy túlzott gyors tempónál nagyon hamar vége a zenei élvezetnek. Elképesztő, szélsőségesen gyors tempójú felvételek is forognak közkézen. Még maga Karajan is nagyon felpörgeti a tempót. Azaz mivel nagyon nehéz a két követelményt szinkronba hozni, ezért örültem nagyon a két felvételnek. Vivaldinál az emlegetett felvétel-játékidejének 2:35 másodperce tűnik számomra a legideálisabbnak. Míg Bach Echójánál a 3:19-re lelassított játékidő tűnik számomra optimálisnak. Egyébként Puyana borzasztóan nagyon elkapta a fonalat a tételre való rákoncentrálás során. Káprázatos interpretáció teljesen hagyományos felfogás keretében.
A két népszerű romantikus tétel pedig azért izgalmas tempót illetően, mert keverednek benne lassú és gyors zene témák. Ez még nem lenne szóraérdemes, "sajnos" ezeknek egyszerre is kell szólniuk. Márpedig ekkor a lassú anyag kiemelése - akár unalmasra - lassíthatja a gyors anyagot, a gyors anyagra koncentrálás meg túlpörgetheti a lassút. Mármost persze feltételezve fegyelmezetett előadásmódot. Fegyelmezetlen interpretálásnál ezek a dolgok bőven 'elkenhetők', de ugye az mely hallgatóknak figyelmére pályázhat érdemben?
Az alábbi előadáson sajnos nem tudtam résztvenni betegség miatt, így csak egy nagyon vékony összefoglalót tudok ideírni:
2007-11-15: Idősorok hasonlósága és mintaillesztés idősorokon
Bollobás, Das,Gunopulos, Mannila: Time-series similarity problems and well separated geometric sets http://www.cs.helsinki.fi/u/gionis/seminar_papers/bollobas01timeseries.ps
Gyakori probléma, hogy más időskálán vagy más léptékben mért idősorokat kell összehasonlítani, vagy éppen csak a hasonló vagy ellentétes trendeket kell megtalálni az idősorokban. A cikk olyan geometriai megfontolásokon alapuló algoritmusokat ad meg, melyek segítségével két idősor időeltolás és lineáris transzformáció erejéig közel azonos részsorozatait határozható meg. Ráadásul, ha a leghosszabb ilyen részsorozatok hosszát tekintjük, outlierekre (kiugró érték) érzéketlen hasonlósági mérőszámot kapunk.
E.Rogers: Diffusion of Innovations (1975) -> jó bevezető: http://www.anu.edu.au/people/Roger.Clarke/SOS/InnDiff.html http://en.wikibooks.org/wiki/Communication_Theory/Diffusion_of_Innovations#Everett_M._Rogers
Matroid http://hu.wikipedia.org/wiki/Matroid
Adva vagyon egy irányított gráf. A csúcsok vagy inaktívak (0), vagy aktívak (1). Ezen felül kell egy un. (f) szubmoduláris függvény. Ennek pontos definiciója az első cikkben (is) le van írva. Ennek révén lesz valahogy 0-ból 1 egy adott csúcs. Természetesen, ha egy csúcs aktív ("tud valamit"), azt már nem felejti el, tehát nem lehet 0. Illetve ha egy iterációs lépés után nem lesz újabb csúcs aktív, akkor kész, vége, le lehet állni -> nincs további terjedés a hálózatban.
Úgy kell elképzelni ezt a szubmoduláris függvényt konyhanyelven, hogy amikor először seprünk, akkor szedjük össze a legtöbb szemetet, aztán minél többször húzzuk aztán a seprüt annál kevesebb lesz már a szemét. Vagy körlapokat dobálunk egy asztalra (véletlenszerűen), kezdetben nagyobb területet fedünk le, mint később. Vagy adatbányász analógia: a felügyelt tanítás központi problémája, hogy új információ bejövetelekor az a jó, ha a régiek nem vem (nagyon) rendeződnek át.
Az első cikk néhány speciális esetre bizonyít csak, a sokkal frissebb (2006-11-19) általános esetre is kiterjesztett bizonyítást is közlő második cikkből következik a végkövetkeztetés (Nemhauser/Wolsey/Fischer): a mohó algoritmus jó közelítést ad a címbeli probléma megoldási algoritmusaként.
Az első cikk a maga korlátozottabb eszközeivel egy gyakorlati példán is kipróbálta a modellt: Vette az www.arxiv.org -on található részecske fizikával foglalkozó cikkeket (10.000) és (társ)szerzőit (50.000). Érdekes volt látni, hogy a legnagyobb fokú csúcsokból indulva (sok szerzős cikk) vagy a 'központi szerzős' csúcsokból indulva (akik sok cikket írtak különböző társszerzőkkel) gyenge eredmények születtek ugyanis 'látens klaszterek' alakultak ki. Lásd még klikkesedés ;)
E szubmoduláris függvényt használja a kombinatorikus optimalizálás, a matroid-elmélet, vagy fizikában a rúd szerkezeti gyengeségeit modellezik vele.
Az egész téma hátterében ott nyüzsög a marketingesek problémája: k embert tudnak csak megszólítani (ennyire van csak pénzük), és szeretnék minél hatékonyabban elterjeszteni az információjukat a (leg)teljes(ebb) populáció körében. E. Rogers foglalkozott a témával kimerítően (1975-ös könyvében). Ő azt mondja, hogy 5 nagy csoportja van az embereknek (természetesen csoporton belül és között is van információ áramlás, persze az utóbbi az izgalmas, hozzágondolva azt a tapasztalatot, hogy - mint például egy mobiltelefon - annál értékesebb egy eszköz minél inkább elterjedt)
03% innovators (venturesome); 14% early adopters (respectable); 33% early majority (deliberate); 33% late majority (sceptical); 16% laggards (traditional).
A hagyományos/statikus faktoranalízis célja: input adatállomány nagyszámú korrelált valószínűségi változóinak magyarázása/értelmezése kevesebb korrelálatlan változó (faktor) lineáris kombinációjával. Itt a faktorok kezdetben ismeretlenek (->értelmezés elött tehát meghatározandók), a regresszió-analizis kezdeti független változóival szemben. Az értelmes faktoranalizis szempontjából fontos az input adatállomány minél nagyobb fokú korreláltsága: ezt korreláció-analizissel lehet elkövetni -> pl.: Kaiser-Meyer-Olkin érték. Ha a KMO érték 1-hez közelít akkor nagy a staikus faktoranalizishez szükséges korreláltság mértéke, ha 0-hoz közelít akkor kicsi. Az SPSS tud egy Bartlett-féle un. szfericitási próbát is nyújtani.
Maga a statikus faktoranalizis egy nem egyértelmű mátrixfelbontás, amiből következően iteratív lépések során, kovariancia mátrixok bevetésével és nemtúl vészes mátrixalgebrai eszközökkel meghatározható az induló mátrixnál kisebb dimenziójú faktor-vektorok. E faktorok kinyerésére többféle módszer lehetséges: főfaktor-módszer, nemsúlyozott és súlyozott legkisebb négyzetek módszere, maximum-likelihood faktoranalizis, vagy az SPSS alfa- és képfaktorizációs módszerei.
A statikus analizis egyik legismertebb vállfaja a főkomponens-analizis (Principal Component Analysis), ami modellezésileg egybeesik a fenti főfaktor módszerrel. Az eltérés az alkalmazás céljában van. Az előbbi esetben a változók közötti összefüggések ("korreláltság-elemzés") feltárása a cél, míg a konkrét esetben pedig az input adatállomány tömörítése, a dimenziók csökkentésével: el lehessen hagyni minél több szükségtelen változót, úgy hogy információ lényegileg ne vesszék el.
Az ökonometria által favorizált dinamikus faktroanalízis feladata hasonló, mint a statikus testvéréé, de idősorokon. Eredetileg J.F.Geweke nevű közgazdásztól indult az ötlet a '70-es években. Lásd például http://www.jgytf.u-szeged.hu/~balogh/tesis373.ps
Például részvények árfolyam-alakulásaiból kiindulva. Sok-sok ("korrelált") időpont mérésből szeretnénk kiszűrni, meghatározni, értelmezni a látens folyamatokat ("idősorok közös részeit a korrelálatlan faktorokat"), némi analógiával élve a szövegbányászat LSI-jéhez (Latent Semantic Indexing) hasonlóan. Elöljáróban megköveteljük (ami ugye jelentős korlát is egyben, de a vonatkozó algoritmusok is erre épülnek), hogy a látens faktorok autoregresszivek legyenek azaz aktuális t időpontbeli érték múltbeli értékek súlyozott összegeként (lineáris kombinációjaként plusz korrelálaltlan hibatag összegeként) álljon elő, ami követelménynek viszont igen szimpatikus folyománya, hogy rövid távon könnyen prediktálható (becsülhető)
Azonnal látszik itt is a két cél, a tömörítés és prediktálhatóság. Az előadó kisebb és inkább szintetikus (nem valós) idősorokon dolgozott. A tömörítést illetően sokkal jobb eredményekről számolt be: némi veszteséggel vissza tudta állítani a tömörített adatállományból az eredetit. Míg prediktálhatóságot illetően van min továbbdolgozni. Ugyanígy valós tőzsdei soron sokkal gyengébb eredmények születtek, mint szintetikus idősorokon.
A dinamikus faktoranalizisnek az én tudomásom szerint nincs kereskedelmi vagy open source szoftvere, az előadó bemutatott - az előadás gyakorlati részeként - egy saját maga által C++-ban implementált iteratív módszeres progit (+saját C++-os mátrix-könyvtárt) headereken keresztül. Lehetett látni itt is kovariancia mátrixokat illetve Froebenius-normát, Gram-Schmidt ortogonalizációt, keresztkovarianciát, konjugált empirikus kovarianciát, inhomogén mátrixok kvadratikus alakú összegeinek maximalizálását (ez egy 1999-es harmincoldalas cikk eredményéből jött). A műveletigény iterációnként: (idősorhossz)*(induló dimenzió)^2*(faktorhossz)^2.
Mátrix-kezelésre ajánlható a nagy tudású több platformon elérhető, C++-ban implementált, Open Source MTL -> Matrix Template Library http://www.osl.iu.edu/research/mtl/
Magyar nyelvű irodalom -> Bolla Marianna: Dinamikus faktoranalízis http://w2.math.bme.hu/kanya/astor/dinfak.pdf
[****INFORMATIKA****] Igyekszem minél nagyobb rendszerességgel adatbányászattal kapcsolatos előadásokra járni (az igyekezetem elsősorban arra irányul, hogy legyenek ilyen előadások és én is bejuthassak ;). Ha időm, energiám engedi igyekszem konyhanyelven "Blikk-stílusban" leírni az engem ért információs hatásokat. Az igazi nyílván az lenne, ha képleteket, algoritmusokat meg hivatkozásokat írhatnék a témához, de belátható, hogy ez az út sokkal nagyobb rákészülést és melót igényel.
Gépi tanulással az áramszünet ellen -> http://index.hu/tech/szoftver/aram6762/
Ismét szép példa a gépi tanulás értelmes felhasználhatóságának.
"...egy olyan számítógépes rendszer megalkotásán dolgoztak, mely nem csak az egyes erőművek aktuális teljesítmény paraméterei alapján elemzi az áramszolgáltató hálózatot, hanem a rendszer egyes elemeinek apó meghibásodásait és azok következményeit is folyamatosan tanulva tesz javaslatokat a szakembereknek."
"...A rendszer a tesztüzem során a valóban meghibásodott egységek 75%-át sorolta helyesen a legkritikusabb kategóriába. Igaz, négyszer ennyi esetben jelzett akut problémát, de ezek sem tekinthetők téves riasztásnak, hisz attól, hogy éppen nem romlottak el, az adott egységek valóban sürgős karbantartásra szorultak."
[****INFORMATIKA****] Érdekes bár szerintem néhány ponton vitatható cikk az Agent Portálon: Kollektív intelligencia http://www.agent.ai/?folderID=166&articleID=2057&ctag=&iid=
"A Twine egy honlap, ahova elvileg bármit feltölthetünk, vagy, ha akarjuk, automatikusan összegyűjti az általunk látogatott oldalakat, elektronikus leveleinket, stb. Mihelyst információhoz jut, kategóriákba csoportosít: kiről szól, milyen témák, szervezetek, cégek és helyszínek kerülnek benne megemlítésre, és így tovább."
"Ugyanakkor még mindig nem egészen világos – vagy: most már egyáltalán nem világos? – mit is értünk Szemantikus Weben. Az általánosan elfogadott vélekedés szerint egyrészt a könnyebb keresést támogatandó, az információ extra metaadatokkal történő címkézését, másrészt – általánosabban szinten – a jelenleginél sokkal magasabb információfeldolgozó-szintű számítógépeket, gépi rendszereket."
És ami vitatható (legalábbis szerintem), az adatvádelmi és nyelvspecifikussági problémákon túl:
"A Twine két másik mesterségesintelligencia-technológiát szintén használ: fejlett gépi tanuló és természetesnyelv-feldolgozó algoritmusai garantálják, hogy a kézi címkézésnél nagyságrendekkel hatékonyabban dolgozzon."
Ismét egy 'nagyvadat sikerült becserkészni': Rameau összes után amire nagyon vágytam -> Couperin-összes csembalóra. 2006 nyáron jött ki 11 CD-n, Michael Borgstede izraeli csembalista jóvoltából, honlapján lehet izlelgetni játékát. Első hallásra - mi más lenne mint a a Venti malmocskák ;) - nagyon ígéretes a kiadás, mind csembaló, mind interpretációs vonalon. Remélem nem csalódom.
[****ZENE****] minősítő fejléc hiányzott a hozzászólásból, amit eggyel előbbi hozzászólásban terveztem. Persze az lehet egy 'ideológia' erre, hogy elég lehet csak az informatikát külön választani, abból lényegesen kevesebb hozzászólást engedek el itt.
Isaac Albeniz - Suite Espanola - Asturias (Leyenda) Ana Vidovic - gitár http://www.youtube.com/watch?v=Nx7vOb7GNBg
Közismert ám brutál nehézA-B-A' formájú gitárdarab videójait kutattam fel a youtube-n, és ez a piros ruhás csinos lányé tetszett a legjobban. Szépen lehetett látni a kezét, jó tempóban, jól szólt a darab. Sajnos én nem szeretem a nóta középrészét, mert túl hosszú és túl unalmas nekem, de az eleje és vége az minden pénzt megér. Volt itt Magyarországon vagy 20 éve, egy - tán - indiai ürge, aki hozta magával a marimbáját és utcai koncertet adott kalapozással egybekötve a Vörösmarty téren. Én akkor láttam először ilyen hangszert és akkor hallottam először a darabot. Le voltam nyügözve, még a hangminőségileg gyenge kazettáját is megvettem ezért a darabért. A műsorának leglátványosabb része az volt, hogy bevonta a közönséget is. Négyen erősítették - körbeállva a hangszert egyszerű 'támogató' ritmussal - az ő játékának hatását. Na az is fantasztikus élmény volt. Van fenn a youtube-n is marimba-verzió, de az valahogy nekem nem jön be annyira.
[****INFORMATIKA****] Ha már közeledünk lassacskán a topicbeli 100-dik jubileumi hozzászóláshoz, úgy döntöttem, hogy saját hozzászólásaimat megcimkézem (remélem sikerül következetesnek lennem). Megpróbálván valamiféle rendet vinni a szabad csapongásba. Ugyan csak két témában születnek hozzászólások: informatika (munkám révén) és zene (hobbim révén) témájában, ezek azért meglehetősen távol esnek egymástól, még akkor is ha található közös mesgye... ;)
Számomra letaglózó cikk innen az index.hu-ról. E letaglózást némiképp magyarázza az, hogy engem eddig minden tárgybeli cikk elkerült
Hol vannak a százmilliók, főnök? http://index.hu/gazdasag/magyar/lopcsal07110/
"A magyarországi cégek csaknem kétharmada szenvedett már súlyos veszteségeket munkahelyi bűnözés miatt, derül ki egy frissen publikált felmérésből."
"A 2005-ben publikált felmérésben még csak a megkérdezett vállalatok 25 százaléka mondta, hogy a megelőző két évben gazdasági bűncselekmény áldozata lett, míg a mostani összeállításban már 62 százalékos az arány."
"A PwC adatai szerint a magyar válaszadók ellen két év alatt átlagosan 8,9 alkalommal követtek el olyan gazdasági bűncselekményt, amelyről a sértett cégeknél tudomást szereztek. A leggyakoribb a lopás és a hűtlen kezelés, a szellemi tulajdonnal kapcsolatos bűncselekmény, továbbá a korrupció és a megvesztegetés."
"A nyilvánosságra került visszaélések az elmúlt két évben összesen 4 milliárd forintos kárt okoztak a magyarországi cégeknek a PwC becslése szerint. Ebből mintegy 1,5 milliárd forintot jelent a lopás és a sikkasztás (amit a felmérésben hűtlen kezelésként tüntettek fel), 1,4 milliárd forint ment el korrupcióra és megvesztegetésre, továbbá 185 millió forintos kárt okoztak a szellemi tulajdonhoz kapcsolódó visszaélések. A gazdasági bűncselekmények miatt a vállalatoknak 833 milliós pluszkiadást jelentettek gazdasági bűnügyekkel kapcsolatos költségek."