[****INFORMATIKA****]
2007-12-06 - Egy idei ad-hoc képkeresési adatbányász-versenyről
ImageCLEF 2007 photographic retrieval task
http://eureka.vu.edu.au/~grubinger/ImageCLEFphoto2007/adhoc.htm
A verseny lényege (a hozzávaló induló adatok/adatbázisok kis erölködés után megszerezhetők):
Adva van először is egy 20.000 darab képből álló képhalmaz. Képekhez tartozik egy HTML-szerüség, amiben van TITLE, DOCNO (utalás a szöveg nyelvére), DESCRIPTION, NOTES, LOCATION, DATE,
Továbbá adva van 60 darab topic szintén HTML-szerűségként, különféle nyelveken: Angol, Német, Francia, Olasz, Spanyol, Portugál, Dán, Finn, Norvég, Svéd, Orosz, Lengyel, Japán, Kínai(tradicionális & egyszerűsített). Minden topic tartalmaz egy rövid TITLE-t, és egy hosszú NARR-t (narratíva): amiben a kapcsolódó kulcsszavak, kifejezések, mondatok vannak szövegesen leírva, valamint tartalmaz három topichoz tartozó képet(filenevet), a 20.000-s setből.
Feladat: a képek besorolása topicokba, szöveges _és_ képi információk alapján.
Két versenyző cikke (a második XEROX-csapat lett a győztes; és van egy magyar tagja: Csurka Gabriella) ->
Using pseudo-relevance feedback to improve image retrieval results Mouna Torjmen, Karen Pinel-Sauvagnat, Mohand Boughanem IRIT, France
http://www.clef-campaign.org/2007/working_notes/torjmenCLEF2007.pdf
XRCEs Participation to ImageCLEFphoto 2007 Stephane Clinchant, Jean-Michel Renders and Gabriela Csurka Xerox Research Centre Europe, France
http://www.clef-campaign.org/2007/working_notes/clinchantICLEF2007.pdf
Ami az izgalmas:
- Ha nincs kép, akkor ez egy síma klasszikus szövegosztályozásos feladat.
- Ha nincs szöveg: akkor síma klasszikus képosztályozásos feladat.
- A kérdés az, hogy a módszerek tudják-e egymás eredményit/kimeneteit _erősíteni_. Azaz a döntéshez szükséges számolt súlyokat a _másik_ függvényében módosítani/javítani (relevance-feedback)
http://en.wikipedia.org/wiki/Relevance_feedback
- A konklúzió: 3% pseudo-relevance javítás, meglévő rendszerek/komponensek felhasználásával.
- Keyword: Cross-media and cross-lingual information retrieval, pseudo-relevance feedback
- A szövegosztályozás ma még sokkal jobb hatásfokú mint a képi osztályozás.
- Tudható, hogy képek szemantikai elemzése (kék paca->víz) ma még lehetetlen.
- Mi akkor a járható út? Elkészíthető a szövegosztályozás. Képeket össze lehet _hasonlítani_ algoritmikusan és meg lehet mondani, hogy egy képhez melyik másik 5 kép hasonlít a legjobban (TOP5-k). Az így összerendelt képek szöveges információi egy másfajta eredeti előzőtől eltérő szövegosztályozást tesznek lehetővé, aminek a végén a kétféle szövegosztályozás összefésülhető.
- Elöljáróban mondom a távolságot és hasonlóságot szinonimaként használom egymás inverzei, ha már az egyik (bármelyik) megvan, ugyanolyan minöségben, egyszerűen/könnyen számolható a másik.
I.
Az első versenyző a meglévő XFIRM(=XML Flexible Information Retrieval MODEL) és a FIRE(Flexible Image Retrieval Engine) képosztályozót használta. Az előbbi saját korábbi munkájuk gyümölcse, amit most is felhasználtak. Szövegosztályozásra a közismert TD-IDF-et használták (kicsit meghackelve a konkrét feladathoz).
Itt egy pároldalas, 'kicsicsázott' prezentáció az XFIRM-ről:
XFIRM at INEX Multimedia Track 2006
http://inex.is.informatik.uni-duisburg.de/2006/inex06/slides/TorjmenInex2006.ppt
A legfontosabb: az XML nem pusztán a szöveges információk strukturált reprezentációja, hanem a képeké is. A szöveg és kép együtt-kezelendő benne: ha a dekomponált keresőkifejezés-elem nem-kép akkor XFIRM-COS metódus hívódik, ha kép akkor multimédiás-metódus hívódik (ami az ő esetükben az emlegetett Fire képkezelő-rendszer metódusa, gyakorlatilag).
Adva van egy keresőkifejezés (20.000 képből az egyik) "q", és adva vannak a topic-adatbázis: mindkettő XML-dokumentumokként van ábrázolva, ahol a topicos falevelek a leaf-node-ok "lf". Mindkettőnél (query,topic) tehát szöveg és képi információ együtt található. Definiálható egy RSV (=Relevance Similarity Value), ami egy hasonlósági/távolság érték:
RSV(q,lf) /Ez vezet el a hackelt tf-idf-hez, ha szöveges infót hasonlítunk szöveges infóval/
Magyar nyelvű könyv a TF-IDF-hez:
http://szovegbanyaszat.typotex.hu/
...és olvasnivaló:
http://alpha.tmit.bme.hu/pub/jegyzet/informacio_mgmnt/imgmtff4.pdf
A Fire-rendszer, egy diplomamunka eredménye, GNU-licence alatt forráskódostul letölthető, lásd alábbi linket. A rendszer egy távolság-definición alapuló (két kép mennyire hasonlít, vagy különbözik) képosztályozó. Segítségével kilistázható, egy képre leginkább hasonlító (k darab)kép.
http://www-i6.informatik.rwth-aachen.de/~deselaers/fire.html
A k-darab legjobb hasonlóságot produkáló képre is elvezet egy hackelt tf-idf-hez. Ahol a kapcsolat, tehát, nem a szöveges információk alapján teremtődött meg, hanem a képi hasonlóság alapján, következésképp más hackelt tf-idf lesz. Azaz lesz egy szöveg alapú RSV, egy képi alapú RSV, meg a végén egy visszacsatolt/kombinált RSV, ami alapján meghozható a döntés, hogy melyik topic fogja 'beszippantani' az adott képet.
A versenyző csapat végül nem csinált más, mint vette a kapott két RSV-eredmény lineáris kombinációját, és ez alapján döntött a legjobb beorolást illetően.
Ez volt a lényegesen egyszerübb történet.
II.a.
A Xerox-csapat szövegfeldolgozásként maximum likelihood osztályozást alkalmazott, olvasnivaló hozzá például itt:
http://sas2.elte.hu/mg/foldkutatas/7oszt2irany.htm
Ők azonban nem álltak meg itt. Kibővítették/gazdagították a szövegbázist a Flickr képmegosztó site képaláírásaival. (Ez ugye még mindig 100%pure szövegbányászat)
http://www.flickr.com/
Ebben ugye az a fantázia, hogy megoldásukba integráltak ezáltal egy képekre működő taxonómiát. A gond csak mindössze annyi, hogy egyáltalán nem bizonyított tény, hogy nagyobbra transzformálás után, jobb is lesz az eredmény, még ha az intuició ezt súgná is.
Például így lehet például "Jesus" másik öt legfontosabb kapcsoló kifejezést találni -> christ, church, cross, religion, god
II.b.
Amit képfeldolgozásnál műveltek, az minden képzeletet meghalad. Az alábbiak megértéséhez érteni kell a képfeldolgozáshoz (amihez én például nem értek).
A folytonos vektor-reprezentációból levezehető képhasonlóság definiálásához
- Először is definiáltak minden képhez egy szabályos grid alapján kapott téglalap-képfoltokra öt darab különböző négyzetgyök-kettes skálát.
- A grid 4x4=16-os volt.
- Alacsony szintű szürke és színes SIFT-típusú (=Scale Invariant Feature Transform) jellemzőket határoztak meg.
- A következő lépés a gradiens irányú hisztogrammok. Ezt úgy kell elképzelni, hogy vettek egy grid-kockát és hasonlították a 8 szomszédos kockához és az átmenet irányultságát próbálták meg számokra lefordítani.
- A kapott összesen 128 dimenziót (szinek szorozva histogramok stb.), és ezt a 128 dimenziót 50-re redukálták főkomponens-analizissel (PCA=Principal Komponent Analysis). Lehetséges magyar olvasnivaló az alábbi PhD-disszertáció:
http://twilight.vein.hu/phd_dolgozatok/feilbalazs/PhDThesisFeilb.pdf
- A PCA értelme a feature-extraction. Nemcsak a számolási igény csökken általa, hanem a majdani hasonlítás minősége is javulhat a fontosabb jellemzők jobb kiemelésével.
- A legszebb lépés gépi tanulásos (=Machine Learning) Gaussian Mixture Model (GMM) segítségével klaszterizálták/csoportosították a 20.000 képet és felépítettek általa egy vizuális szótárt. Hogy az ilyesmit hogy kell csinálni (angol nyelvű olvasnivaló):
J. Farquhar, S. Szedmak, H. Meng, and J. Shawe-Taylor. Improving “bag-of-keypoints” image categorisation. Technical report, University of Southampton, 2005.
http://www.kyb.tuebingen.mpg.de/bs/people/jdrf/download/imageCat.pdf
F. Perronnin, C. Dance, G. Csurka, and M. Bressan. Adapted vocabularies for generic visual categorization. In ECCV, 2006.
http://www.cs.utexas.edu/~grauman/courses/spring2007/395T/papers/peronnin_eccv2006.pdf
- Gaussian Mixture Model (GMM)-hez magyar nyelvű olvasnivaló:
http://www.sztaki.hu/~szcsaba/talks/lecture3.pdf
- GMM-mel két vizuális szótár lett: kép-textúrák alapján valamint kép-színek alapján.
- Végül következett a Fischer Kernek gradiens-normalizálás. A know-how-t taglaló angol-cikkért sajnos fizetni kell:
F. Perronnin and C. Dance. Fisher kernels on visual vocabularies for image categorization. In CVPR, 2007.
http://ieeexplore.ieee.org/iel5/4269955/4269956/04270291.pdf?isnumber=4269956&prod=CNF&arnumber=4270291&arSt=1&ared=8&arAuthor=Perronnin%2C+Florent%3B+Dance%2C+Christopher
Összefoglalva egyszerű szavakkal, bulvár-stílusban: A képekről ismert algoritmusokkal, képekre jellemző számvektorok nyerhetők ki, ezen vektorok "gyönggyé kristályosíthatók ki" régóta közismert nem túl bonyolult PCA-val. Majd legvégül gépi tanulással (GMM) speciális vizuális szótár építhető (megőrizve persze a képek egyedi vizuális leírását), ami vizuális szótár fogalom teljesen analóg fogalom (még ha lényegileg tök más is) -> a szövegeknél megszokott szótárhoz.
II.c.
Ha kész vagyunk és túl vagyunk a szöveg- és képfeldolgozáson. Akkor jöhet a Cross-Media Similarity (a kettő vegyítésével definált távolság/hasonlóság), visszacsatolással (=feedback) vegyítve.
Ehhez legelöbb is
- Lehet aggregálni a hasonló objektumok/szomszédok hasonlósági értékeit (Similarity) -> lesz így módosított Similarity csoportokra. Illetve a klasszikus Rocchio osztályozóval lehet relevance feedback-et csinálni. /Ez utóbbi az emlegetett Tikk Domonkos könyvben részletesen tárgyalódik/
Angol olvasnivaló a Rocchio-classifier-ről:
http://lsdis.cs.uga.edu/~bilal/courses/fall2004/8350/presentations/text_cat_bilal.ppt
- A Cross-Media Similarity-hoz vezető út következő állomása a "Multimodal" "LM"(=Language Modelling) és a "Complementary Feedback" definiálása és megértése. Sajnos ezek a témák már minden szinten meghaladták a befogadóképességemet és eddigi tapasztalataimat. Magyarán fogalmam és elképzelésem sincs mi, hogyan történik általuk, annyira elvont. :o(