What Makes Paris Look like Paris? SIGGRAPH 2012/ACM Transaction of Graphics 2012/Comm. of ACM 2015
level: seminal paper
เป็นเปเปอร์หัวข้อ geolocation กับ computervision/graphics ที่เป็นหัวข้อที่มีคนทำพอสมควรและยังเป็นหัวข้อที่ท้าทายอยู่เสมอ เปเปอร์นี้ [1, 2, 3] ถ้าจำไม่ผิดเป็นเปเปอร์ที่หลายคนชอบ เป็นงานชิ้นปราณีตอันนึง โดยมากเปเปอร์อาจารย์ Alyosha มักดีเสมอๆ (เป็นอาจารย์ที่ปรึกษาของอาจารย์ที่ปรึกษาผมคนนึง และเป็นอาจารย์ของอีกหลายๆคน จริงๆเปเปอร์นี้ก็มาจากแลปที่อาจารย์ที่ปรึกษาผมคนนึงจบมา) ชิ้นงานนี้ใช้คำว่า computational geocultural modeling
เปเปอร์ดีๆที่เป็น problem set ไปแล้ว จากอาจารย์ Alyosha อีกอัน เช่น non-parametric texture synthesis ที่หลายคนน่าจะเคยทำมาแล้ว ตอนผมทำการบ้านอันนี้ คุณแม่ผมชอบมากๆเลยนะครับ texture synthesis บอกงานนี้ดี เป็นลวดลาย ศิลปะ จรรโลงโลก อารมณ์ดี ไม่เหมือนงานภาษาศาสตร์ปวดหัว พลังลบ (คุณแม่ค่อนข้างอคติกับงานด้านภาษาอ่ะ แค่อารมณ์ว่า sarcasm เป็นความฉลาดหรือ irony ก็ดูทรงแดกดันลบๆแหล่วๆ toxic)
ในคลาสตอนปี 2018 ที่ผม sit in อันนี้เป็น seminal paper ในหัวข้อ visual data mining and discovery https://www.cs.umd.edu/class/fall2018/cmsc828i/ [Slide] https://umd.app.box.com/s/csv595qkvelh2d1v69nytryk0m7h2zeq แปลกใจที่คนไม่ค่อยอ่านชิ้นงานนี้อย่างที่ควรจะเป็น หลายอย่างก็อยู่ใน public domain อ่ะนะครับ แต่ traffic เราจะรู้แบบ analyzed มั้ยนั้นอีกเรื่อง
เข้าใจว่าหัวข้อนี้ ก็มีงานวิจัยจากนักวิจัยไทยที่ตอนนี้น่าจะเป็นครูอยู่มหาลัยแห่งหนึ่งย่านชานเมืองกรุงเทพฯ ที่น้ำท่วมเยอะๆหน่อย สมัยเรียนเมกาคนนึงเคยทำ เปเปอร์ When was that made? งานแฟชั่น เป็นต้น แต่จะเป็น in time/history ไม่ geolocation เก็บรูป Flickr กับตามพิพิธภัณฑ์ แล้วเทรน AlexNet/VGGNet
เข้าเรื่องดีกว่า งานนี้เปิดหูเปิดตา เพราะจะทำให้เรารู้ limitations หลายอย่างของโลกจริงกับโลกเสมือน หรือแค่ต่างสถานที่โดยทั่วไป ในภาษาของผมคือ ผมอาจบอกว่าคำว่า Verde ที่แปลว่าเขียวในภาษาฝรั่งเศสนั้น อาจจะทำให้นึกถึงกับคนละเขียวแบบภาษาไทย Green in English หรือ みどり มิโดริในภาษาญี่ปุ่น เป็นต้น เพราะคำเหล่านี้หมายถึงสีในประเทศที่ใช้ภาษาเหล่านั้นด้วย แพนโทนไม่ค่อยเท่านะ หาเปเปอร์ค้นคว้าต่อได้ จริงๆมีในเปเปอร์ผมเองด้วยแต่เดี๋ยวจะกลายเป็นโฆษณาตัวเองไป เกี่ยวกับสีและภาษา
ง่ายๆเลยนะครับ เอาโปสการ์ดหรือรูปในไอจีมาซักสองอันแล้วลองถามคนเล่นๆในรูปที่คล้ายๆกันเช่นเป็นตึก ว่า “อันไหนมาจากปารีส?” แม้ว่าจะไม่มีคำอธิบายใดๆ แต่ในภาพก็มีคอนเซ็ปต์โดยเฉพาะของชาติที่ถ้ามีฐานข้อมูลรูปภาพตามสถานที่ ก็สามารถที่จะพอทราบได้ว่ามันมี geographically informative elements เช่นพวก look and feel ศิลปะตามยุคสมัย อย่างใน Figure 1 ภาพซ้ายจะเป็นปารีสเช่นดูจาก balustrade window ภาพขวามาจากลอนดอนดูจาก Victorian window เป็นต้น ว่าอะไรคือ city features
ในเปเปอร์เริ่มต้น intro ด้วยการทดลอง ถามคน 11 คน แล้วพบว่าคนที่เคยไปยุโรปค่อนข้างที่จะสามารถแยกได้ ผิดกับคนที่ไม่เคยไป แล้วคนทำได้อย่างไร? ในเปเปอร์พบว่า คนที่แยกได้สามารถมองเห็น city features ต่างๆ แบบชัดๆเลย 79–9x%
คำถามในสไลด์สัมมนานั้นคือ ตาม [5, 6] พวก city features พวกนี้นั้น เป็น discriminative features ไม่ใช่ representative features ที่มีความถี่สูง แต่เป็น features ที่ต่างจากทุกที่อื่นๆในโลก ทำให้นึกถึงพวก visual words/patterns จาก image patches ที่พวก city features ก็เป็นเพียงนิดหน่อยใน patches เป็นหมื่นๆในรูปเล็กๆเช่นโปสการ์ด ดังนั้นในการทำ mining บน visual concept/knowledge discovery เหล่านี้ จึงมีคุณค่าและท้าทายมาก จะมองว่าเป็น world spatial locality ก็ได้ จริงๆมีชิ้นงานแบบภาษาอย่างเดียวอีก ไว้จะว่ากันอีกในในโอกาสหน้า หากมี
งานนี้นำไปใช้ทำอะไรได้? ในย่อหน้าถัดไปได้สรุปเป็นข้อๆเช่น 1. คล้ายงานอื่นๆ (ครับ) อาจช่วยในการเลือกรูป candid portrait, summarize a scene from a photo collection, iconic images etc.
2. อาจช่วยในการเป็น reference art
3. stylistic narrative สำหรับคอนเซ็ปต์สถานที่นั้นๆ
ขอข้ามตรง related work ในเปเปอร์ไปเพราะไม่ค่อยจะอะไรนักหนา เอาเป็นว่าในงานนี้ทีแรกเค้าจะเก็บข้อมูลด้วยการ web crawl จาก Flickr แต่มี data set bias มีรูปแค่ landmarks ที่คนถ่ายรูปแล้วอัพเป็น photography/social media bias ที่น่าจะสืบทอดมาในชุดข้อมูลด้วยเท่านั้น เค้าจึงหาแหล่งข้อมูลใหม่ที่น่าจะครอบคลุมกว่าและคือ uniform sampling เป็น google street view รูปพาโนรามิกหน้าตรงตามสถานที่ต่างๆ แถมมี geolocation gps data ที่ถูกต้องชัดๆ เป็นชุดข้อมูลราวๆ 10000 รูปต่อเมือง 12 เมือง
แน่นอนในการใช้คอมทำ visual pattern mining discovery ตัวแบบก็ต้องมี frequency เป็น signal พอสมควร ที่จะ mining discriminative patches (mid-level visual representation) ได้ ก็ gen patches ออกมาแล้วทำตามแนว visual words ปกติคนเค้าก็จะ clustering กันเช่นด้วย k-means บน SIFT หรือ HOG descriptors ในงานนี้ก็ทำคล้ายๆ แต่จะทำแนว nonparametric มากกว่า แบบมี seeding elements 25000 patches จนได้ SVM city element detectors แบบ pipeline สมัยนั้นเช่น SVM+HOG เป็นเปเปอร์ที่ “ต้องอ่าน” งานดีมากๆ จ้าาาาาาาา
หรือดูในคลิป SIGGRAPH เค้าก็ได้
จริงๆชิ้นงานเชิงสังคมวัฒนธรรมพวกนี้ก็มีอีกหลายงานในแลปผมก็มี เช่น [7] หรือที่ Oxford VGG [8] ส่วนมาก pipeline จะเล่นตรง patches หรืออะไรที่บ่ง stylistic mid-level cues textures materials etc.
References
[1] Doersch, Carl, et al. “What Makes Paris Look like Paris?.” ACM Transactions on Graphics 31.4 (2012). [link] Also presented at SIGGRAPH 2012.
[2] Doersch, Carl, et al. “What makes paris look like paris?.” Communications of the ACM 58.12 (2015): 103–110. [link] [VDO]
[3] http://graphics.cs.cmu.edu/projects/whatMakesParis/
[5] Saurabh Singh, Abhinav Gupta and Alexei A. Efros. Unsupervised Discovery of Mid-Level Discriminative Patches. In European Conference on Computer Vision (2012).
[6] Carl Doersch, Abhinav Gupta, and Alexei A. Efros. Mid-Level Visual Element Discovery as Discriminative Mode Seeking. In NIPS 2013.
[7] Anupam Guha, Mohit Iyyer, and Jordan Boyd-Graber. 2016. “A Distorted Skull Lies in the Bottom Center…” Identifying Paintings from Text Descriptions. In Proceedings of the Workshop on Human-Computer Question Answering, pages 43–47, San Diego, California. Association for Computational Linguistics.
[8] Elliot J. Crowley, Ernesto Coto and Andrew Zisserman. Visual Search of Paintings. https://www.robots.ox.ac.uk/~vgg/research/art_search/