26 มกราคม 2548

iWork'05

ช่วงนี้มัวแต่ยุ่งๆ กับการจัดห้องแล็บเลยไม่ค่อยได้เขียน ที่ต้องจัดก็ได้งบมาปรับห้องใหม่ เลยจะปรับห้องคอมพิวเตอร์ที่ไม่ได้ใช้ เป็นห้องพักสำหรับนักเรียนปริญญาเอก เลยต้องรื้อทุกอย่างในห้องออกมาให้หมด อะไรที่ไม่ใช้ ก็ต้องจัดการทิ้ง วันนี้ว่างหน่อย เลยมีโอกาสอ่านรีวิวของ iWork โปรแกรมสำนักงานชุดใหม่ของ Apple อ่านแล้ว อยากลองเล่นเร็วๆ จัง สั่งไปแล้วล่ะ วันนี้เพิ่งได้เมลว่า ส่งมาให้แล้ว พรุ่งนี้หรือมะรืนนี้คงจะถึง ดีจัง จะได้ลองใช้ Keynote2 พรีเซนท์งานอาทิตย์หน้าเลย

09 มกราคม 2548

SuSE Linux 9.2

เห็นข่าวจาก OSNews.com ตั้งแต่เมื่อวานแล้ว ว่า Novell ปล่อย SuSE รุ่นใหม่ออกมาให้ดาวน์โหลดได้แล้ว โดยมีอิมเมจให้โหลดได้สองแบบ คือ อิมเมจขนาดเล็กประมาณ 60MB สำหรับเขียนลงซีดี และติดตั้งผ่านเน็ตเวิร์ค กับอีกแบบหนึ่งเป็นอิมเมจรุ่นเต็ม สำหรับเขียนลงดีวีดี ขนาดประมาณ 3GB ด้วยความอยากลอง เมื่อวานก็ไปโหลดอิมเมจขนาดเล็กมาก่อน เพราะ mirror แถวนี้ยังโหลดกันไม่เสร็จ เลยยังไม่มีดีวีดีให้โหลด ปรากฏว่าลองแล้วมีปัญหาขาดๆ เกินๆ ซึ่งเกิดจากปัญหาเดิม คือ mirror แถวนี้ยังโหลดไม่เสร็จ ทำให้หา package ไม่เจอบ้าง จะให้ใส่ ip ของ ftp server บ้าง ครั้นจะใช้ mirror นอกญี่ปุ่นก็คิดว่าคงจะเสียเวลานาน เลยหยุดรอก่อนล่ะกัน วันนี้ลองดูใหม่ ปรากฏว่ามีดีวีดีให้โหลดแล้ว (เร็วด้วย ประมาณ 700kb/s) เลยถือโอกาสโหลดดีวีดีมาเลย จะได้ไม่ต้องเสียเวลาติดตั้งผ่านเน็ต (ในความเป็นจริงแล้วไม่ถูกหรอก เพราะลงจากเน็ตจะประหยัดทรัพยากรกว่า แต่ด้วยความขี้เกียจ เลยโหลดดีวีดีทิ้งไว้ แล้วลงจากดีวีดี ง่ายดี)

เวลาโหลด ก็ใช้ wget เลยทำให้ได้ความรู้ใหม่ว่า wget มีการกำหนดขนาดไฟล์ใหญ่สุดไว้ด้วย เพราะว่าโหลดไปได้ประมาณ 2GB แล้วมันก็ตัดไป พร้อมกับ error ว่า File size limit exceeded ตอนแรกก็คิดไปก่อนว่า มีปัญหาที่ reiserfs ลองดูแล้วก็ไม่ใช่ ลองใช้กูเกิลหาดู เห็นมีคนบอกว่าเป็นปัญหาของ wget ต้องไปแก้คอนฟิก แต่ด้วยความขี้เกียจ (อีกแล้ว) ก็เลยใช้ curl โหลดแทน ก็โหลดต่อเนื่องกันได้ด้วยดี ไม่มีปัญหาอะไร (curl ใช้ -C - กำหนดให้โหลดต่อจากไฟล์ที่มีอยู่เดิม) จนสุดท้ายสามารถใช้ nautilus เขียนลง dvd-rw ได้อย่างเรียบร้อย

จากนั้นก็เริ่มติดตั้ง วิธีการติดตั้งยังเหมือนเดิม แต่ไม่รู้คิดไปเองหรือเปล่า ทำไมโปรแกรมติดตั้ง มันดูทำงานเร็วขึ้นกว่าเดิมก็ไม่รู้ (เทียบกับ 9.1) ดูรื่นไหลกว่าเดิมมาก ไม่มีสะดุด หรือติดขัดอะไรเลย แถมยังสามารถเลือก Gnome ได้ด้วย ถูกใจดี ลงเสร็จเรียบร้อย พวกฮาร์ดแวร์ ก็รู้จักทุกอย่าง (เดิมใช้ gentoo อยู่ ก็ไม่มีปัญหาอยู่แล้ว) ใช้เวลาติดตั้งประมาณ 20-30 นาทีได้มั้ง พอบูทใหม่ ก็ใช้งานได้ราบรื่นดี จะทำให้อ่านภาษาไทย ก็ไปเอาฟอนต์ภาษาไทย จากอีกพาร์ติชันหนึ่งมา แต่ว่าติดตั้งฟอนต์โดยใช้ nautilus ไม่เป็น หาโปรแกรมของ SuSE ก็ไม่เห็นมี เลยเช็ค /etc/fonts/fonts.conf แล้วก็เอาฟอนต์ไปวางไว้ที่ /usr/share/fonts ตามปกติ พอรัน fc-cache ก็ใช้ได้ทันที ได้ดั่งใจดี เพราะไฟล์คอนฟิกทั้งหลาย ยังอยู่ที่เดิมตามปรกติ (ยกเว้น Gnome เขาเอาไปไว้ที่ /opt/gnome ประมาณว่า Gnome ยังไม่ได้เป็นส่วนหนึ่งของ SuSE ) แต่ตอนนี้ Gnome ยังเป็นรุ่น 2.6 อยู่เลย อยากได้ 2.8 จัง ไว้ค่อยหาทางเอามาลงอีกที แต่ที่จริงใช้รุ่นนี้ไปก็ได้แหละ เพราะดูเหมือน SuSE จะลง patch ไว้ให้แล้วหลายๆ อย่าง เช่น gnome-volume-manager ก็มีให้ใช้แล้ว แล้วก็ไม่รู้ทำไม รู้สึกว่าฟอนต์บน SuSE ดูสวยกว่าบน Gentoo คงต้องทำอะไรไว้แน่เลย

สรุปว่า SuSE Linux 9.2 เป็นดิสตริบิวชันที่น่าใช้ทีเดียว มีการปรับปรุงขึ้นมามากเมื่อเทียบกับ 9.1 โดยเฉพาะอย่างยิ่ง มี Gnome ให้เลือกลงได้เลย นอกจากนี้ยังสามารถปรับแต่งเพิ่มเติมได้ง่าย ไม่โดนบังคับให้ใช้เฉพาะโปรแกรมที่กำหนดเท่านั้น ตอนนี้เลยมีดิสตริบิวชันในใจ เพิ่มขึ้นอีกหนึ่งอัน จากที่มีอยู่แล้ว 3 อัน คือ

  1. Gentoo มีข้อดีตรงความเรียบง่าย และระบบจัดการแพคเกจที่มีประสิทธิภาพสูงมาก แถมยังมีแพคเกจใหม่ๆ ให้ใช้ได้ทันใจ แต่ก็มีข้อเสียตรงที่เสียเวลาติดตั้ง และปรับแต่งค่อนข้างนาน (อย่างน้อย 2-3 วัน) แต่เมื่อติดตั้งเสร็จ สามารถใช้ไปได้เรื่อยๆ โดยไม่ต้องทำอะไรเลย ทำให้ตอนนี้เป็นอันดับหนึ่งในใจอยู่
  2. Ubuntu ได้ข้อดีจาก Debian และระบบติดตั้งที่ลดความยุ่งยากในการปรับแต่งไปเยอะ สามารถติดตั้งใช้งานได้รวดเร็ว และปรับแต่งเพิ่มเติมได้ง่าย แต่ก็มีข้อเสียเรื่องความใหม่ของแพคเกจ เช่น ยังใช้ XFree86 4.3 อยู่เลย (ที่จริงก็คงไม่ต่างกันมากหรอกนะ)
  3. TLE มีข้อดีสำหรับคนที่ต้องการใช้แค่ภาษาไทยกับอังกฤษเป็นหลัก ได้รับการปรับแต่งมาอย่างดี ใช้งานง่าย แต่มีข้อเสียตรงที่เป็น Fedora Core ซึ่งไม่ชอบ เพราะรู้สึกไปเองว่า ไม่สามารถปรับแต่งได้ตามใจ (ถ้าใช้จริงๆ ก็คงทำได้แหละ แต่ขี้เกียจเปลี่ยนตัวเองแล้ว) ทำให้ไม่ค่อยได้ใช้ TLE เท่าไหร่

ว่าแต่ต้องลองใช้ก่อน ถึงจะจัดอันดับได้ ว่าควรจะให้ SuSE อยู่ตำแหน่งไหน สุดท้ายมีภาพมาให้ดูด้วย

หมายเหตุ

หลังจากลองปรับวิธี hinting บน Gentoo อีกนิดหน่อย ก็ได้ฟอนท์ภาษาไทย หน้าตาเหมือนบน SuSE ทั้งนี้เพราะ Gentoo เปิด Bytecode interpreter ไว้เป็นค่าโดยปริยาย แต่ฟอนท์ภาษาไทยจะดูสวยกว่าถ้าใช้ autohinting เลยลองไปกำหนดค่าใน fonts.conf ก็ได้หน้าตาเหมือนกัน

08 มกราคม 2548

Thai TV on Internet

เดี๋ยวนี้ได้ดูทีวีจากเมืองไทยบ่อยๆ ยิ่งช่วงหลังจากเกิดเหตุการณ์คลื่นสึนะมิ ทำให้นั่งติดตามข่าวจากเมืองไทยตลอดเวลา ส่วนใหญ่จะดูข่าวจากเว็บของช่อง 9 (เดี๋ยวนี้ต้องเรียกว่าโมเดิร์นไนน์แล้วสิเนอะ) เมื่อกี้มาลองหาดู เดี๋ยวนี้มีบริการทีวีบนเน็ตเยอะเหมือนกันแฮะ เลยเอามาจดไว้ จะได้ไม่ต้องหาใหม่อีก

Linux/BSD Magazine หยุดออกเล่มใหม่

วันนี้เจอข่าวใน /.jp ว่า วารสารที่เกี่ยวข้องกับ OSS สองเล่ม คือ Linux Magazine กับ BSD Magazine จะหยุดออกเล่มใหม่ (ไม่แน่ใจว่าจะเลิกเลยหรือเปล่า เพราะแค่เขียนว่าจะพัก) เมื่อสองสามปีก่อน ก็เคยเป็นแฟนของ Linux Magazine อยู่ ซื้อเกือบทุกเดือน ตอนนั้นยังไม่มี ADSL ใช้ด้วย เป้าหมายหลักก็คืออยากได้ซีดี Linux หรือ FreeBSD ที่แถมมา แล้วก็มีเนื้อหาหน้าสนใจให้ติดตามอ่านเสมอๆ ส่วนใหญ่เป็นเรื่องความรู้เบื้องต้นเกี่ยวกับ Linux เลยทำให้คอยติดตามซื้อแทบทุกเดือน

พอนึกแบบนี้ ก็เลยเข้าใจว่าทำไมเขาถึงเลิกทำวารสาร เดี๋ยวนี้อยากได้ซีดี หรือแม้แต่ดีวีดี ก็โหลดเองได้ ใช้เวลาไม่เกินครึ่งชั่วโมง ส่วนข่าวคราวต่างๆ ในวงการ ก็อาศัยอ่านเอาจากเว็บหมดแล้ว ข่าวสารจากวารสารที่ออกเดือนละครั้งเริ่มไม่ทันใจแล้ว สุดท้ายก็เลยไม่ได้ซื้ออ่านเท่าไหร่ (แต่ยังแวะเปิดดูบ้าง) ยิ่งความรู้พื้นฐานเกี่ยวกับ Linux ก็มีเพียงพอแล้ว ปีกกล้าขาแข็งแล้ว เลยหันไปอ่าน Software Design แทน ทุกคนก็คงเป็นอย่างนี้เหมือนกัน วารสารก็เลยต้องหยุดไปก่อน แต่ยังหวังว่าเขาจะปรับรูปแบบใหม่ แล้วกลับมาเหมือนเดิม เพราะยังมีพวกบทความต่างๆ ที่น่าสนใจอยู่

07 มกราคม 2548

ข้อมูลส่วนตัว

ตั้งแต่มาอยู่ญี่ปุ่น รู้สึกว่าใส่ใจกับข้อมูลส่วนตัวมากขึ้นเยอะ เพราะกลัวว่าจะเกิดปัญหาต่างๆ เนื่องจากมีรายการทั้งหลายพูดถึงวิธีการต่างๆ ที่จะนำข้อมูลส่วนตัวของเราไปใช้ในทางมิชอบ และตัวเองก็เคยเจอใครก็ไม่รู้โทรศัพท์มาหา พยายามถามชื่อ ถามอายุ พอฟังเสียงว่าเราเป็นคนต่างชาติ ก็มีการบอกด้วยว่าบอกได้ ไม่ใช่ตำรวจ ฟังแล้วใช้ตรรกะแปลกๆ ถ้าเป็นตำรวจสิถึงจะบอก (สงสัยคงคิดว่าเราเป็นคนต่างชาติที่หลบมาอยู่ในญี่ปุ่นแน่เลย) สุดท้ายขี้เกียจคุยต่อ เลยตัดสายไปเลย นับเป็นประสบการณ์ที่แปลกๆ เลยทำให้ไม่อยากบอกข้อมูลส่วนตัวกับใคร เพราะไม่อยากตามไปแก้ปัญหา

ยิ่งหลังๆ ในญี่ปุ่น มีขบวนการแปลกๆ เช่น โทรมาให้ติดแค่ครั้งเดียว แล้วแสดงเบอร์ไว้ พอเราโทรกลับ ก็กลายเป็นว่าเราโทรเข้าไปใช้บริการทางโทรศัพท์ แล้วมาเรียกเก็บเงินจำนวนมาก (ส่วนใหญ่จะทำเป็นขายบริการทางเพศด้วย เพราะคนที่ถูกเรียกเก็บจะอาย จะได้ยอมจ่ายเงิน) ทุกวันนี้เลยจะไม่โทรกลับไปหาใครที่ไม่รู้จัก และจะรีบรับโทรศัพท์ทันทีที่มีคนโทรมา ยิ่งเบอร์แปลกๆ ยิ่งต้องรีบรับ เพราะพวกนี้จะสุ่มเบอร์แล้วไปโทรทั่ว แต่จะตัดสายเร็วมากๆ (คิดว่าอาจจะใช้คอมพิวเตอร์โทร) ส่วนใหญ่จะรับกันไม่ทัน พวกนั้นก็เลยไม่ต้องเสียเงินค่าโทรศัพท์ ถ้ารับทัน พวกนั้นก็จะเสียเงิน แต่เราไม่เสียอะไร เพราะเราไม่ได้เป็นฝ่ายโทรไป ถือเป็นความสะใจเล็กๆ

ทีนี้มาเข้าเรื่องหน่อย วันนี้ไปอ่านกระทู้ยาวเหยียดใน pantip.com เรื่องจะให้สมาชิกเก่า ยืนยันตัวเอง ด้วยการใส่เลขประจำตัวประชาชน ก็เลยมีคนมาโวยวายว่า เล่นมาตั้งนานไม่เคยก่อความเดือดร้อนอะไร เหมือนไม่ใส่ใจคนที่เคยอยู่ในเว็บมาตั้งแต่เว็บยังไม่ดัง ส่วนใหญ่จะไม่อยากบอกเลขประจำตัวประชาชน ส่วนตัวก็คิดเหมือนกัน เพราะไม่เห็นความจำเป็น ทุกวันนี้ก็ไม่ค่อยได้ตอบกระทู้อยู่แล้ว นานๆ ที่มีกระทู้น่าสนใจถึงจะตอบซักทีหนึ่ง ถ้าโดนตัดก็ให้เขาตัดไปเถอะ ขออ่านอย่างเดียวดีกว่า อาจจะเห็นแก่ตัว แต่สบายใจดี เพราะไม่เคยไปถามอะไรในนั้นอยู่แล้ว เคยแต่ไปช่วยตอบบ้างถ้าช่วยได้ ที่จริงก็เห็นใจเจ้าของเว็บละนะ เพราะถ้ามีปัญหาเกิดขึ้น แล้วตำรวจมาตรวจสอบ เจ้าของเว็บก็ต้องติดร่างแหไปก่อนแล้ว ยิ่งตลกมากๆ ก็กรณีที่ดาราฟ้องคนที่เอารูปไปแปะในเว็บ ซึ่งต้องไปตามหาตัว โดยใช้ข้อมูลในเว็บ แต่ไม่กล้าฟ้องหนังสือพิมพ์ที่เอารูปแบบเดียวกันไปลง

อย่างไรก็ดี ฝ่ายที่เห็นด้วยกับเว็บ ก็มาบอกว่าให้ไปเถอะ เลขประจำตัวประชาชนน่ะ เพราะหาข้อมูลเหล่านี้ง่ายจะตาย พร้อมกับยกตัวอย่างเว็บของกรมการปกครองมา http://www.dopa.go.th/Election/Internet/enqls/index.php เพราะแค่ใส่ชื่อลงไป ก็จะได้ข้อมูลส่วนตัวออกมาเต็มไปหมด โอ้...ชื่อเราก็มีด้วย เพราะไม่ได้ไปเลือกตั้งคราวที่แล้ว มีหมดทั้งวันเดือนปีเกิด เลขประจำตัวประชาชน ยังดีนะ ที่ไม่บอกที่อยู่แบบละเอียดๆ มาให้ด้วย เห็นแล้วก็ได้แต่ทำใจ แต่ก็ทำให้คิดว่าอย่างนี้ระบบตรวจสอบสมาชิกของ pantip.com ที่ต้องการแต่เลขประจำตัวประชาชน ก็ไม่มีประโยชน์อะไรเลยสิ เพราะไปมั่วชื่อมาซักอันหนึ่ง ก็ได้เลขประจำตัวประชาชนมาแล้ว ยกเว้นกรณีที่จะตรวจสอบด้วยการให้ไปขอ pin code ของเว็บ khonthai.com แล้วส่งเมลไปที่นั่น ซึ่งดูเหมือนว่าถ้าสมัครแล้ว เราจะเข้าสู่ระบบราชการแบบอิเล็คทรอนิกสามารถตรวจสอบข้อมูล หรือขอเอกสารผ่านเว็บได้ โอ้... แค่คิดก็กลัวแล้ว สรุปว่าไม่ไปขอหรอก เสียเวลาเดินไปอำเภอ หรือเทศบาล จะสบายใจกว่า

ที่มา: http://pantip.com/cafe/wahkor/topic/X3199692/X3199692.html#374

Machine Learning ตอนที่ 2

ตัวอย่างและลักษณะประจำ

เนื่องจากงานหลักของการเรียนรู้ของเครื่องคือการวิเคราะห์ข้อมูล เพื่อสร้างโมเดล หรือสมมติฐานเพื่ออธิบายลักษณะโดยรวมของข้อมูล เราอาจจะเตรียมข้อมูลได้หลายรูปแบบ หรือหลายลักษณะ แต่ส่วนใหญ่ระบบมักจะรับข้อมูลที่ข้อมูลแต่ละชุด ประกอบด้วยลักษณะประจำ (attribute) หลายๆ ตัว เช่น ถ้าเรามีข้อมูลอยู่ และต้องการสร้างโมเดลเพื่อแยกว่าผู้สมัครบัตรเครดิตคนไหนควรออกบัตรให้ ข้อมูลของผู้สมัครแต่ละคนก็อาจจะประกอบด้วยลักษณะประจำต่างๆ เช่น เพศ อายุ อาชีพ ตำแหน่ง เงินเดือน หรือระยะเวลาทำงาน โดยค่าของลักษณะประจำเหล่านี้ เมื่อนำมาเรียงต่อกัน ก็จะเป็นตัวแทนของผู้สมัครแต่ละคน ซึ่งถือว่าเป็นอินพุตของระบบการเรียนรู้ นำไปสร้างสร้างผลการเรียน ซึ่งเราสามารถนำมาใช้กับข้อมูลที่ยังไม่เคยพบ เช่น อาจจะนำผลที่ได้ช่วยตัดสินใจว่า ควรออกบัตรผู้สมัครคนใหม่หรือไม่

ถ้าพูดในแง่ฐานข้อมูลแล้ว ข้อมูลทั้งหมดก็คือตารางหนึ่งในฐานข้อมูล ที่มีเรคอร์ดแทนข้อมูลแต่ละชุด และฟิลด์แทนลักษณะประจำของข้อมูลแต่ละตัว ถ้าพูดในแง่คณิตศาสตร์ข้อมูลแต่ละชุด ก็คือเวคเตอร์ที่ประกอบด้วยค่าของลักษณะประจำเรียงต่อกัน ถ้าพูดในแง่ตรรกศาสตร์แล้ว ค่าของลักษณะประจำแต่ละตัว ก็คือประพจน์ที่บอกค่าความจริง และเราสามารถแทนข้อมูลแต่ละชุดด้วยประพจน์เชิงซ้อน ซึ่งเกิดจากการเชื่อมลักษณะประจำแต่ละตัวเข้าด้วยตัวเชื่อม "และ" เช่น ข้อมูลของผู้สมัครคือ เพศชาย และ 25ปี และ รับราชการ และ อาจารย์ และ 10000บาท และ 2ปี ที่ต้องพูดถึงข้อมูลในหลายๆ แบบ ก็เพราะเรานำการเรียนรู้ของเครื่องไปเกี่ยวข้องกับหลายวงการ เกี่ยวข้องกับฐานข้อมูล ในเรื่องการเหมืองข้อมูล (data mining) เกี่ยวข้องกับคณิตศาสตร์เมื่อต้องการวิเคราะห์และเปรียบเทียบการทำงานของระบบการเรียนรู้ และสุดท้ายเกี่ยวข้องกับตรรกศาสตร์ เมื่อพูดถึงการแทนความรู้ (knowledge representation) ส่วนนี้ไว้พูดถึงทีหลังล่ะกัน

ทั้งหมดนี้คือ ลักษณะของข้อมูลแบบง่ายที่สุด ที่ใช้กันในระบบการเรียนรู้ส่วนใหญ่ แต่ไม่ใช่ทั้งหมดเพราะบางระบบได้รับการออกแบบให้สามารถจัดการข้อมูลที่ซับซ้อนมากกว่านี้ ข้อมูลแต่ละชุดอาจจะเก็บไว้ในตารางหลายๆ อัน หรือมีความสัมพันธ์ระหว่างกัน แต่จะเห็นว่า สิ่งที่สำคัญและส่งผลต่อผลการเรียนรู้มากที่สุด ก็คือลักษณะประจำ เราคงจะไม่สามารถจัดกลุ่มข้อมูลได้ ถ้าเรามีลักษณะประจำที่เป็นตัวอธิบายข้อมูลแต่ละชุดไม่เพียงพอ เช่น เราคงไม่สามารถจัดกลุ่มผู้สมัครได้ ถ้าข้อมูลของผู้สมัครคือ เพศ และอายุ และถ้าเรามีลักษณะประจำที่ไม่เกี่ยวข้อง ก็ทำให้ผลที่ได้คลาดเคลื่อน หรือเป็นโมเดลที่ไม่สื่อความหมาย ไม่สามารถนำไปใช้งานได้จริง เช่น ถ้าข้อมูลของผู้สมัครคือ เพศ อายุ น้ำหนัก ค่าน้ำหนักของผู้สมัครแต่ละคนคงไม่มีผลต่อการตัดสินว่าจะออกบัตรให้หรือไม่ เรื่องที่เกี่ยวกับลักษณะประจำเหล่านี้ จึงเป็นเรื่องใหญ่ จนสามารถแยกออกไปเป็นสาขาย่อยของงานวิจัยในแวดวงนี้ได้เลย

ในกรณีที่ต้องการจัดกลุ่มข้อมูล หรือเรียนรู้แบบมีคนสอน ก็จะต้องกำหนดกลุ่มสำหรับข้อมูลแต่ละชุดไว้ด้วย เช่น ข้อมูลของผู้สมัครก็จะบอกไว้ว่าแต่ละคนได้รับบัตรหรือไม่ เพราะระบบจะอาศัยค่าของกลุ่มสำหรับสร้างโมเดลซึ่งจะเป็นผลการเรียนรู้ นิยมเรียกข้อมูลแบบนี้ว่า attribute-value data ซึ่งแปลว่าข้อมูลแต่ละชุดประกอบด้วย attribute หรือลักษณะประจำ และค่า (value) ของกลุ่มที่ข้อมูลที่ข้อมูลนั้นสังกัด ในกรณีที่เป็นการเรียนรู้แบบไม่มีคนสอน ก็ไม่จำเป็นต้องระบุค่าของกลุ่ม โดยระบบจะแบ่งกลุ่มโดยอาศัยความคล้ายของข้อมูลแต่ละชุด และกำหนดกลุ่มโดยอัตโนมัติ ข้อมูลที่ถูกจัดไว้ในกลุ่มเดียวกันก็จะเหมือนกันมากหน่อย

ข้อมูลที่พูดถึงนี้ มักจะเรียกกันว่า ตัวอย่าง เพราะข้อมูลที่นำมาวิเคราะห์ส่วนใหญ่ คือข้อมูลส่วนหนึ่งที่พบ และคิดว่ามีจำนวนมากพอที่จะแทนลักษณะของข้อมูลทั้งหมดได้ เพราะเราคงไม่สามารถแจกแจงข้อมูลทั้งหมดที่เป็นไปได้ ดังนั้นผลการเรียนรู้จึงเป็นโมเดลโดยประมาณที่สร้างจากข้อมูลที่พบ และคาดว่าโมเดลนี้สามารถครอบคลุมข้อมูลอื่นๆ ที่ยังไม่พบได้ แต่อาจจะไม่ถูกต้องทั้งหมด

หมายเหตุ พยายามเขียนให้เข้าใจง่ายๆ แต่ไม่รู้จะเข้าใจง่ายจริงหรือเปล่า

05 มกราคม 2548

Machine Learning ตอนที่ 1

ช่วงนี้ไม่ค่อยมีมุขเขียนบลอก เลยคิดว่าจะเขียนเรื่องหลายๆ ตอน เกี่ยวกับสิ่งที่ตัวเองสนใจและทำอยู่ดีกว่า (หุๆๆ เขียนเก็บไว้ก่อน เผื่อเอาไปรวมเล่มขาย) คงเขียนไปเรื่อยๆ ถ้ายังมีไฟอยู่ ขอเริ่มด้วยเรื่องเกี่ยวกับ Machine Learning หัวข้อหลักของงานวิจัยที่ทำอยู่

Machine Learning คืออะไร ?

Machine Learning นี้ใช้ภาษาไทยว่า "การเรียนรู้ของเครื่อง" (เห็นครั้งแรกในหนังสือของอ.บุญเสริม เข้าเว็บของราชบัณฑิตฯ แล้วก็ยังไม่มี คาดว่าอาจารย์อาจจะกำหนดขึ้นใช้เอง ส่วนตัวแล้วคิดว่าตรงกับความหมายดีนะ) ทีนี้การเรียนรู้ของเครื่องแปลว่าอะไรล่ะ การเรียนรู้ของเครื่องเป็นสาขาหนึ่งของปัญญาประดิษฐ์ หรือที่รู้จักกันในชื่อย่อว่า AI ถ้าจะนิยามแบบการตลาด การเรียนรู้ของเครื่อง ก็คือ งานวิจัยเพื่อหาวิธีการทำให้ระบบคอมพิวเตอร์สามารถเรียนรู้ ปรับปรุงตัวเองได้ เพราะเราถือว่าการเรียนรู้เป็นตัวแทนอย่างหนึ่งของปัญญา นิยามนี้คงดูเพ้อฝันไปหน่อย แต่มีความหมายที่คนทั่วไปเข้าใจได้ง่ายๆ ส่วนนิยามสำหรับนักวิจัย ก็คือ การศึกษาวิธีวิเคราะห์เพื่อจำแนก หรือแจกแจงข้อมูลจำนวนมาก โดยเป็นสาขาที่มีความเกี่ยวข้องกับวิชาสถิติค่อนข้างมาก ส่วนใหญ่การเรียนรู้ของเครื่องจะเป็นฝ่ายเอาความรู้จากวิชาสถิติมาประยุกต์ใช้

ทีนี้คงจะสงสัยกันแล้วสิว่า การเรียนรู้เกี่ยวข้องกับการวิเคราะห์ข้อมูลได้อย่างไร เนื่องจากการเรียนรู้ของมนุษย์ที่สังเกตได้ง่ายที่สุด ก็คือ การจำแนกและจัดกลุ่ม มนุษย์เราต้องจำแนกแยกแยะ สิ่งต่างๆ ตลอดเวลา เวลาอ่านหนังสือ ก็ต้องแยกตัวหนังสือแต่ละตัว ว่าคือตัวอะไร แล้วถึงจะนำมาประกอบกัน เป็นคำได้ สิ่งที่สังเกตได้จากตัวเองก็คือ ตอนที่เริ่มเรียนภาษาญี่ปุ่นใหม่ๆ จะไม่สามารถแยกแยะตัวคันจิได้ เพราะรู้สึกว่าแต่ละตัวเขียนด้วยเส้นหลายๆ เส้น ซับซ้อนมาก จนดูเหมือนกันไปหมด พอเรียนมาเรื่อยๆ เห็นบ่อยๆ ก็จะชินตา และสามารถแยกแยะได้ว่า แต่ละตัวไม่เหมือนกัน ทำให้รู้สึกได้ว่า สมองเราก็รู้จักแบ่งแยก และรู้จำตัวอักษรใหม่ๆ ได้เนอะ พอกลับมาที่คอมพิวเตอร์ เราก็อยากให้ทำแบบเดียวกันได้ เช่น ถ้ามีรูป ก.ไก่ อยู่ ก็อยากให้คอมพิวเตอร์บอกได้ ว่านี่คือตัวก.ไก่นะ รูปก.ไก่นั้น พออยู่ในคอมพิวเตอร์ มันก็คือข้อมูลชุดหนึ่ง เป็นกลุ่มของจุดสีขาวดำที่เรียงต่อกัน การเรียนรู้ก็เลยกลายเป็นการวิเคราะห์ข้อมูล แล้วสร้างโมเดลบางอย่างขึ้น เพื่อให้เครื่องสามารถแบ่งแยก หรือจัดกลุ่มชุดข้อมูลได้ ทำให้มีการแบ่งการเรียนรู้ออกเป็นสองประเภทใหญ่ๆ คือ แบบมีคนสอน กับ แบบไม่มีคนสอน การเรียนรู้แบบมีคนสอนก็คือ มีตัวอย่างมาให้ พร้อมกับบอกมาด้วยว่า ข้อมูลแต่ละตัวอยู่กลุ่มไหน เช่น ให้รูป ก.ไก่ มาพร้อมกับบอกมาด้วยว่า นี่คือก.ไก่ นะ ส่วนแบบไม่มีคนสอน ก็คือ ให้แต่ตัวอย่างมา แล้วให้ระบบแบ่งแยกเอาเอง โดยดูจากความคล้าย และการกระจายของตัวอย่าง