10 ม.ค. 2564 5,071 0

Tech Monday : อัปเดตเรื่อง Optical Character Recognition กับดร. อิทธิพันธ์ เมธเศรษฐ

Tech Monday : อัปเดตเรื่อง Optical Character Recognition กับดร. อิทธิพันธ์ เมธเศรษฐ

เราเคยได้ยิน เทคโนโลยีการแปลงรูปภาพของตัวอักษร ให้กลายเป็นข้อมูลที่สามารถนำไปใช้ต่อได้ หรือรู้จักกันในชื่อของ OCR ย่อมาจาก Optical Character Recognition ปัจจุบันเทคโนโลยีนี้ จะก้าวล้ำไปขนาดไหน เรามาอัปเดตกับ คุณตั้ม ดร.อิทธิพันธ์ เมธเศรษฐ กับเทคนิคในการแปลงข้อมูลสู่ดิจิตอล 

โดยคุณตั้ม เป็น CTO ของ Ztrus ทำเทคโนโลยี OCR พยายามนำมาใช้ในงานจริงเพื่อให้เกิด Automation ในการทำงาน


OCR คืออะไร

OCR เป็นเทคโนโลยีแรกๆ ของ AI เลย โดยแปลงรูปของตัวอักษรบนรูปภาพ ให้กลายเป็นตัวอักษรจริงๆ ปกติเป็น core ตรงกลาง แต่ใช้ผสมกับเทคนิคต่างๆ กับ Computer vision ให้ความพิวเตอร์รู้ว่าอยู่ตรงไหน เช่น รูปภาพตรงไหน ให้ความหมายอะไร กับระบบที่มี โดย OCR อ่านเป็น Text ให้เรา ทำให้รูปภาพเป็น Text 

OCR มีมานานแล้ว สัก 30 ปีที่แล้ว เราเคยเห็น ซอฟต์แวร์ OCR ภาษาอังกฤษ บน Windows มีเยอะ แต่เป็นภาษาอังกฤษ ส่วนภาษาไทยก็มี แต่ซอฟต์แวร์ไม่ประสบความสำเร็จเท่าไหร เป็นงานวิจัยในมหาวิทยาลัยและงานวิจัยซะมากกว่า 

ต่อมา มีการใช้ Deep Learning ทำให้เทคโนโลยี OCR ก้าวกระโดด ปกติแปลงค่าเป็นตัวอักษรได้ แต่ถ้าอยู่บนพื้นผิวไม่ชัด จะทำงานไม่ได้ แต่กับยุคนี้ ใช้ Deep Learning อ่านและวิเคราะห์ได้ ตอนนี้เลยมีความยืดหยุ่นสูงมากๆ ในช่วง 4 - 5 ปีที่ผ่านมา ถ้ายกตัวอย่างการใช้งานคือ กล้องวงจรปิด ใช้ OCR อ่านป้ายทะเบียนรถ

OCR เริ่มตั้งแต่ Input เลย ก้าวแรก Input มายังไง แล้วจะรู้ได้ยังไงว่ารูปนี้มี Text อยู่ รูปแบบตัวอักษร เมื่อก่อนจะต้องรู้ว่าฟอนต์อะไร ตอนนี้ต้องทำได้ทุกฟอนต์ เพราะคอมพิวเตอร์มีความยืดหยุ่นในการตัดสินใจค่อนข้างเยอะ OCR ได้ข้อความมาแล้ว ต้องก้าวข้ามกำแพง ไม่ใช่แค่ Text สิ่งสำคัญต้องอ่านข้อความที่สำคัญให้ระบบได้ ไม่ใช่แค่ tools ต้องสกัด ข้อความสำคัญทำให้เกิด Automation

สรุปคือ รูปภาพนั้นมีตัวอักษรหรือเปล่า ข้อความสำคัญคือตรงไหน มีความหมายอะไร ตอนนี้ OCR ใช้เยอะ ด้วย Deep Learning ทะลายกำแพงยากๆ ได้ ทำให้เกิดการนำไปใช้งานได้จริง

Deep Learning เป็นเทคนิคที่ทำให้คอมพิวเตอร์ เลียนแบบสิ่งที่มนุษย์คิด จากเดิมห่างไกลจากมนุษย์ พอมี Deep Learning ทำให้สามารถทำงานได้ซับซ้อนแบบที่มนุษย์ทำได้

การทำ OCR ยากสุดคือการนำไปใช้ต่อ ตอนนี้เก็บข้อมูลได้ง่ายขึ้น ตอนนี้คนถ่ายรูปกันเยอะ ทำให้เห็นมี text เยอะ เอามาทำ label ได้ง่ายขึ้นเยอะ ภาษาไทยเองก็คล้ายกับภาษาต่างประเทศในระดับนึง ทำได้ดีแล้ว ภาษาไทยก็ทำให้เทคโนโลยีต่างๆ ระดับโลกต้องปรับ ภาษาไทยก็ยาก ต้องแปลง และปัญหาคือไม่ตัดคำ

เอกสารที่สแกนมา ต้องมี pattern ที่ชัดเจน ความหลากหลายของ pattern จะไม่ยาก แต่จะไม่ชัด มันก็เลยยาก เช่น แสงสะท้อน ลายน้ำ การใช้โปรแกรมอ่านบัตรประชาชน แอปอ่านนามบัตร ก็ใช้ OCR พอไม่มี pattern แต่ดูข้อมูลได้ เราให้ Deep Learning เข้าใจแนวทางได้ เข้าใจว่าตัวอักษรคืออะไร อย่างนามบัตร ตอนนี้ระบบเข้าใจมากขึ้น

เทคโนโลยี OCR เจ้ายักษ์ของโลก Google, AWS, Microsoft ทุกเจ้ารองรับภาษาไทย รันบนคลาวด์ ประสิทธิภาพสูง แต่บริษัทในไทย ใช้เทคโนโลยีสมัยใหม่ สามารถ Customized ให้เหมาะกับเราได้ เราสามารถทำให้ระบบอยู่บน cloud ได้ หรือบนเครื่องก็ได้ คล่องตัวกว่า บางอย่างไม่ยอมให้ข้อมูลออกนอกประเทศ ก็เลยใช้บน cloud ไม่ได้

อนาคตของ OCR จะเป็นอย่างไร

ตอนนี้ทำได้ดีมากๆ เรื่อง Understanding ด้วยเทคโนโลยี AI ทำได้ดี ถัดไปคือ เข้าสู่ยุคให้ Information เกิดความเข้าใจ รู้ว่าคืออะไร ควรให้ความสำคัญไหน ควรเอาไปใช้กับใคร เราหลีกเลี่ยงเอกสารที่เป็นรูปภาพไม่ได้เลย แต่ยังไงเทคโนโลยีก็ยังไม่ 100% สุดท้ายก็ต้องมีมนุษย์คุมอยู่ดี

คุณตั้มฝากไว้ว่า เทคโนโลยีกำลังเข้ามา ต้องเริ่มกลับมามองตนเอง ว่าเทคโนโลยีที่มีจะมาช่วยเราได้อย่างไรใน 3 - 5 ปีนี้ งานบางอย่างเราจะลดลง อาจจะหันกลับมามองคนและกระบวนการ ต้องเริ่มปรับมากขึ้น