Saturday, January 21, 2012

Bàn về một số máy tìm kiếm tiếng Việt


Nói về tìm kiếm tiếng Việt, xalo có thể nói là được đầu tư sớm nhất (tiền thân là vinaseek). Sau đó có socbay, và bây giờ là itim.vn (xem trong địa chỉ email của người tuyển dụng). (vietica cũng có thể kể vào danh sách nhưng nó là cty nước ngoài nên tôi ko tính).

Rất nhiều người khi nói đến vấn đề tìm kiếm là nghĩ ngay đến Google. Thực ra, phần tìm kiếm có 2 mảng chính: Internet và Intranet (tạm chia như vậy). Internet dùng để chỉ các trang web/tài liệu truy cập được một cách công cộng. Intranet dùng để chỉ các trang web nội bộ, ví dụ hệ thống văn bản, tài liệu của một công ty, một cơ quan nhà nước, hoặc là cơ sở dữ liệu của các công ty thương mại ví dụ amazon, ebay, vatgia, etc.

Nếu nói về tìm kiếm Internet, thì Google bây giờ ko có đối thủ. Chỉ có vài nước như Nga, Trung Quốc, (và hình như Hàn Quốc), Google bị bỏ lai bởi các cty trong nước như Yandex, Baidu. Tuy nhiên phải xét thêm về hòan cảnh của từng nước thì sẽ thấy có nhiều lí do khác (ví dụ Trung Quốc có tường lửa nên xem như số lượng trang truy cập công cộng bị hạn chế). Nếu ai đó nói rằng muốn làm search enginecạnh tranh với Google ở VN, tôi ko bao giờ nghĩ nó thành công (trừ phi VN làm giống Trung Quốc, dựng tường lửa). Có 2 lí do, thứ nhất về công nghệ thì chắc cũng chỉ tương đương Google, và thứ hai, quan trọng hơn là thay đổi thói quen của người dùng.

Nhưng nếu nói về Intranet, thì tôi tin nếu ai làm nghiêm túc thì sẽ thành công. Google có Google Apps dùng để index và search cho Intranet, nhưng ở VN, chắc là ko có đơn vị nhà nước nào muốn mua cái app đó vì nó quá risky. Bên cạnh các cơ quan nhà nước, các công ty mà có cơ sở dữ liệu lớn, kiểu như vatgia thì chắc chắn phải cần một công cụ index và tìm kiếm hiệu quả. Ở Nhật, công ty Rakuten (hiện là No 1 về TMĐT), theo tôi biết trước đó dùng FAST search (hiện giờ được Microsoft mua lại). Hình như kakaku, cũng vậy. 

xalo, theo như thông tin trước đây thì họ mua bản quyền của FAST search, sau đó customize lại. socbay thì tôi ko rõ, hình như họ tự phát triển công nghệ của họ.

Tuy nhiên 2 site xalo và socbay, chủ yếu chỉ làm tổng hợp tin tức (mà việc này thì baomoi làm tốt hơn), còn việc tìm kiếm thì hình như chỉ mới làm tìm âm nhạc (chắc là học theo baidu, nhưng mà tìm nhạc thì nhaccuatui hay zing mp3 cũng đã đủ xài). Nói như vậy để thấy có vẻ như các công ty kiểu này hoặc là chưa có công nghệ vượt trội, hoặc là vẫn đang loay hoay với hướng đi của mình.

Cũng nói thêm về tìm kiếm tiếng Việt. Ko ít người chỉ nghĩ đến phần máy tìm kiếm, nhưng ít ai nghĩ đến gốc của vấn đề đó là văn bản, tài liệu tiếng Việt. Hiện nay, văn bản tiếng Việt trên Internet đa số là tin tức và rao vặt. Nói cách khác là tính đa dạng và phần tri thức vẫn còn ít. Với cái cơ sở dữ liệu kiểu này thì có làm kiểu gì cũng khó mà hơn Google. Nhưng nếu nhìn vào Intranet, sẽ thấy sự đa dạng của nó đồng thời có những nhu cầu rất cụ thể mà Google ko thể đụng đến được.

Hồi năm 2009, tôi có viết một bài về semantic search ở đây: http://searchvn.blogspot.com/2009/03/ban-ve-kha-nang-tim-kiem-ngu-nghia-cua.html 

Lê Đình Duy

Tuesday, January 17, 2012

Chương trình "Như chưa hề có cuộc chia ly" và Ứng dụng nhận dạng khuôn mặt



Vừa rồi trong chuyến công tác tại VN, tôi tình cờ xem lướt qua chương trình TV"Như chưa hề có cuộc chia ly". Sau chương trình là mục nhắn tìm người thân, trong đó tivi chiếu tấm ảnh mà người ta muốn tìm lên. Cách làm này thực ra không hiệu quả vì thời gian có hạn nên số lượng ảnh có thể chiếu trên tivi không được nhiều, đó là chưa kể người cần tìm chưa chắc đã xem ct tivi này.

Câu chuyện này làm tôi nảy ra một ý định: Tại sao mình ko thể xây dựng một website hỗ trợ tìm người thân nhỉ? 

Website này sẽ cho phép những người cần tìm người thân gửi lên đó các ảnh mà họ muốn tìm, sau đó hệ thống sẽ tìm trong cơ sở dữ liệu ảnh hiện có xem có ảnh nào gần với ảnh đã gửi lên hay không. 

Đặc điểm của hệ thống này là người dùng ko bị hạn chế như chương trình tivi. Họ có thể dùng bất cứ lúc nào và số lượng ảnh sẽ rất lớn. Do đó, sẽ rất hữu ích.

Việc xây dựng một website để thu nhận ảnh từ người cần tìm thì không khó. Vấn đề khó ở đây là làm thế nào để có thể so khớp (match) các face của người 40-50 năm về trước với người bây giờ, và làm thế nào để có thể tăng tốc độ tìm kiếm gần với thời gian thực. Đây là chuyện mà ko phải ai cũng có thể làm được. Đó cũng có thể là lí do mà tại sao hiện nay, các website tìm người thân vẫn chưa hoạt động hiệu quả.

Hãy tưởng tượng chúng ta đã có sẵn một cơ sở dữ liệu với 100,000 bức ảnh của những người muốn tìm người thân. Một người dùng A lạc mất người thân muốn tìm xem người họ cần tìm có nằm trong cơ sở dữ liệu đó hay ko. Một chương trình lí tưởng là có thể giúp người dùng A đó tìm ra người thân của họ nếu người thân của họ có ảnh trong cơ sở dữ liệu. Hoặc, có thể giúp người dùng A lọc ra những ứng viên để họ có thể liên lạc và kiểm chứng.

Tôi rất muốn có người cùng làm dự án này. Sẽ rất tốt nếu nó là dự án của các bạn SV ĐH. Các bạn quan tâm, có thể liên hệ với tôi để bàn việc triển khai dự án này. 

Để dự án này thực sự hoạt động, tất nhiên là rất cần các khoản đầu tư để duy trì website, etc. Tôi hi vọng cũng có được sự quan tâm của các mạnh thường quân.

Lê Đình Duy
Related Posts Plugin for WordPress, Blogger...