Theo bạn vấn đề khó khăn nhất khi xây dựng một bộ máy tìm kiếm thông tin web là gì? Lý giải cho nhận định đó.
Câu 3: Theo bạn vấn đề khó khăn nhất khi xây dựng một bộ máy tìm kiếm thông tin web là gì? Lý giải cho nhận định đó.
Các trở ngại cơ bản nhất khi xây dựng một bộ máy tìm kiếm thông tin web là:
Ngôn ngữ: Có rất nhiều ngôn ngữ trên thế giới, do đó có rất nhiều tài liệu được viết với rất nhiều ngôn ngữ, dẫn đến một trở ngại lớn cho việc tra cứu thông tin. Có ba giải pháp cho việc này, một là dịch câu truy vấn của người dùng sang các ngôn ngữ của tài liệu, hai là dịch ngôn ngữ của tài liệu về ngôn ngữ của câu truy vấn, ba là kết hợp cả hai phương pháp trên. Sự đa dạng về ngôn ngữ cũng đã tạo ra hàng loạt các khó khăn lớn về các phương pháp lập chỉ mục và xây dựng hệ thống tìm kiếm, vì với mỗi ngôn ngữ khác nhau sẽ có những cú pháp khác nhau và cách tiếp cận khác nhau để thực hiện mục đích tìm kiếm văn bản.
Chính tả: Vấn đề chính tả là một khó khăn lớn trong việc thực hiện xây dựng một bộ máy tìm kiếm. Thông thường người dùng nhập vào các câu truy vấn để tìm kiếm một thông tin cần thiết, và các câu truy vấn không nhất thiết phải đúng chính tả. Vấn đề ở đây là với câu truy vấn đầu vào không cần viết đúng chính tả, nhưng bộ máy tìm kiếm vẫn phải hiểu được ý muốn của người dùng và trả về những kết quả phù hợp với mục đích tìm kiếm.
Thói quen của người dùng: Thông thường người dùng chỉ nhập vào câu truy vấn những từ khóa quan trọng và không nhiều, không đủ để tìm kiếm được thông tin mong muốn, và họ phải gõ lại câu truy vấn và thay đổi từ khóa, việc này sẽ gây ra khó chịu cho người sử dụng và giảm tính hiệu quả của hệ thống tìm kiếm. Chính vì thế, cần có những phương pháp hữu hiệu để phân tích từ khóa người dùng, đảm bảo trả về kết quả mong muốn và gần nhất với yêu cầu người dùng.
Sự nhập nhằng giữa từ khóa nhập vào và từ khóa trong tài liệu: Một trong những vướng mắc gặp phải thường xuyên là câu truy vấn có các từ khóa không trùng khớp với từ ngữ được sử dụng trong các văn bản tài liệu tìm kiếm. Do đó cần phải có các thủ thuật như sử dụng từ đồng nghĩa và phản hồi tương đồng để hạn chế đến mức tối thiểu trở ngại này.
Đặc tính của người dùng: Người sử dụng thường không cố gắng lắm trong việc nhập vào các câu truy vấn sao cho hiệu quả, mà chỉ thường cung cấp những gì họ suy nghĩ hay thậm chí là những gì họ có thể nhớ để viết thành một từ khóa. Người dùng luôn mong muốn tìm được những kết quả như ý với nổ lực thấp nhất, do đó, một hệ thống tìm kiếm đáp ứng được nhu cầu này nếu đó là một hệ thống tìm kiếm hiệu quả và làm hài lòng người sử dụng.
Các trở ngại cơ bản nhất khi xây dựng một bộ máy tìm kiếm thông tin web là:
Ngôn ngữ: Có rất nhiều ngôn ngữ trên thế giới, do đó có rất nhiều tài liệu được viết với rất nhiều ngôn ngữ, dẫn đến một trở ngại lớn cho việc tra cứu thông tin. Có ba giải pháp cho việc này, một là dịch câu truy vấn của người dùng sang các ngôn ngữ của tài liệu, hai là dịch ngôn ngữ của tài liệu về ngôn ngữ của câu truy vấn, ba là kết hợp cả hai phương pháp trên. Sự đa dạng về ngôn ngữ cũng đã tạo ra hàng loạt các khó khăn lớn về các phương pháp lập chỉ mục và xây dựng hệ thống tìm kiếm, vì với mỗi ngôn ngữ khác nhau sẽ có những cú pháp khác nhau và cách tiếp cận khác nhau để thực hiện mục đích tìm kiếm văn bản.
Chính tả: Vấn đề chính tả là một khó khăn lớn trong việc thực hiện xây dựng một bộ máy tìm kiếm. Thông thường người dùng nhập vào các câu truy vấn để tìm kiếm một thông tin cần thiết, và các câu truy vấn không nhất thiết phải đúng chính tả. Vấn đề ở đây là với câu truy vấn đầu vào không cần viết đúng chính tả, nhưng bộ máy tìm kiếm vẫn phải hiểu được ý muốn của người dùng và trả về những kết quả phù hợp với mục đích tìm kiếm.
Thói quen của người dùng: Thông thường người dùng chỉ nhập vào câu truy vấn những từ khóa quan trọng và không nhiều, không đủ để tìm kiếm được thông tin mong muốn, và họ phải gõ lại câu truy vấn và thay đổi từ khóa, việc này sẽ gây ra khó chịu cho người sử dụng và giảm tính hiệu quả của hệ thống tìm kiếm. Chính vì thế, cần có những phương pháp hữu hiệu để phân tích từ khóa người dùng, đảm bảo trả về kết quả mong muốn và gần nhất với yêu cầu người dùng.
Sự nhập nhằng giữa từ khóa nhập vào và từ khóa trong tài liệu: Một trong những vướng mắc gặp phải thường xuyên là câu truy vấn có các từ khóa không trùng khớp với từ ngữ được sử dụng trong các văn bản tài liệu tìm kiếm. Do đó cần phải có các thủ thuật như sử dụng từ đồng nghĩa và phản hồi tương đồng để hạn chế đến mức tối thiểu trở ngại này.
Đặc tính của người dùng: Người sử dụng thường không cố gắng lắm trong việc nhập vào các câu truy vấn sao cho hiệu quả, mà chỉ thường cung cấp những gì họ suy nghĩ hay thậm chí là những gì họ có thể nhớ để viết thành một từ khóa. Người dùng luôn mong muốn tìm được những kết quả như ý với nổ lực thấp nhất, do đó, một hệ thống tìm kiếm đáp ứng được nhu cầu này nếu đó là một hệ thống tìm kiếm hiệu quả và làm hài lòng người sử dụng.
Comments
Post a Comment