Phân tích và dự báo các xu hướng nghiên cứu chính về lĩnh vực thư viện số trên thế giới

E-mail Print

1. Lời nói đầu

Phân tích và dự báo xu hướng nghiên cứu đóng vai trò quan trọng trong đánh giá, lập kế hoạch nghiên cứu và phát triển đối với bất kỳ lĩnh vực khoa học nào. Trong lĩnh vực TVS, mặc dầu có nhiều nghiên cứu sử dụng các phương pháp thống kê phân tích số liệu về nghiên cứu TVS như: phân tích trích dẫn (Citation Analysis), phân tích đồng trích dẫn (Co-citation Analysis), biểu đồ và mô hình hóa trong trắc lượng thư mục (Graphing and Visualisation in bibliometrics), trắc lượng thư mục theo năm (xuất bản phẩm, tên tạp chí, tên tác giả, cơ quan tác giả, từ khóa)…, tuy nhiên có một khoảng trống lớn về nghiên cứu phân tích - dự báo xu hướng nghiên cứu TVS ở mức độ tổng thể (bao trùm toàn bộ lĩnh vực TVS). Việc hạn chế trong nghiên cứu này xuất phát từ 2 lý do sau:

- Chưa có khung chủ đề về nghiên cứu TVS (bản đồ tri thức về TVS) để bao quát toàn bộ lĩnh vực tri thức nghiên cứu TVS và để làm cơ sở phân tích, đánh giá về toàn bộ bức tranh nghiên cứu TVS.

- Hạn chế trong việc sử dụng Phân tích hồi quy (PTHQ): Regression Analysis: Là một phương pháp phân tích thống kê xác định giá trị kỳ vọng của một hay nhiều biến ngẫu nhiên được dự đoán dựa vào điều kiện của các biến ngẫu nhiên (đã tính toán) khác. Ví dụ: Dự báo xu hướng (tăng hay giảm) số lượng xuất bản phẩm về nghiên cứu TVS theo năm,  dự báo xu hướng (tăng hay giảm) số lượng các chủ đề mới xuất hiện về nghiên cứu TVS theo năm.

Do vậy, dựa trên bản đồ tri thức về TVS bao gồm 21 chủ đề chính và 1.015 chủ đề phụ giai đoạn (1990-2010) [4,6], nhóm nghiên cứu Nguyễn Hoàng Sơn và Gobinda Chowdhury, Đại học Công nghệ Sydney [5] đã sử dụng phương pháp trắc lượng thư mục (TLTM) và PTHQ để tính toán và dự báo (xu hướng tăng hoặc giảm) số lượng xuất bản phẩm và số lượng các chủ đề mới xuất hiện về nghiên cứu TVS theo năm. Kết quả nghiên cứu được công bố trên tạp chí Springer Verlag’s Lecture Notes in Computer Science trong hội nghị quốc tế về TVS châu Á – Thái Bình Dương ICADL 2012 (International Conference on Asia - Pacific Digital Libraries 2012) [5]. Bài viết này nhằm tóm tắt và báo cáo kết quả nghiên cứu để cộng đồng thông tin-thư viện (TTTV) Việt Nam nắm được xu hướng nghiên cứu TVS của thế giới trong tương lai để từ đó hoạch định hướng nghiên cứu TVS Việt Nam.

2. Phương pháp nghiên cứu

Như đã trình bày ở phần trên, nhóm tác giả đã dùng 3 công cụ: 1. Bản đồ TVS (1990-2010) gồm 21 chủ đề chính và 1.015 chủ đề phụ [4,6]; 2. TLTM; 3. PTHQ [1,2,3]  để phân tích và dự báo hướng nghiên cứu chính (tăng hoặc giảm) về TVS. Quá trình thực hiện như sau:

Thu thập dữ liệu: Nhóm tác giả đã sử dụng cơ sở dữ liệu SCOPUS (là cơ sở dữ liệu lớn nhất thế giới về tóm tắt và trích dẫn các bài viết nghiên cứu đã được bình duyệt peer - reviewed) [7]. Từ khóa  về TVS “Digital Librar*” được dùng để tìm trong trường từ khóa giới hạn thời gian (1990 – 2010). Kết quả tìm là 7.905 biểu ghi về TVS. Tiếp đến, 1.015 chủ đề phụ của bản đồ tri thức TVS được dùng làm từ khóa để tìm trong kết quả  7.905 biểu ghi về TVS. Các thông tin về (số lượng xuất bản phẩm theo năm, sự xuất hiện đầu tiên của chủ đề phụ theo năm) được chuyển sang phần mềm Microsoft Excel 2007 cho các tính toán và phân tích sau này.

Tính toán giá trị R2 (R-Squared) của  PTHQ: Giá trị R2 là một số nằm trong khoảng 0 và 1. Nó cho biết mức độ (gần hay xa) của các giá trị dự tính đối với một đường thẳng trong đồ thị tương ứng tập hợp các dữ liệu thực tế. Một đường thẳng có giá trị tin cậy nhất khi giá trị R2 gần hoặc bằng 1 (ngược lại, nếu R2 gần hoặc bằng 0 thì đường thẳng không đáng tin cậy) [1,2,3]. Trong nghiên cứu này, giá trị R2 được tính toán dựa trên mức độ tương ứng: giữa các biến số (biến số “Số lượng xuất bản phẩm TVS” hay biến số “Số lượng chủ đề TVS mới xuất hiện”) tương ứng với biến “Năm”. Xu hướng nghiên cứu TVS sẽ được xác định dựa trên 3 loại đường thẳng sau: Xu hướng tăng (Sự tương ứng tích cực của các biến: số lượng xuất bản phẩm tăng theo năm), Xu hướng giảm (Sự tương ứng tiêu cực của các biến: số lượng xuất bản phẩm giảm theo năm), Không xác định (Không có sự tương ứng hay liên hệ giữa các biến).

3. Kết quả nghiên cứu

Để đảm bảo thông tin tính chính xác trong kết quả nghiên cứu, tên của các chủ đề chính bằng tiếng Anh được giữ nguyên. Bảng 1 dưới đây cung cấp nghĩa tiếng Việt và số lượng chủ đề phụ của các chủ đề chính được trích từ bản đồ tri thức TVS (1990-2010) [6].

alt

Bảng 1: Chú thích tên 21 chủ đề chính TVS

3.1. Phân tích và dự báo các xu hướng xuất bản phẩm về TVS:

Ở hình 1, số lượng xuất bản phẩm của 1 chủ đề chính bằng tổng xuất bản phẩm của các chủ đề phụ. Một điều lưu ý là số lượng xuất bản phẩm ở một số chủ đề chính như: #8. Architecture – Infrastructure (15.339), #19. DL Research & Development (14.210)… lớn hơn số lượng 7.905 các xuất bản phẩm về TVS. Điều này xảy ra vì mỗi một bài viết nghiên cứu thường được mô tả bằng nhiều từ khóa (chủ đề phụ) và do đó một bài viết thường thuộc về nhiều chủ đề phụ. Cũng có trường hợp có chủ đề phụ lại thuộc về nhiều chủ đề chính. Do vậy sự trùng lặp là không thể tránh khỏi trong tính toán này.

alt

Đồ thị 1: Xu hướng các xuất bản phẩm TVS của 21 chủ đề chính giai đoạn (1990-2010)

alt

Đồ thị 2: Dự báo xu hướng tổng số xuất bản phẩm TVS

Trong đồ thị 1, năm 1993 được coi là điểm khởi đầu của nghiên cứu TVS với sự xuất hiện của 9 chủ đề chính (cùng với số lượng bài nghiên cứu) như: Architecture – Infrastructure (16), DL Research & Development (5), Information Retrieval (4), Digital Collections (3), Digital Library Applications (7), Human - Computer Interaction (1), Digital Library Services (5), User Studies (2), và Digital Preservation (2). Một năm sau, có 6 chủ đề chính xuất hiện (Information Organization; Digital Library Management; Knowledge Management; Cultural, Social, Legal, Economic Aspects; Virtual Technologies and Access) với lượng bài viết tương ứng với mỗi chủ đề là: 3, 1, 1, 1, 2, 1. Sau đó, có 5 chủ đề chính xuất hiện: Intellectual Property, Privacy, Security (6) vào năm 1995; Semantic Web (Web 3.0) (1) vào năm 1996; Digital Library Education (2) vào năm 1996; Social Web (Web 2.0) (1) vào năm 1999;  Information Literacy (2) vào năm 1999. Ở đồ thị 2, tất cả 21 chủ đề chính này tăng dần đến năm 2000 (với lượng bài viết là 1.450) và từ đó tăng mạnh đến năm 2005 (với lượng bài viết là 7.495) và đạt đỉnh là 8.101 bài viết vào năm 2006, sau đó từ từ giảm đến 6.503 vào năm 2010. Từ 2 đồ thị cho chúng ta thấy giai đoạn (2004-2010) là giai đoạn bùng nổ của nghiên cứu TVS khi các chủ đề đạt đỉnh điểm số lượng bài viết, như:

- 6 chủ đề chính vào năm 2004: Architecture – Infrastructure (2.052); Information Organization (771); Digital Collections (649); Digital Library Management (219); Intellectual Property, Privacy, Security (145); Information Literacy (39);

- 1 chủ đề chính vào năm 2005: Knowledge Management (201);

- 4 chủ đề chính vào năm 2006: DL Research & Development (1945), Information Retrieval (630), Digital Library Applications (495), Digital Library Education (33);

- 3 chủ đề chính vào năm 2007: Human - Computer Interaction (317); Digital Library Services (372); Access (103);

- 3 chủ đề chính vào năm 2009: User Studies (311); Digital Preservation (264); Virtual Technologies (169);

- 4 chủ đề chính vào năm 2010: Cultural, Social, Legal, Economic Aspects (178); Semantic Web (Web 3.0) (144); Mobile Technology (59); Social Web (Web 2.0) (93).

alt

Bảng 2: Số lượng xuất bản phẩm TVS (1990-2010) so với giá trị  R­2

Trong bảng 2, chúng ta thấy rằng mặc dầu các chủ đề chính:  Architecture – Infrastructure (15.339), DL Research & Development (14.210), Information Organization (6.036), Information Retrieval (5.365) và Digital Collections (4.593) là 5 chủ đề có nhiều bài viết nhất, nhưng chúng không phải là các chủ đề chính có xu hướng tăng mạnh trong tương lai vì các giá trị R2 lần lượt là 0.69; 0.82; 0.80; 0.79; 0.69. Ngược lại, các chủ đề chính có số bài viết ít hơn như: User Studies (2.485), Mobile Technology (359), Virtual Technologies (1.105), Semantic Web (Web 3.0) (590), Digital Preservation (2.141) lại là các chủ đề có xu hướng tăng mạnh nhất với giá trị R2 lần lượt là 0.92; 0.92; 0.87; 0.84; 0.84.

Một điều cần ghi nhớ là số lượng bài viết theo năm chỉ có thể cho chúng ta biết xu hướng (tăng hay giảm theo năm) đã và đang xảy ra (trong quá khứ). Trong khi đó, giá trị R2 lại cho chúng ta biết tương lai của xu hướng này.

Nói tóm lại, dựa trên đồ thị 2, tương lai nghiên cứu TVS (thông qua số lượng tăng xuất bản phẩm) có xu hướng tăng mạnh với giá trị R2 = 0.836 (giá trị rất đáng tin cậy vì gần giá trị 1).

3.2. Phân tích và dự báo xu hướng số lượng các chủ đề phụ mới về TVS

Đồ thị 3 và 4 cho thấy số lượng các chủ đề phụ mới xuất hiện theo năm với những xu hướng sau:

alt

Đồ thị 3: Xu hướng xuất hiện các chủ đề phụ về TVS(1990-2010)

alt

Đồ thị 4: Dự báo xu hướng xuất hiện các chủ đề phụ về TVS

Trong đồ thị 3, có 9 chủ đề chính có chủ đề phụ xuất hiện vào năm 1993, đó là: Architecture – Infrastructure (14); Information Retrieval (3); Digital Library Applications (6); Human - Computer Interaction (1); User Studies (2); DL Research & Development (4); Digital Collections (2); Digital Preservation (2); Digital Library Services (3). Một năm sau đó, có 6 chủ đề chính khác có chủ đề phụ xuất hiện là: Information Organization (3); Knowledge Management (1); Digital Library Management (1); Cultural, Social, Legal, Economic Aspects (1); Virtual Technologies (2); Access (1). Tiếp đến, có 6 chủ đề  chính khác có chủ đề phụ xuất hiện là: Intellectual Property, Privacy, Security (3) vào năm 1995; Semantic Web (Web 3.0) (1), Mobile Technology (1) và Digital Library Education (1) vào năm 1996; Social Web (Web 2.0) (1) và Information Literacy (2) vào năm 1999. Có thể thấy rằng, 2011 là năm mà các chủ đề chính có nhiều chủ đề phụ xuất hiện nhất, như: Architecture – Infrastructure (15) (và tiếp tục có 15 chủ đề phụ vào năm 1995 và 1996); Information Organization (20); User Studies (10); Digital Library Management (9); Digital Collections (5) (và tiếp tục lại có 5 chủ đề phụ vào năm 1998 và 1999); Digital Preservation (11); Virtual Technologies (4); Information Literacy (4); Access (3). Xếp ở vị trí thứ 2, năm 2002 cũng có số lượng chủ đề phụ xuất hiện nhiều nhất, đó là: Digital Library Applications (9); Human - Computer Interaction (11); Digital Library Services (4); and Cultural, Social, Legal, Economic Aspects (8). Các chủ đề chính khác cũng có số lượng chủ đề phụ xuất hiện nhiều nhất vào các năm sau đó như: Intellectual Property, Privacy, Security (5) trong năm 2003; Knowledge Management (8) trong năm 2005; Semantic Web (Web 3.0) (7) và Social Web (Web 2.0) (6) trong năm 2007; Mobile Technology (4) trong năm 2009.

Nhìn chung, tổng số chủ đề phụ xuất hiện vào năm 1993 là 37 chủ đề, sau đó dao động ở số lượng từ 37 tới 82 chủ đề trong giai đoạn 1995 – 2000, và đột ngột tăng tới đỉnh là 119 chủ đề vào năm 2001, cuối cùng giảm xuống số lượng là 29 vào năm 2010 (đồ thị 4).

alt

Bảng 3: Số lượng chủ đề phụ mới (1990-2010) so với so với giá trị  R­2

Ở bảng 3, có 7 chủ đề chính có số lượng chủ đề phụ mới có xu hướng tăng, có 13 chủ đề chính có số lượng chủ đề phụ mới có xu hướng giảm và 1 chủ đề chính (Digital Library Education) không xác định được xu hướng (giá trị là #DIV/0!). Mặc dầu các chủ đề chính như: Architecture – Infrastructure (144); Information Organization (141); Information Retrieval (78); Digital Library Applications (64); và Human - Computer Interaction (61) là 5 chủ đề có số lượng chủ đề phụ mới nhiều nhất, tuy nhiên giá trị  R2  (mặc dù giá trị không lớn) cho thấy  chúng có xu hướng giảm về số lượng chủ đề phụ trong tương lai, như: Architecture - Infrastructure (0.38); Information Organization (0.23); Information Retrieval (0.18); Digital Library Applications (0.02); và Human - Computer Interaction (0.01). Còn đối với 5 chủ đề chính khác mặc dầu có số lượng chủ đề phụ không nhiều nhưng R2 (tuy giá trị không lớn) cho thấy tương lai có xu hướng tăng như: Social Web (Web 2.0) (0.24); Semantic Web (Web 3.0) (0.19); Knowledge Management (0.18); Mobile Technology (0.12); User Studies (0.01).

Nhìn chung, có xu hướng tăng về lượng chủ đề phụ vào giai đoạn (1990-2010) đạt đỉnh là 119 chủ đề vào năm 2001. Nhưng xét cả giai đoạn 2002 – 2010 thì xu hướng là giảm và tương lai về số lượng chủ đề phụ xuất hiện như đồ thị 4 cho thấy là giảm R2 = 0.0383. Tuy nhiên vì giá trị này không lớn và rất gần 0 (không đáng tin cậy) nên vẫn có khả năng là xu hướng sẽ tăng theo thời gian trong tương lai.

4. Kết luận

Nói tóm lại, tổng số lượng xuất bản phẩm về TVS của 21 chủ đề chính có xu hướng tăng mạnh trong tương lai R2 = 0.836 (rất đáng tin cậy). Tuy nhiên, tổng số lượng chủ đề phụ có xu hướng giảm trong tương lai với R2 = 0.0383. Vì giá trị này là rất gần 0 (không đáng tin cậy) nên 21 chủ đề chính vẫn có khả năng tăng chủ đề phụ trong tương lai. Qua hai bảng 2 và 3, chúng ta nhận thấy có 6 chủ đề: User Studies, Mobile Technology, Semantic Web (Web 3.0), Social Web (Web 2.0), Knowledge Management, và Digital Preservation đều có cùng xu hướng tăng cả trong số lượng xuất bản phẩm và số lượng chủ đề phụ. Điều này cho thấy các chủ đề này sẽ là hướng nghiên cứu chính về TVS trong tương lai. Tuy nhiên, chủ đề chính Digital Library Education lại có số lượng xuất bản phẩm và chủ đề phụ ít nhất với R2 không xác định. Điều này cho thấy sự quan tâm của cộng đồng TVS thế giới với chủ đề này còn giới hạn và nên cần đầu tư hơn cho chủ đề này vì đây là yếu tố quan trọng, thúc đẩy các hoạt động nghiên cứu - triển khai TVS hiệu quả hơn.

5. Một số hạn chế của nghiên cứu

Vì nghiên cứu giới hạn trong số xuất bản phẩm (biểu ghi) về TVS của 1.015 chủ đề phụ thuộc 21 chủ đề chính trong giai đoạn (1990-2010), do vậy nghiên cứu cần được cập nhật các xuất bản phẩm xuất hiện trong giai đoạn 2011-2012 để có thêm nhiều dự báo cập nhật hơn. Tương tự như vậy, cần có sự cập nhật các chủ đề phụ - chủ đề chính xuất hiện trong giai đoạn 2011 – 2012 cùng với các xuất bản phẩm TVS tương ứng. Mặc dầu mẫu nghiên cứu lấy từ SCOPUS (cơ sở dữ liệu lớn nhất thế giới về tóm tắt và trích dẫn bài viết được bình duyệt) và là cơ sở dữ liệu thương mại, do vậy nghiên cứu cũng cần mở rộng trong các cơ sở dữ liệu miễn phí, như: Google Scholar, để bao quát cả các bài viết truy cập mở (Free Access) khác về TVS.

Tài liệu tham khảo

1. Excel Help. 2007. http://office.microsoft.com/

en-au/excel-help/

2. Gray, D. Doing research in the real world, 2nd edn, SAGE, Los Angeles, 2009.

3. Hair, J.F. Research methods for business, John Wiley & Sons Ltd., Chichester, West Sussex, England ; Hoboken, N.J. 2007.

4. Nguyen Hoang Son, Gobinda Chowdhury. 'Digital Library Research (1990-2010): A Knowledge Map of Core Topics and Subtopics', ICADL 2011 vol. 7008, ed. F.C. C. Xing, and A. Rauber (Eds.), Springer-Verlag Berlin Heidelberg 2011, Beijing, p. 367-371

5. Nguyen Hoang Son, Gobinda Chowdhury.  Main Trends in Digital Library Research (1990-2010): Analyzing Past and Predicting the Future. 2012. http://www.icadl2012.org/

AcceptedPapersandPosters.html. 

6. Nguyễn Hoàng Sơn. Bản đồ tri thức về thư viện số chuẩn quốc tế và ứng dụng cho nghiên cứu – đào tạo thư viện số Việt Nam // Tạp chí Thông tin - Tư liệu. - 2012. - Số 5.

7. SCOPUS. 2011.http://www.info.sciverse.com/scopus/about

____________

ThS. Nguyễn Hoàng Sơn                                                                                                                           

Khoa Thông tin - Thư viện, ĐHKHXH&NV Hà Nội

Nguồn: Tạp chí Thư viện Việt Nam. - 2013. - Số 1. - Tr. 36-41-49.


Đọc thêm cùng chuyên mục: