هدف گوگل هميشه سازماندهي اطلاعات جهان بوده است و اولين هدف آن وب تجاري بوده است. حال مي خواهد با يک موتور جستجوي جديد براي مجموعه داده ها ، همين کار را براي جامعه علمي انجام دهد.
اين سرويس با نام Dataset Search از امروز راه اندازي مي شود و همراهي زيادي با Google Scholar ، موتور جستجوي محبوب اين شرکت براي مطالعات و گزارش هاي دانشگاهي خواهد بود. مؤسساتي که داده هاي خود را بصورت آنلاين مانند دانشگاه ها و دولت ها منتشر مي کنند ، بايد برچسب هاي فوق داده را در صفحات وب خود وارد کنند که داده هاي آنها را توصيف کند ، از جمله چه کسي آن را ايجاد کرده است ، هنگام انتشار ، نحوه جمع آوري و غيره. اين اطلاعات توسط Dataset Search فهرست بندي مي شوند و با ورودي از دانش دانش Google ترکيب مي شوند. (اين اسم آن دسته از جعبه هايي است که براي جستجوهاي رايج ظاهر مي شوند. بنابراين اگر مجموعه داده X توسط CERN منتشر شد ، برخي از اطلاعات در مورد اين موسسه نيز در نتايج گنجانده مي شود.)
موتور جستجوگر براي متحد کردن دنياي پراکنده مجموعه داده هاي آنلاين
در گفتگو با The Verge ، ناتاشا نوي ، دانشمند تحقيقاتي در Google AI که به ايجاد Dataset Search کمک مي کند ، مي گويد: هدف اين است که متحد ده ها هزار مخزن مختلف براي مجموعه داده هاي آنلاين بصورت آنلاين باشد. نوي مي گويد: "ما مي خواهيم اين داده ها را کشف كنيم ، اما آن را در جاي خود نگه داريم."
در حال حاضر ، انتشار مجموعه داده کاملاً تکه تکه است. حوزه هاي مختلف علمي ، همانند دولت هاي مختلف و مقامات محلي ، مخازن مورد نظر خود را دارند. "دانشمندان مي گويند،" من مي دانم که در آن من نياز به رفتن به پيدا من مجموعه داده، اما اين چيزي است که من هميشه مي خواهم نيست، مي گويد: "نوي. "هنگامي که آنها از جامعه منحصر به فرد خود خارج شوند ، اين کار وقتي سخت مي شود."
سرچ پيشرفته در گوگل اسکولار
نوي نمونه اي از دانشمندان آب و هوا را که اخيراً با او صحبت کرده است ، عنوان کرد که به او گفت که براي يک مطالعه آينده به دنبال يک مجموعه داده خاص در دماي اقيانوس است اما در هيچ کجا نمي تواند آن را پيدا کند. او آن را رديابي نکرد تا اينکه در کنفرانسي که مجموعه داده را به رسميت مي شناسد به يک همکار رسيد و به او گفت که در آن ميزبان است. تنها پس از آن او مي توانست به کار خود ادامه دهد. نوي مي گويد: "و اين حتي يک مخزن مخصوص بوتيک نبود." "مجموعه داده ها در مکاني کاملاً برجسته نوشته شده بودند ، اما يافتن آن هنوز دشوار بود."
نمونه اي از جستجوي پرونده هاي هواشناسي در جستجوي Google Dataset . تصوير: Google
انتشار اوليه Dataset Search شامل علوم زيست محيطي و اجتماعي ، داده هاي دولت و مجموعه داده هاي سازمانهاي خبري مانند ProPublica خواهد بود. با اين حال ، اگر اين سرويس محبوبيت پيدا کند ، بايد تعداد داده هايي که از آنها نمايه مي شود سريعاً گلوله برفي کنند ، زيرا مؤسسات و دانشمندان در تلاشند تا اطلاعات خود را در دسترس قرار دهند.
اين امر بايد با شکوفايي اخير ابتکار عمل داده هاي آزاد در سرتاسر جهان انجام شود. نوي مي گويد: "من فکر مي کنم طي چند سال گذشته تعداد مخازن منفجر شده است." وي اين اعتبار را به اهميت روزافزون داده ها در ادبيات علمي ، و اين بدان معناست كه ژورنال ها از نويسندگان مي خواهند كه مجموعه داده ها را منتشر كنند ، و همچنين "مقررات دولت در آمريكا و اروپا و افزايش عمومي جنبش داده هاي باز".
"من اميدوارم که قدم گذاشتن در گوگل اين کار را آسانتر کند."
جني تنيسون ، مدير عامل مؤسسه داده هاي باز (ODI) گفت ، با درگير شدن Google بايد به موفقيت اين پروژه کمک کند. او مي گويد: "جستجوي داده داده هميشه پشتيباني دشوار بوده است ، و من اميدوارم که قدم گذاشتن گوگل اين کار را آسانتر کند."
تنيسون مي گويد ، براي ايجاد يک موتور جستجوي مناسب ، بايد بدانيد که چگونه مي توانيد سيستم هاي کاربر پسند بسازيد و درک کنيد که افراد هنگام تايپ عبارات خاص ، چه معني دارند Google مي داند چه کاري را در هر دو بخش انجام مي دهد.
در حقيقت ، تنيسون مي گويد ، در حالت ايده آل گوگل مجموعه داده هاي خود را درباره نحوه استفاده از Dataset Search منتشر مي کند. اگرچه از برچسب هاي ابرداده اي که اين شرکت براي استفاده از داده هاي داده براي خزنده هاي جستجوي خود استفاده مي کند ، يک استاندارد باز است (به اين معني که هر رقيبي مانند Bing يا Yandex مي تواند از آنها براي ساختن سرويس رقيب خود استفاده کند) ، موتورهاي جستجو در هنگام بحراني سريعتر بهبود مي يابند. انبوهي از کاربران براي ارائه اطلاعات در مورد آنچه انجام مي دهند وجود دارد.
تنسيون مي گويد: "درک ساده چگونگي جستجوي افراد مهم است . چه نوع اصطلاحاتي را به کار مي گيرند ، چگونه آنها را بيان مي کنند." "اگر مي خواهيم با چگونگي جستجوي داده ها و دستيابي به اطلاعات بيشتر به اين موضوع بپردازيم ، بسيار خوب خواهد بود اگر Google داده هاي خود را در اين مورد باز کند."
به عبارت ديگر: Google بايد مجموعه اي از داده هاي مربوط به جستجوي مجموعه داده را منتشر کند که توسط Dataset Search نمايه مي شود. چه چيزي مي تواند مناسب تر باشد؟
درباره این سایت