لزوم استفاده از روش های یادگیری ماشین برای مدرن سازی آمارهای رسمی

به گزارش سایت امن عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با تاکید بر لزوم استفاده از روش های یادگیری ماشین برای مدرن سازی آمارهای رسمی اظهار داشت: در روش های یادگیری ماشین هدف این است کارهای زمان بر دستی از راه یادگیری ماشین به صورت خودکار صورت گیرد.

به گزارش سایت امن به نقل از ایسنا، دکتر زهرا رضایی قهرودیم در سخنرانی علمی خود در دانشکدگان علوم با مبحث «مدرن سازی آمارهای رسمی» در تعریف آمارهای رسمی برپایه تعریف سازمان همکاری اقتصادی و توسعه (OECD )، اظهار نمود: آمارهای رسمی به آمارهایی اطلاق می شود که توسط نظام آماری ملی کشورها تولید می شود. نظام آماری ملی شامل سازمان ها و واحدهای آماری در هر کشور است که گردآوری، پردازش و انتشار آمارهای رسمی را از سوی دولت ملی انجام می دهند.
وی با بیان اینکه فهرست و لیست آمارهای رسمی که توسط مرکز آمار ایران، تهیه و تصویب شده، مشخص است، اضافه کرد: برپایه مدل عمومی فرایند کسب و کار آماری، تمام فرآیندهای اصلی تولید آمار در یک سازمان آماری و ارتباط بین آنها مشخص است. ازاین رو سازمان های آماری برای پیاده سازی و مدرن سازی فرآیندهای کاری خود لازم است از این مدل و چارچوب که در آن استانداردها و اصطلاحات به صورت هماهنگ و یکپارچه به کار رفته است، استفاده کنند تا نظام تولید داده ها در سازمان های آماری بهینه و کارآمد باشد.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان اینکه مدل عمومی فرایند کسب و کار آماری به مرور زمان و با تحول دنیا به روز می شود، تصریح کرد: در این مدل ۸ فرایند و یکسری زیرفرآیندها وجود دارد.
دکتر رضایی ضمن اشاره به ۸ فرایند مدل عمومی فرایند کسب و کار آماری شامل نیازسنجی داده ها، طراحی، ساخت، جمع آوری، پردازش داده ها، تحلیل، انتشار و ارزیابی آمارها و داده ها، تصریح کرد: به دلیل تحولاتی که طی ۲۰ سال گذشته در حوزه داده ها و انقلاب داده ها رخ داده است، باید این فرایند و زیرفرآیندها با استفاده از زیرساخت و روش ها و تکنولوژی های روز طراحی شود تا بتواند با هزینه و زمان کمتر، این فرایند بهینه شود و اطلاعات مورد نیاز کشور جمع آوری شود.
ضرورت بازبینی نظام ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید
وی در تعریف مفهوم مدرن سازی آمارهای رسمی اظهار داشت: باید نظام ها و فرآیندهای تهیه و انتشار تولیدات آماری با شرایط جدید بازبینی شود و تولید محصول آماری باکیفیت، مقرون به صرفه و با زمان کمتر از راه بهینه سازی و کارآیی فرآیندها اتفاق افتد.
وی تصریح کرد: تحقق این امر نیازمند اصلاح زیرساخت ها، ظرفیت سازی و آموزش نیروی انسانی برپایه تخصص های جدید، تغییرات در چارت و ساختارهای سازمانی و تهیه استانداردها و دستورالعمل های جدید برای روش ها و نیازهای جدید است.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان اینکه میتوان با روش های یادگیری ماشین خیلی از کارهای دستی را از راه یادگیری ماشین به صورت خودکار انجام داد، اضافه کرد: بخش های باقی مانده که امکان بررسی آنها به صورت خودکار وجود ندارد، می تواند به روش های دیگر و بررسی های دقیق کارشناسی صورت گیرد.
الزام حرکت به سمت استفاده از روش های ترکیبی در گردآوری داده ها
دکتر رضایی با بیان اینکه هزینه گردآوری داده ها زیاد است و بی پاسخی در کل دنیا رو به افزایش است، تصریح کرد: باید به سمت استفاده از روش های ترکیبی(ثبتی – سنتی) برویم و از اطلاعات موجود در پایگاه داده های سازمان های آماری با استفاده از روش های اتصال رکوردی استفاده گردد. در این صورت، فقط برای سؤال و پرسش هایی که اطلاعات آن در پایگاه داده های دستگاههای دیگر وجود ندارد، اطلاعات از خانوارها یا کارگاه ها دریافت شود.
وی با بیان اینکه یکی از فعالیتهای مراکز آماری کدگذاری پرسش های متن باز نظیر شغل، تحصیلات، نوع بیماری و... است، اضافه کرد: این کدگذاری ها می تواند با استفاده از روش های یادگیری ماشین صورت گیرد.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران اضافه کرد: این فرایند تا چند سال قبل توسط افراد ماهر به صورت دستی یا نرم افزار انجام می شد، اما الان با روش های یادگیری ماشین به صورت خودکار انجام می شود. پس باید تغییراتی در روش ها و فرایند مدل عمومی کسب و کار آماری ایجاد شود.
استفاده از روش های یادگیری ماشین برای شناسایی داده های پرت، پر کردن اطلاعات گم شده
دکتر رضایی ضمن اشاره به اینکه بحث شناسایی داده های پرت، پر کردن اطلاعات گم شده، اتصال پایگاه داده ها، محرمانه سازی اطلاعات و خیلی از فعالیتهای مراکز آماری می تواند با استفاده از روش های یادگیری ماشین صورت گیرد، اظهار داشت: کمیسیون اقتصادی سازمان ملل در اروپا (UNECE ) در سال ۲۰۱۰ یک گروه عالی مدرن سازی آمارهای رسمی را تاسیس کرده است که هدف آن گروه کاری نظارت بر توسعه دستورالعمل ها و چارچوب هایی است که به مدرن سازی آمارهای رسمی منجر شود.
وی با تاکید بر ضررورت به اشتراک گذاری اطلاعات و ابزارها و تجارب کشورهای مختلف با همه مراکز آماری، تصریح کرد: این گروه سایتی جهت استفاده از روش های یادگیری ماشین در آمارهای رسمی دارد و در آن پروژه هایی را به اشتراک می گذارد و با تشکیل تیم های کاری، دستورالعمل و روش های جدید را تهیه می کنند.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان اینکه مبحث مدرن سازی آمارهای رسمی در چهل وپنجمین نشست کمیسیون آمار سازمان ملل عنوان شد و از آن به بعد، این مورد در دستور کار سازمان های آماری قرار گرفت، تصریح کرد: هر ساله، نشست کمیسیون آماری سازمان ملل با دعوت از رؤسای مراکز آماری دنیا برگزار می گردد و موضوعات روز دنیا مطرح و دستورالعمل هایی که گروههای کاری مختلف، آنها را تهیه کرده اند، در جلسات کمیسیون مطرح و در صورت تصویب ابلاغ می شود.
وی تصریح کرد: پنجاه و دومین نشست کمیسیون آمار سازمان ملل در سال ۲۰۲۱ برگزار شد.
شروع بحث مدرن سازی آمارهای رسمی در سطح بین الملل
دکتر رضایی با بیان اینکه بحث مدرن سازی آمارهای رسمی در سالهای ۲۰۱۴ و ۲۰۱۵ در سازمان ملل عنوان شد، خاطرنشان کرد: الان به مدت ۶ تا ۷ سال است که مدرن سازی آمارهای رسمی در سطح بین الملل مطرح و به همه کشورهای جهان ابلاغ گردیده است.
وی با بیان اینکه یکی از بحث های اصلی در رابطه با مدرن سازی آمارهای رسمی بحث مِه داده ها (Data Big) است، تصریح کرد: مفهوم مِه داده ها در قرن ۲۱ مطرح گردیده است. در قرن ۲۱ زیرساخت ها و روش های گردآوری و ذخیره سازی این نوع داده ها با سرعت قابل ملاحظه ای رشد کرد. گوگل که در سال ۱۹۹۸ به وجود آمد، برای ذخیره سازی داده های ساخته شده در این فضاهای مجازی با این حجم از داده ها و سرعت و تنوع زیاد، با مشکل روبرو بود.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران اضافه کرد: این نوع جدید داده که شامل داده های ساختاریافته، نیمه ساختاریافته و غیرساختاریافته است، به ایجاد پایگاه داده های جدید NoSQL، زیرساخت و پلت فرم های جدیدی منجر گردید.
دکتر رضایی با بیان اینکه تا قبل از قرن ۲۱ اغلب داده ها ساختاریافته بود، تصریح کرد: بعد از قرن ۲۱، داده ها به نیمه ساختاریافته و غیرساختاریافته تغییر نمود.
کاربرد Data Big در داده های حاصل از ابزارهای ردیابی مانند تلفن همراه
وی افزود: یک تقسیم بندی دیگر در Data Big که در حوزه آمارهای رسمی هم کاربرد دارد، استفاده از داده های جدید مانند داده های اداری، داده های حسگرها یا دوربین های ثبت تخلفات و ترددها، داده های تصاویر ماهواره ای برای برآورد محصولات حوزه کشاورزی، داده های حاصل از خرید و فروش اینترنتی، داده های وبسایت ها، داده های حاصل از ابزارهای ردیابی مانند تلفن همراه یا GPS است که بعد از ارزیابی کیفیت و صحت داده ها می تواند به مرور زمان و رفع خطاها، بعنوان آمارهای رسمی با استفاده از تکنولوژی های روز دنیا استفاده گردد.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران خاطرنشان کرد: بعنوان مثال، بعد از راستی آزمایی داده های تلفن همراه، میتوان از داده های تلفن همراه برای جابجایی و شناسایی بیماری ها همچون کووید ۱۹ و یا پیشبینی جمعیت مهاجر، برآورد جمعیت و... بهره برد.
دکتر رضایی با بیان اینکه تولید داده های جدید با سرعت، تنوع و حجم زیاد نیازمند آشنایی با مفاهیم و روش های علمی جدید است، اضافه کرد: در این صورت باید از زیرساخت، پلت فرم و پایگاه داده های NoSQL به جای پایگاه داده های رابطه ای که امکان ذخیره سازی و پردازش داده های ساختاریافته را دارند، بهره برد.
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران، کدگذاری خودکار خیلی از فعالیتهای مراکز آماری همچون کدگذاری پرسش های باز را یکی از فعالیتهای مراکز آماری و سازمان ها برشمرد و اضافه کرد: کدگذاری مشاغل، کالاها، دارو، بیماری ها و... می تواند با استفاده از روش های یادگیری ماشین به جای روش های دستی و سنتی صورت گیرد.
وی تصریح کرد: در مسائل در ارتباط با تخصیص کدهای استاندارد بین المللی ISIC یا ISCO یا هر کد دیگر به پرسش های باز به صورت خودکار، با تشکیل یک دیکشنری جامع و کامل با استفاده از کدگذاری، کتابچه های رده بندی های بین المللی مانند رده بندی رشته فعالیتهای اقتصادی و دست نوشته های مأموران آمارگیری از چند آمارگیری قبلی، امکان کدگذاری خودکار رشته فعالیتهای اقتصادی به صورت نیمه خودکار فراهم می شود.
امکان انتساب آدرس های آماری به آدرس های پستی به روش خودکار
عضو هیئت علمی دانشکده ریاضی، آمار و علوم کامپیوتر دانشکدگان علوم دانشگاه تهران با بیان اینکه امکان انتساب آدرس های آماری به آدرس های پستی به روش خودکار با استفاده از روش های یادگیری آماری وجود دارد و در سرشماری های ثبتی مبنا کاربرد دارد، تصریح کرد: با اتصال آدرس آماری به آدرس های پستی، امکان برقراری ارتباط بین سرشماری ثبتی مبنا با سرشماری های سنتی قبلی و عرضه اطلاعات سرشماری ثبتی مبنا به صورت سری های زمانی در پایین ترین سطوح جغرافیایی هم فراهم می شود.
دکتر رضایی ضمن اشاره به بحث آدرس آماری و کدپستی توضیح داد: در ایران بیشتر از ۲۰ درصد کدهای آماری نقاط شهری در مرکز آمار منتسب به آدرس های پستی نیست. با استفاده از روش های یادگیری آماری و آموزش مدل با استفاده از ۸۰ درصد کدهای آماری منتسب به آدرس های پستی، امکان انتساب کد آماری به آدرس های پستی منطبق نشده فراهم می شود.

منبع: سایت امن

1400/10/13

09:37:44

956

5.0 / 5

تگهای خبر: آموزش , اینترنت , تخصص , تكنولوژی

اگر پسندیدید لاک کنید:

(1)

(0)

تازه ترین مطالب مرتبط

نظرات بینندگان سایت امن در مورد این مطلب

نظر شما در مورد این مطلب

نام:

ایمیل:

نظر:

سوال:

= ۸ بعلاوه ۲