Saturday 21 April 2018

Logit e probit model em stata forex


Consultoria Estatística Sou um profissional que oferece serviços nas áreas de consultoria estatística e financeira. Eu tenho um PhD em Estatística e um PhD Minor em Finanças pela Universidade de Stanford. Trabalho na indústria há quatro anos, com foco em projetos relacionados à mineração de dados, análise fatorial, análise de cluster, análise de séries temporais, modelagem de volatilidade estocástica / precificação de ativos, arbitragem estatística / desenvolvimento de estratégias de negociação proprietárias e assim por diante. Igualmente importante, tenho seis anos de experiência em consultoria financeira e estatística. Tenho consultado empresas, profissionais de negócios, pesquisadores e estudantes nas áreas de Finanças, Marketing, Medicina, Biologia, Psicologia, Sociologia, Ciência Política, Educação e Ciência da Computação. Áreas selecionadas de minha especialidade: estimativa robusta e eficiente, teste de hipóteses, regressão, classificação, mineração de dados, ANOVA / ANCOVA, análise de séries temporais, métodos específicos de econometria e bioestatística, processos estocásticos, Markov Chain Monte Carlo, modelagem bayesiana, arbitragem estatística, precificação de ativos, R / S-PLUS, Matlab, SPSS, SAS, Stata, EViews, Minitab. Normalmente, eu me encontro em Manhattan. Eu também consultei via Skype (permite videoconferência e compartilhamento de desktop), e-mail e telefone, se os clientes estão longe de Nova York. Além disso, faço projetos completos para meus clientes, o que pode não exigir uma reunião. Exemplos de serviços: análise de dados em qualquer um dos principais pacotes estatísticos, desenho de experimentos, desenvolvimento de sistemas de preços e negociação, preparação para apresentações e testes, assistência de dissertação, sessões de consultoria para melhorar o conhecimento geral. Por favor, contate-me em consulting AT stanfordphd Por favor, leia a descrição detalhada dos tipos de serviço, experiência, estudos de caso e taxas no site de domínio associado ao endereço de e-mail acima. Abaixo está um breve resumo. KW: mineração de dados / aprendizado de máquina, processamento de sinais, reconhecimento de padrões, rede neural, projeção, análise de wavelets, MART, MARS, CART, classificação, floresta aleatória, regressão de rebordo, lasso, vizinho mais próximo, análise discriminante, análise de agrupamento regressão, regressão logística, transformação logit / probit, linearização de regressão não linear, spline, kernel mais suave, máquinas de vetores de suporte, validação cruzada, seleção de modelo, bootstrap, jacknife, análise de fator / componentes principais (PCA), Monte Carlo, variância redução, amostragem antitética / importância, covariate, Markov Chain Monte Carlo, algoritmo EM, amostrador Gibbs, Metropolis - Hastings, regra Bayes, estatística Bayesiana, conjugado prior, distribuição posterior, expectativa condicional, distribuição multivariada, análise de trilha, z-score, t teste, teste F, teste qui-quadrado, teste de Wilcoxon, mínimos quadrados ponderados (WLS), mínimos quadrados generalizados (GLS), heteroskedasticity, alavancagem, outlier diag nostics, estimativa robusta / teste de hipóteses / intervalo de confiança, encolhimento, transformação de variância, correspondência de escore de propensão, modelo linear generalizado (GLM), análise de variância (ANOVA / MANOVA), análise de covariância (ANCOVA / MANCOVA), bioestatística / bioinformática, GWAS , genética de populações, análise de sobrevivência, estimador de Kaplan - Meier, modelo de Cox, estudo longitudinal, dados em painel, efeito fixo, efeito aleatório, taxa de erro de família, correção de Bonferroni, distribuição binomial / geométrica / gama negativa, ensaio de Bernoulli, tempo de probabilidade discreto série, variável instrumental, equações simultâneas, método generalizado dos momentos (GMM), método de máxima verossimilhança, quase-verossimilhança, eficiência assintótica, grandes propriedades amostrais, ARMA / ARIMA, ARCH / GARCH, ARDL, autorregressão vetorial (VAR), teoria espectral, autocorrelação, filtro de Kalman e outros métodos de filtragem, previsão, análise de intervenção martingale, ponto / contagem / processo de Poisson, movimento browniano Processo de Levy, campo aleatório, interpolação / extrapolação, difusão / salto-difusão, semimartingale, modelagem de volatilidade estocástica, cálculo estocástico, equação diferencial estocástica (SDE), lema Ito, equação retrógrada de Kolmogorov, Feynman - Kac, distribuição estacionária, cadeia de Markov, irredutibilidade, estado transiente / absorvente / recorrente, equação de balanço, transição, mudança de regime, Hidden Markov Model (HMM), alteração estrutural de precificação de ativos, precificação de opções, medida neutra ao risco, estratégia de replicação, risco de mercado, Black-Scholes, estrutura a termo , produtos com taxas de juros, câmbio (FX / FOREX), derivativos de crédito, patrimônio, commodities, opção de compra, derivativos exóticos, swap, swap, cap, caplet, swap extintivo, swap cancelável, obrigatória exigível, bônus conversível, opção de barreira, asiático / Opção americana, knockout, double knockout, opção de beisebol, contrato de futuros, CDS (credit default swap), CDO sob medida, tranche de índice, primeiro a swap padrão, hipoteca, modelos pré-pagos empíricos, estrutura copula, modelos estruturais, modelos de forma reduzida, métodos baseados na classificação Moody039s / SampP, sorriso de correlação, curva de perdas, Heath - Jarrow - Morton (HJM), Longstaff - Scwartz, Crank - Nicolson, teoria do portfólio, economia financeira , arbitragem estatística (statarb), reversão, momentum, cointegração, Dickey - Fuller, negociação proprietária, otimização da relação Sharpe / CalMar, backtesting, drawdown, análise técnica, otimização de carteiras e gerenciamento de risco, hedging, SPSS trading borboleta, SAS, Matlab, R / SPlus, Stata, Minitab, EViews, Microsoft Excel - ajuda de estatísticas, ajuda de bioestatística, ajuda de econometria, ajuda de probabilidade, ajuda de finanças - Stanford, Califórnia, área de Nova Iorque Metro, Nova Jersey, Long Island, Connecticut, Filadélfia, Pittsburgh, Pensilvânia, Princeton, Boston, Cambridge, Massachusetts, Nova Inglaterra, Chicago, Illinois, Washington, Los Angeles, San Diego, São José, Palo Alto, Mountainview, Sacramento, Seattle, Toronto, Montr eal, Vancouver, Canadá, Londres, Reino Unido (UK), Berlim, Frankfurt, Alemanha, Moscou, Rússia, Tóquio, Japão, Hong Kong, China, Sydney, Melbourne, Brisbane, Austrália. New York, NY 10012 Você tem um sistema de preços padrão para o seu serviço Se sim, por favor, compartilhe os detalhes aqui. A menos que haja urgência, a taxa é de 60 por hora para projetos padrão (regressão, ANOVA, design de pesquisa, testes não-paramétricos) e mais para material quothigh tech (mineração de dados, análise de cluster, dados em painel, séries temporais multivariadas, modelos ocultos de Markov). , Markov Chain Monte Carlo, modelagem bayesiana, GWAS, funcionalidade SAS avançada, arbitragem estatística, precificação de ativos exóticos, gerenciamento de risco de mercado, estratégias de negociação). Por favor, envie um e-mail para consultoria em stanfordphd para obter informações mais detalhadas sobre preços ou qualquer outra consulta. Com quais tipos de clientes você trabalhou? Os seguintes serviços são oferecidos nas áreas de consultoria estatística e consultoria financeira. 1 CONSULTE-O NA BASE HORÁRIA A duração típica da sessão é de pelo menos 2 horas. Eu me encontro para sessões presenciais em Nova York. Consulte clientes em outros locais via Skype (permite videoconferência e compartilhamento de tela), e-mail e telefone. 2 FAZENDO UM PROJETO PARA VOCÊ O pacote inclui todas as análises necessárias para as conclusões do projeto escritas como instruções do documento do Word sobre como fazer a análise, para que você possa replicar meus resultados. 3 DESENVOLVIMENTO DE SISTEMAS QUANTITATIVOS Desenvolvo infraestrutura necessária para negociação proprietária, gerenciamento de risco, reconhecimento de padrões ou qualquer outro tipo de análise quantitativa. Eu entrego a infra-estrutura de forma a permitir que ela funcione de forma relativamente autônoma nos sistemas de sua empresa. 4 ASSISTÊNCIA DE DISSERTAÇÃO Eu ajudo você a reformular os objetivos da pesquisa e combiná-los com os métodos estatísticos apropriados. Realizo a análise de dados para você no software de sua escolha: SPSS, SAS, R, Matlab, Stata, Minitab ou EViews. Alternativamente, eu o guio através da realização da análise você mesmo e ajudo com a interpretação dos resultados. Eu te preparo para cada apresentação da sua pesquisa. Eu me certifico de que você conhece toda a teoria antes da defesa da dissertação. Você pode querer ler as dicas de dissertação. 5 PROJETANDO UM CURSO EM UM OBJETO DADO PARA VOCÊ Eu preparo materiais de aprendizado, exercícios e projetos orientados a dados para você. Você lê o material e faz projetos no seu próprio tempo. Depois disso, nos encontramos cara a cara ou no Skype. Eu verifico os resultados do seu trabalho e respondo à lista de perguntas que você preparou. Eu explico como abordar várias tarefas selecionadas. Depois disso, dou-lhe um novo lote de materiais de aprendizagem e exercícios. O ciclo se repete. Esta opção permite que você melhore suas habilidades de maneira relativamente barata, pois você não está pagando pelo tempo em que não estou por perto. Que conselho você daria a um cliente que deseja contratar um provedor em sua área de trabalho? Peça sempre algum tipo de verificação de credenciais. Por exemplo, algumas empresas de consultoria descrevem a si mesmas como cheias de PhDs em Harvard, Stanford ou Berkeley. Na realidade, esses podem ser os fundadores da empresa, que atualmente não estão presentes na sala. A pessoa sentada à mesa com você pode ter pouco a ver com o perfil descrito. Este post foi escrito em conjunto com Yulia Marchenko, Diretora Executiva de Estatística da StataCorp. A teoria da resposta ao item (TRI) é usada para modelar a relação entre as habilidades latentes de um grupo de sujeitos e os itens de exame usados ​​para medir suas habilidades. O Stata 14 introduziu um conjunto de comandos para a montagem de modelos IRT usando máxima verossimilhança, por exemplo, o blog Spotlight on irt de Rafal Raciborski e o manual Theory Item Response Theory para mais detalhes. Neste post, demonstramos como ajustar os modelos de IRT binários bayesianos usando a opção redefine () introduzida para o comando bayesmh no Stata 14.1. Também usamos a opção de verossimilhança dbernoulli () disponível a partir da atualização em 03 de março de 2016 para a distribuição de Bernoulli. Se você não está familiarizado com os conceitos e jargões das estatísticas bayesianas, você pode querer assistir aos vídeos introdutórios no canal Stata no Youtube antes de prosseguir. Usamos a versão abreviada dos dados matemáticos e científicos de DeBoeck e Wilson (2004), masc1. O conjunto de dados inclui 800 respostas dos alunos a 9 questões de teste destinadas a medir a capacidade matemática. O conjunto de ajustes se encaixa nos modelos IRT usando dados na forma ampla 8211 uma observação por sujeito com itens gravados em variáveis ​​separadas. Para ajustar modelos IRT usando bayesmh. precisamos de dados na forma longa, onde os itens são registrados como múltiplas observações por assunto. Assim, reformulamos o conjunto de dados de forma longa: temos uma única variável de resposta binária, y. e duas variáveis ​​de índice, item e id. identificam os itens e assuntos, respectivamente. Isso nos permite formular nossos modelos de IRT como modelos multiníveis. Os seguintes comandos carregam e preparam o conjunto de dados. Para garantir que incluamos todos os níveis de item e id em nossos modelos, usamos fvset base none para manter as categorias de base. A seguir, apresentamos oito modelos binários de TRI binários, aumentando a complexidade e o poder explicativo. Realizamos a comparação de modelos bayesianos para obter informações sobre qual seria o modelo mais apropriado para os dados em questão. Para modelos de alta dimensionalidade, como os modelos IRT, você pode ver diferenças nos resultados das estimativas entre diferentes plataformas ou diferentes sabores do Stata devido à natureza da amostragem de Monte Carlo da cadeia de Markov (MCMC) e precisão numérica finita. Essas diferenças não são uma fonte de preocupação, pois estarão dentro da faixa da variabilidade do MCMC e levarão a conclusões inferenciais similares. As diferenças diminuirão conforme o tamanho da amostra do MCMC aumentar. Os resultados neste post são obtidos do Stata / SE na plataforma Linux de 64 bits usando o tamanho de amostra padrão 10.000 MCMC. Deixe os itens serem indexados por (i1, pontos, 9) e os assuntos por (j1, pontos, 800). Seja (thetaj) a habilidade matemática latente do sujeito (j), e seja (Y) a resposta do sujeito (j) ao item (i). No modelo de um parâmetro logístico (1PL), a probabilidade de obter uma resposta correta é modelada como uma função inversa-logit dos parâmetros de localização (bi), também chamados de dificuldades de item, e um parâmetro de inclinação comum (a), também chamado de item discriminação: Tipicamente, as habilidades são consideradas normalmente distribuídas: thetaj sim (0,1) Em uma estrutura multinível, os (thetaj) 8217s representam efeitos aleatórios. Em uma estrutura bayesiana, usamos o termo 8220random effects8221 para nos referirmos aos parâmetros correspondentes aos níveis de variáveis ​​de agrupamento que identificam a hierarquia dos dados. Uma formulação Bayesiana do modelo 1PL também requer especificação prévia para os parâmetros do modelo (a) e (bi). O parâmetro de discriminação (a) é considerado positivo e é frequentemente modelado na escala logarítmica. Como não temos conhecimento prévio sobre os parâmetros de discriminação e dificuldade, assumimos que as distribuições anteriores de (ln (a)) e (bi) têm suporte em toda a linha real, são simétricas e estão centradas em 0. Uma prévia normal distribuição é, portanto, uma escolha natural. Além disso, assumimos que (ln (a)) e (bi) são próximos de 0 e têm variância prévia de 1, o que é uma decisão inteiramente subjetiva. Portanto, atribuímos (n) (a) e (bi) distribuições prévias normais padrão: Para especificar a função de verossimilhança do modelo 1PL em bayesmh. usamos uma especificação de equação não linear para a variável de resposta y. A especificação não linear direta para este modelo é onde está o parâmetro de discriminação (a), são habilidades latentes (thetaj) e são dificuldades item (bi). O modelo logit é usado para a probabilidade de sucesso, (P (Y 1)). A especificação na expressão não linear acima é vista como uma expressão substituível para combinações lineares de indicadores associados à variável id e parâmetros (tetaj). Esta especificação pode ser computacionalmente proibitiva com um grande número de sujeitos. Uma solução mais eficiente é usar a opção redefine () para incluir efeitos aleatórios de assunto (thetaj) no modelo. O mesmo argumento pode se aplicar à especificação quando houver muitos itens. Assim, pode ser computacionalmente conveniente tratar os (bi) parâmetros como 8220random effects8221 na especificação e usar a opção redefine () para incluí-los no modelo. Uma especificação mais eficiente é, portanto, onde e na especificação não linear representam agora os parâmetros (tetaj) e (bi), respectivamente, sem usar expansões em combinações lineares de variáveis ​​indicadoras. Abaixo, mostramos a especificação bayesmh completa do modelo 1PL e o resumo da saída. Em nossos exemplos, tratamos as habilidades como parâmetros incômodos e os excluímos dos resultados finais. O parâmetro do modelo de discriminação deve ser positivo e assim inicializado com 1. Um período de burn-in mais longo, burnin (5000). permite uma adaptação mais longa do amostrador MCMC, o que é necessário devido ao grande número de parâmetros no modelo. Finalmente, os resultados da estimativa são armazenados para comparação posterior do modelo. A eficiência da amostragem é aceitável, cerca de 6 em média, sem indicação de problemas de convergência. Embora a inspeção detalhada de convergência de todos os parâmetros esteja fora do escopo deste post, recomendamos que você faça isso usando, por exemplo, o comando bayesgraph diagnostics. Embora tenhamos usado prioris informativos para os parâmetros do modelo, os resultados de estimação do nosso modelo Bayesiano não são tão diferentes das estimativas de máxima verossimilhança obtidas usando o comando ir 1pl (ver exemplo 1 em IRT irt 1pl). Por exemplo, a estimativa média posterior é de 0,86 com um erro padrão do MCMC de 0,003, enquanto o 1p do irt reporta 0,85 com um erro padrão de 0,05. A verossimilhança log-marginal é relatada como ausente porque excluímos os parâmetros dos resultados da simulação e o estimador de Laplace-Metropolis da probabilidade log-marginal não está disponível em tais casos. Este estimador requer resultados de simulação para todos os parâmetros do modelo para calcular a probabilidade log-marginal. O modelo de logística de dois parâmetros (2PL) estende o modelo 1PL, permitindo a discriminação específica de itens. A probabilidade de resposta correta é agora modelada como uma função dos parâmetros de inclinação específicos do item (ai): P (Y 1) frac A especificação anterior para (thetaj) permanece a mesma que no modelo 1PL. No entanto, aplicaremos especificações anteriores mais elaboradas para os (ai) 8217s e (bi) 8217s. É uma boa prática usar especificações prévias adequadas sem sobrecarregar as evidências dos dados. O impacto dos antecedentes pode ser controlado pela introdução de hiperparâmetros adicionais. Por exemplo, Kim e Bolt (2007) propuseram o uso de um padrão normal para os parâmetros de dificuldade com média e variância desconhecidas. Estendendo esta abordagem para os parâmetros de discriminação também, aplicamos um modelo Bayesiano hierárquico em que os parâmetros (ln (ai)) e (bi) têm as seguintes especificações anteriores: ln (ai) sim (mua, sigmaa2) bi sim (mub , sigmab2) Os hiperparâmetros médios (mua) e (mub) e os hiperparâmetros de variância (sigmaa2) e (sigmab2) exigem especificações prévias informativas. Assumimos que as médias estão centradas em 0 com uma variação de 0,1: mua, mub sim (0, 0,1) Para diminuir a variabilidade dos parâmetros (ln (ai)) e (bi), aplicamos uma gama inversa anterior com forma 10 e escala 1 para os parâmetros de variância: Assim, a média anterior de (sigmaa2) e (sigmab2) é de cerca de 0,1. Na especificação bayesmh, os hiperparâmetros (mua), (mub), (sigmaa2) e (sigmaa2) são indicados como. . . e. respectivamente. Usamos a opção redefinir (discrim: i. item) para incluir no modelo os parâmetros de discriminação (ai), referidos como na especificação de probabilidade. Em relação à simulação MCMC, alteramos algumas das opções padrão. Os hiperparâmetros . . e são colocados em blocos separados para melhorar a eficiência da simulação. Os parâmetros de discriminação devem ser positivos e, portanto, inicializados com 1s. A eficiência média da simulação é de cerca de 5, mas alguns dos parâmetros convergem mais lentamente do que os outros, como. que possui o maior erro padrão do MCMC (0,02) entre os parâmetros de dificuldade. Se este foi um estudo rigoroso, para diminuir os erros padrão do MCMC, recomendamos simulações mais longas com tamanhos de amostra MCMC de pelo menos 50.000. Podemos comparar os modelos 1PL e 2PL usando o critério de informação de desvio (DIC) disponível com o comando bayesstats ic. O DIC é frequentemente utilizado na seleção de modelos bayesianos como uma alternativa aos critérios AIC e BIC e pode ser facilmente obtido a partir de uma amostra MCMC. Amostras MCMC maiores produzem estimativas DIC mais confiáveis. Como diferentes amostras MCMC produzem valores de amostra DIC diferentes e o erro de aproximação de amostra no cálculo de DIC não é conhecido, não se deve confiar somente no DIC ao escolher um modelo. Valores mais baixos de DIC indicam melhor ajuste. O DIC do modelo 2PL (8.055) é marcadamente menor que o DIC do modelo 1PL (8.122), implicando em melhor ajuste do modelo 2PL. O modelo logístico de três parâmetros (3PL) introduz parâmetros de assíntotas (ci) mais baixos, também chamados de parâmetros de adivinhação. A probabilidade de fornecer uma resposta correta é dada pelos parâmetros de suposição que podem ser difíceis de estimar usando a máxima verossimilhança. Na verdade, o comando irt 3pl com a opção sepguessing não consegue convergir, como você pode verificar digitando no conjunto de dados original. Portanto, é importante especificar uma prévia informativa para (ci). Assumimos que a média anterior dos parâmetros de adivinhação é de cerca de 0,1 e, portanto, aplica-se ci sim (10, 1) Similarmente aos parâmetros de discriminação e dificuldade, os (ci) 8217s são introduzidos como parâmetros de efeitos aleatórios na especificação bayesmh e são referidos como na especificação de probabilidade. Ao contrário dos modelos 1PL e 2PL, não podemos usar a opção de verossimilhança (logit) para modelar a probabilidade de sucesso porque a probabilidade de resposta correta não é mais uma transformação inversa-logítica dos parâmetros. Em vez disso, usamos likelihood (dbernoulli ()) para modelar a probabilidade de sucesso de um resultado de Bernoulli diretamente. Para ter uma inicialização válida do amostrador MCMC, atribuímos os valores iniciais positivos (ci) 8217s, 0,1. As médias posteriores estimadas da (ci) 8217s variam entre 0,08 e 0,13. Claramente, a introdução de parâmetros de adivinhação tem um impacto nos parâmetros de discriminação e dificuldade do item. Por exemplo, as médias posteriores estimadas de (mua) e (mub) mudam de -0,10 e -0,07, respectivamente, para o modelo 2PL para 0,11 e 0,08, respectivamente, para o modelo 3PL. Como os parâmetros de adivinhação estimados não são tão diferentes, pode-se perguntar se os parâmetros de adivinhação específicos do item são realmente necessários. Para responder a esta questão, nós ajustamos um modelo com um parâmetro de suposição comum,. e compare com o modelo anterior. Podemos novamente comparar os dois modelos 3PL usando o comando bayesstats ic: Embora os DICs estimados dos dois modelos 3PL sejam essencialmente os mesmos, decidimos, para fins de demonstração, prosseguir com o modelo com parâmetros de adivinhação específicos do item. O modelo de quatro parâmetros logísticos (4PL) estende o modelo 3PL adicionando parâmetros de assíntota superior específicos do item (di): P (Y 1) ci (di-ci), ci PACES Consultoria Oi Nikolay e Yulia, eu queria experimentar usando o exemplo para especificar um modelo de Rasch, que parece correto (as estimativas de parâmetro também são razoavelmente próximas daquelas derivadas de jMetrik usando os mesmos dados): webuse masc1, desmarque qui: g int id n qui: remodele longq, i (id ) j (item) fvset base nenhum id conjunto de itens semente 14 d // 1PL Exemplo da postagem do blog bayesmh q ((-)), probabilidade (logit) redefine (diff: i. item) redefine (subj: i. id) prior (, normal (0, 1)) anterior (, lognormal (0, 1)) anterior (, normal (0, 1)) init (1) excluir () burnin (5000) // Rasch exemplo baseado no post do blog bayesmh q (1 (-)), verossimilhança (logit) redefinir (diff: i. item) redefinir (subj: i. id) antes (, normal (0, 1)) prior (, normal (0, 1)) excluir () burnin (5000) No entanto, não é tão claro como se pode derivar estatísticas infit / outfit, resíduos para a pessoa e estimativas, ou a melhor maneira de corrigir a estimativa da pessoa (por exemplo, usando a soma dos itens entre os itens). Parece que as estimativas neste exemplo são todas as derivadas bayesianas do estimador Marginal MLE, mas existe uma maneira de ajustar os mesmos modelos usando o Joint MLE (para casos em que os parâmetros de pessoa precisam ser estimados ao mesmo tempo que o Por último, existe alguma chance para uma continuação deste post que potencialmente mostraria como encaixar muitos modelos facet rasch e / ou modelos multidimensionais de IRT usando bayesmh (qualquer caso seria incrível de se ver) Obrigado novamente e bom trabalho no post do blog, Billy Veja nossas respostas para cada uma das suas perguntas abaixo. Sua especificação do modelo Rasch está correta. Ou seja, para nosso exemplo de dados matemáticos e científicos, um modelo Rasch pode ser especificado como. bayesmh y (-), verossimilhança (logit) gt redefinir (subj: i. id) redefinir (delta: i. item). Aqui, etiquetamos os parâmetros específicos do item como 8220delta8221 em vez de 8220diff8221 como no nosso exemplo 1PL para enfatizar que as estimativas deste modelo Rasch serão diferentes daquelas do modelo 1PL ajustado. Há também mais detalhes sobre como ajustar um modelo Rasch usando bayesmh e seu link para o modelo 1PL IRT no exemplo 28 em Bayesmh BAYES. 2. A estimativa conjunta dos parâmetros específicos de pessoa e item bayesmh estima os parâmetros específicos de pessoa e de item específico em conjunto. Em nossos exemplos de IRT, não estávamos interessados ​​nas estimativas específicas de cada pessoa, por isso usamos a opção exclude () para excluí-las dos resultados finais. Se você não usar essa opção, as estimativas específicas da pessoa serão salvas com todas as estimativas do MCMC e serão exibidas na tabela de estimativas. 3. Estatísticas e resíduos de equipamento / infografia No âmbito bayesiano, as estatísticas de ajuste de modelo são obtidas utilizando uma distribuição preditiva posterior, a distribuição do resultado Y, dados os dados observados y. Um valor preditivo de p posterior associado a uma estatística de interesse é freqüentemente usado para acessar o ajuste do modelo. Consideraremos escrever uma entrada de blog sobre a avaliação preditiva posterior bayesiana de modelos de TRI. 4. Modelos Rasch de muitas facetas e modelos multidimensionais de IRT Ao visualizar modelos Rasch de muitas facetas como tendo parâmetros adicionais de efeitos aleatórios, podemos estender a especificação básica simplesmente adicionando mais termos de efeitos aleatórios. Continuando nosso exemplo de um modelo de Rasch, suponha que exista outro 8220facet8221 representado por uma tarefa variável no conjunto de dados. item da tarefa id q 821282128212821282128212- 1 1 1 0 1 1 2 1 8230 100 10 5 0 Adicionamos simplesmente os parâmetros de efeitos aleatórios associados à tarefa à nossa especificação de modelo da seguinte forma:. fvset base nenhum item de tarefa id. bayesmh q (-), verossimilhança (logit) gt redefinir (subj: i. id) gt redefinir (tarefa: i. task) gt redefinir (delta: i. item). Dentro do contexto IRT, o modelo IRT bidimensional correspondente pode ser ajustado da seguinte maneira. (Usamos a especificação de um modelo de TRI multidimensional dado pela fórmula (3) em Reckase (2007, p. 612).). fvset base nenhum item de tarefa id. bayesmh q (), verossimilhança (logit) gt redefinir (subj: i. id) gt redefinir (tarefa: i. task) gt redefinir (d: i. item). onde os parâmetros e são comuns entre os itens. Se quiséssemos tornar esses parâmetros específicos de itens, poderíamos usar a seguinte especificação:. fvset base nenhum item de tarefa id. bayesmh q (), verossimilhança (logit) gt redefinir (subj: i. id) gt redefinir (tarefa: i. task) gt redefinir (d: i. item) gt redefinir (a1: i. item) gt redefinir (a2: i. item). Você pode estender modelos acima de maneira direta para acomodar mais facetas ou dimensões. Reckase, M. D. 2007. Teoria da Resposta ao Item Multidimensional. No vol. 26 do Handbook of Statistics: Psychometrics, ed. C. R. Rao e S. Sinharay, 607-642. Amesterdão: Elseiver. 8212 Nikolay e Yulia Oi Nikolay e Yulia, Impressionante. Acho que estamos falando de coisas um pouco diferentes em relação a 3. Aqui temos uma explicação extremamente breve das estatísticas infit / out da perspectiva Rasch: rasch. org/rmt/rmt162f. htm, bem como um trecho parcialmente útil de Wright, BD amp; Mestres, GN (1982). Análise da Escala de Classificação. Chicago, Il: MESA Press: rasch. org/rmt/rmt34e. htm. As estatísticas infit / outfit são usadas ao tomar decisões sobre reter / soltar um item do banco / calibração de itens / itens e, até certo ponto, a pessoa análoga a essas estatísticas poderia ser útil na detecção de possíveis casos de irregularidades de teste theta que responde a perguntas difíceis corretamente e as perguntas mais fáceis em níveis do acaso, etc8230). Nada do que eu li até agora tem falado sobre um ajuste de estilo omnibus, e a discussão (pelo menos com o pessoal do campo Rasch) tende a ser revertida em testar quão bem os dados se encaixam no modelo (em vez de quão bem o modelo se encaixa). os dados). Em ambos os casos, isso é impressionante e oportuno (houve uma comparação dos recursos bayesianos do Stata8217s com o JAGS e o Stan no blog de Andrew Gelman8217s hoje). Se for possível descartar outra idéia em potencial para um post futuro, se não for muito problemático, qualquer coisa que demonstre ajustar qualquer modelo de classe latente e / ou modelos de medição de mistura seria realmente notável. Obrigado novamente, Billy Hi Nikolay e Yulia, Como um breve acompanhamento sobre as estatísticas Joint MLE e Infit / Outfit, fiz uma rápida demonstração de algumas das diferenças que observei. O programa é um wrapper que passou os dados do Stata para algumas das classes usadas pelo jMetrik (veja github / meyerjp3 / psychometrics para mais informações) para ajustar o modelo Rasch usando o Estimador de Máxima Verossimilhança (assim como valores para infit / outfit ). O programa também cria variáveis ​​no conjunto de dados na memória com as estimativas de nível de pessoa de theta, o SE em torno de theta, e as estatísticas de infit / outfit de nível de pessoa: net inst raschjmle, de (8220paces-consulting. org/stata8221) webuse masc1. dta, clear Iteration Delta Log-likelihood 1 0.502591842208104 -3402.304331969046 2 0.142412255554409 -3397.822027114892 3 0.020979991419945 -3397.719031584525 4 0.003561687956111 -3397.716620516149 5 0.000591506681447 -3397.716599152711 Item Dificuldade Padrão Erro WMS Std. WMS UMS Std. UMS q1 -0,40 0,08 0,85 -4,32 0,84 -2,86 q2 0,11 0,08 1,03 1,04 1,05 1,04 q3 -1,36 0,10 0,93 -1,39 0,86 -1,39 q4 0,49 0,08 0,99 1,05 0,32 q 0 0,95 -0,82 q7 1,37 0,09 1,10 2,42 1,17 1,99 q8 -1,87 0,11 0,77 -3,81 0,85 -1,14 q9 -0,81 0,09 1,04 1,04 1,13 1,66 ESTATÍSTICAS DE QUALIDADE DE ESCALA Estatística Itens Pessoas Variação Observada 1,3031 1,4411 Std. Dev. 1.1415 1.2005 Erro Quadrado Mínimo 0,0080 0,7097 MSE Root 0,0894 0,8425 Variação Ajustada 1,2951 0,7314 Std. Dev. 1,1380 0,8552 Índice de Separação 12,7235 1,0151 Número de estratos 17,2980 1,6868 Confiabilidade 0,9939 0,5075 Pontuação Theta Std. Err Como mencionamos anteriormente, a formulação bayesmh do modelo Rasch estima os parâmetros específicos do item e específicos da pessoa conjuntamente. As estimativas Bayesianas dos parâmetros devem ser razoavelmente próximas daquelas obtidas usando estimativa de máxima verossimilhança conjunta. Algumas diferenças, no entanto, são permissíveis devido ao uso de distribuições informativas prévias na especificação do modelo Bayesiano. As estimativas que você reporta usando o comando raschjmle são significativamente diferentes. Acredito que a razão para isso é que as estimativas do raschjmle 8216 estão centradas. Por exemplo, se eu centralizar as estimativas médias posteriores relatadas por bayesmh, os resultados parecem concordar. Abaixo eu mostro toda a especificação do modelo bayesiano set seed 14 bayesmh q (1 (-)), verossimilhança (logit) /// redefinir (diff: i. item) redefinir (subj: i. id) /// anterior (, normal (0, 1)) /// anterior (, normal (0, 1)) /// excluir () burnin (5000) pontos de economia (sim1, substituir) Com as seguintes poucas linhas de código eu centralizo as estimativas médias posteriores para item dificuldades e listá-los. matriz mitem e (média) clara mitmat svmat, nome (item) summ item, média apenas gen citem item - r (média) lista 82128212821282128212821282128211 item1 citem 82128212821282128212821282128211 1. -.6146172 -.4006386 2. -.104734 .1092446 3. -1.578288 -1.364309 4. .2841987 .4981773 5. 1.444101 1.65808 82128212821282128212821282128211 6. .6083501 .8223287 7. 1.159187 1.373166 8. -2.090234 -1.876255 9. -1.033772 -.8197934 82128212821282128212821282128211 Obrigado novamente pela informação adicional. Eu pensei que pode ter havido diferenças mais substanciais entre os algoritmos MLE marginais e conjuntos para estimar os parâmetros item e pessoa, mas isso definitivamente ajuda bastante. Obrigado novamente, Billy Oi, eu realmente aprecio este post e o trabalho que você fez nesses modelos. Eu tenho um problema muito mais simples. Na tentativa de configurar um modelo simples de IRT bayesiano com dados que tem 37.000 observações com 10 questões cada. Toda vez que tento executar o 1PL descrito acima, recebo o seguinte erro: id de variável está ausente ou contém valores não inteiros r (198). Tenho certeza de que isso tem algo a ver com a maneira como o id está sendo armazenado, mas ainda não descobri como corrigir isso. Boa apresentação na conferência do Stata Nikolay. Definitivamente legal para obter mais explicações sobre as coisas e ver outros usos das técnicas. PhD em Estatística da Stanford University PhD Minor em Finanças pela Stanford Business School4 anos de experiência relevante em Wall StreetMais de 10 cursos de graduação, mestrado e doutorado lecionou na Stanford durante um período de 5 anos2 anos de consultoria estatística na Stanford: assessorando pesquisadores e estudantes nas áreas de Medicina, Biologia, Psicologia, Sociologia, Educação e Engenharia7 anos de consultoria estatística em finanças na cidade de Nova York e em todo o mundo (remotamente): empresas de consultoria, profissionais de negócios, pesquisadores e estudantes nas áreas de Finanças, Marketing, Medicina, Biologia, Psicologia, Sociologia, Ciência Política, Educação, Engenharia e Ciência da ComputaçãoMais de 50 fundos de hedge, empresas de consultoria, empresas de TI e on-line negócios em Nova York, Long Island, Los Angeles, São Francisco, Chicago, Londres e Melbourne, atuando como clientes nos últimos 7 anosMais de 80 profissionais de finanças atuando como clientes nos últimos 7 anosMais de 40 médicos, enfermeiros e outros profissionais médicos atuando como clientes nos últimos 7 anosMais de 20 pesquisadores / professores em Psicologia, Sociologia, Educação e Ciência Política solicitando ajuda com a parte estatística de sua pesquisa nos últimos 7 anosMais de 70 alunos de doutorado em Biologia, Psicologia, Sociologia, Educação e Finanças solicitando ajuda na preparação e defesa de dissertações nos últimos 7 anosMais de 200.000 linhas de código escritas em R, Matlab, SAS e Stata durante a carreira de consultoria ÁREAS SELECIONADAS DE EXPERIÊNCIA As áreas podem ser divididas em várias categorias amplas e sobrepostas: estatística - mineração de dados / aprendizado de máquina, processamento de sinais, reconhecimento de padrões, redes neurais, projeção, análise de wavelets, MART, MARS , CART, classificação, floresta aleatória, algoritmo genético, regressão da crista, laço, vizinho mais próximo, discriminação análise nant, análise de agrupamento, regressão linear múltipla, regressão logística, transformação logit / probit, linearização de regressão não linear, spline, kernel mais suave, estatística não paramétrica, máquinas de vetores de suporte, validação cruzada, seleção de modelo, bootstrap, jacknife, análise fatorial / principal análise de componentes (PCA), análise de correlação canônica, Monte Carlo, redução de variância, amostragem antitética / importância, covariate, Monte Carlo da Cadeia de Markov, algoritmo EM, amostrador de Gibbs, Metropolis - Hastings, regra de Bayes, Estatística Bayesiana, distribuição anterior conjugada, posterior expectativa condicional, distribuição multivariada, análise do caminho, imputação múltipla para dados perdidos, escore z, teste t, teste F, teste qui-quadrado, teste de Wilcoxon, cálculo do poder e tamanho da amostra, mínimos quadrados ponderados (WLS) quadrados (GLS), heteroskedasticity, alavancagem, diagnósticos de outlier, estimativa robusta / teste de hipóteses / intervalo de confiança, encolhimento, vari adaptação, adequação de escore de propensão, modelo linear generalizado (GLM), análise de variância (ANOVA / MANOVA), análise de covariância (ANCOVA / MANCOVA), bioestatística / biometria / biometria / bioinformática, GWAS, genética populacional, análise de sobrevivência, Kaplan - Meier estimador, modelo de Cox, estudo longitudinal, dados de painel, efeito fixo, efeito aleatório, modelo de efeitos mistos, taxa de erro familiar, correção de Bonferroni, desenho experimental, desenho de pesquisas, teoria da confiabilidade, distribuição binomial / geométrica / gama negativa, ensaio de Bernoulli , probabilidade discreta - estatística ajuda a bioestatística de amp ajuda econometria - séries temporais, variável instrumental, equações simultâneas, modelagem de equações estruturais (SEM), método generalizado de momentos (GMM), método de máxima verossimilhança, quase verossimilhança, eficiência assintótica, grandes propriedades de amostra, ARMA / ARIMA, ARCH / GARCH, ARDL, autorregressão vetorial (VAR), teoria espectral, autocorrelação, filtro de Kalman e outros filtros métodos, previsão, análise de intervenção, controles sintéticos - econometria ajudam estatísticas estocásticas ajudam processos estocásticos - martingale, ponto / contagem / processo de Poisson, movimento Browniano, processo de Levy, campo aleatório, interpolação / extrapolação, difusão / salto-difusão, semimartingale, volatilidade estocástica modelagem, cálculo estocástico, equação diferencial estocástica (SDE), lema Ito, equação inversa de Kolmogorov, Feynman - Kac, distribuição estacionária, cadeia de Markov, irredutibilidade, estado transitório / absorvente / recorrente, equação de balanço, transição, processo de mudança de regime, modelo de Markov oculto (HMM), mudança estrutural - ajuda econométrica de probabilidade ajuda a financiar - precificação de ativos, precificação de opções, medida neutra a risco, estratégia de replicação, risco de mercado, Black-Scholes, estrutura a termo, produtos de taxa de juros, câmbio (FX / FOREX), derivado de crédito, ações, commodities, opção de compra, derivativos exóticos, swap, swaption, cap, caplet, swap de extinção, troca de celulares, bônus que pode ser chamado, bônus convertível, opção de barreira, opção asiática / americana, nocaute, nocaute duplo, opção de beisebol, contrato futuro, CDS, CDO, tranche de índice, primeiro a swap padrão, hipoteca, pré-pagamento empírico modelos, modelos de cópula, modelos estruturais, modelos de forma reduzida, métodos baseados na classificação Moodys / SampP, sorriso de correlação, curva de perdas, Heath - Jarrow - Morton (HJM), Longstaff - Scwartz, Crank - Esquema Nicolson, teoria de carteiras, economia financeira, estatística arbitragem (statarb), reversão, momentum, cointegração, Dickey - Fuller, negociação proprietária, otimização da relação Sharpe / CalMar, backtesting, drawdown, análise técnica, otimização de portfólio e gerenciamento de risco, hedging, trading borboleta, engenharia financeira / finanças matemáticas - ajuda financeira software estatístico - Matlab, R / S-PLUS, SPSS / AMOS, SAS, JMP, Stata, Minitab, EViews, Microsoft Excel - ajuda de estatísticas, bioestatística ajuda amp ajuda financeira. Normalmente, eu me encontro cara a cara com clientes em Nova York e trabalho via Skype, e-mail e / ou telefone com clientes em outros locais. O que se segue é uma lista extensa dos locais que eu cobri no passado: Stanford (Califórnia), área metropolitana de Nova York, Princeton (Nova Jersey), Long Island, New Heaven, Greenwich (Connecticut), Filadélfia, Pittsburgh (Pensilvânia). Boston, Cambridge (Massachusetts), Chicago (Illinois), Washington DC, Baltimore (Maryland), Miami, Orlando (Flórida), Sacramento, São Francisco, Palo Alto, Mountainview, São José, Los Angeles, San Diego (Califórnia), Seattle (Washington), Houston, Austin, Dallas, College Station (Texas), Phoenix (Arizona), Denver (Colorado), Columbus (Ohio), Toronto, Montreal, Vancouver (Canadá), Cidade do México (México), Londres, Cambridge, Edimburgo, (Reino Unido), Paris (França), Bergen (Noruega), Berlim, Frankfurt (Alemanha), Cidade do Kuwait (Kuwait), Singapura, Hong Kong (China), Tóquio (Japão), Sydney, Melbourne, Brisbane, Adelaide Perth (Austrália). Por favor, leia a descrição detalhada dos serviços oferecidos nas áreas de consultoria estatística e consultoria financeira: home page. tipos de serviço. estudos de caso e opções de pagamento.

No comments:

Post a Comment